Vous êtes sur la page 1sur 25

Chapitre 2 :

LES CARACTERISTIQUES DE
TENDANCES CENTRALES
ET DE DISPERSION

Avant-propos :

Jusqu’à présent, on a repéré et classé des données. Maintenant, on va résumer les données car un
tableau ou un graphe donne souvent trop de renseignements.
Un moyen de résumé c’est par exemple de calculer une moyenne.
C’est un indicateur de tendance centrale mais quand on résume, on résume par un nombre et on
perd beaucoup d’informations.

250 étudiants : Le doyen lui demande que valent tes étudiants quantitativement ?
Je calcule la moyenne : C’est pas mal, ils ont 11 de moyennes.
Et il dit combien, ils avaient l’année dernière : 11 de moyennes aussi.
Ah d’accord c’est les même alors ! C’est complètement faux.
Tout le monde vers 10, 11, 12 Le profil est proche de la moyenne.
Alors que l’autre année : 19, 10, 7 Le profil n’est pas le même. Dispersion

Il y a moyenne que l’on calcule ӿ et la caractéristique de dispersion qui se calcule par écart type Σ.
L’écart type c’est la Racine carré de la variance V(x).
Il y a deux piliers en statistiques : Les caractéristiques de positions et les caractéristiques de
dispersion.
Elles sont internationales. Il faut donc les calculer de la même manière soit savoir repéré une bonne
et mauvaise statistiques.
Le statisticien britannique YULE du siècle dernier 1945 à repérer 6 caractéristiques.

Une caractéristique doit :


 Etre défini de façon objective
 Dépendre de toutes les observations de la série
 Avoir une signification facile à concevoir
 Etre facile à calculer
 Peut sensible aux fluctuations d’échantillonnage
 Se prêter aisément aux calculs algébriques
Cependant, le terrain des moyennes est dangereux
Section 1 : Caractéristiques de tendances centrales
Paragraphe 1 : le mode
Le mode, c’est tout simplement la valeur de la variable la plus fréquente.
1.4.6.6.7.7.7.7.7.7.7.7.8.9.10  mode = 7

Quand la variable est continue, on a des classes :

Classe modale

Mode

Quand les classes sont égales, on prend le rectangle le plus haut pour la classe modale.
Xi Ni
[10,20[ 5
[20,30[ 10
[30,40[ 15
[40,50[ 5

Classe modale= [30,40[soit on prend le milieu de la classe modale soit on va sur Excel et on fait
l’histogramme. Menu création inversion lignes et colonnes.
Le mode c’est fait pour donner une idée rapide.

Quand les amplitudes sont inégales, ça se complique

Xi Ni Ai Hi
[10,20[ 70 10 70
[20,30[ 60 10 60
[30,50[ 180 20 90
[50,90[ 240 40 60
[90,100[ 40 10 40

A quoi sert le mode ?


Le mode c’est une valeur central qui se calcul de façon très rapide.
Chercher distribution bimodale.
Paragraphe 2 : La médiane Mé

A) Définitions et calculs pratiques

1) Définitions
On parle souvent de classe médiane ou encore salaire médian, ça veut dire qu’il y a autant d’individu
avant la médiane qu’après la médiane. Elle partage la série en deux parties égales mais il faut que
cette distribution soit ranger  fréquences cumulées.
Exemple : 8.2.4.6.7.10.11.3.18 d= 2.3.4.6.7.8.9.10.11.18 La médiane est 7
F(Mé)= O,5
N(Mé)= n/2

Quand on a une série paire, on a une classe médiane.

2) Calcul de la médiane

 Variables discrètes
Xi Ni Fi F(x)
0 50 0.28 0,28
1 60 0.33 0.61 0,5
2 40 0.22 0.83
3 20 0.11 0.94
4 5 0.03 0.97
5 5 0.03 1
Il faut trouver f(Mé)=0.5, donc Mé = 1.

0.5

0 1 2 Mé 4 5
 Variables continues

0,5

Principe de l’interpolation linéaire

Graphiquement, je vais tomber sur la médiane, par le calcul il faut faire une interpolation linéaire.
On va assimiler la portion de cette courbe à une droite et on applique le théorème de Thalès.

Détermination par le calcul

Xi= 10^ 3 Centre de classe Ni fi Fi


[3,4[ 3500 26 0.186 0.186%
[4,5[ 4500 33 0.235 15.4%
[5,6[ 5500 64 0.458 23.1%
[6,7[ 6500 7 0.050 30.7%
[7,8[ 7500 10 0.07 23.1%
Total 140 Total 100%

Mé : xi + ai [(0.5 - f(x)) ÷ fi]

 Remarque :
Quand on a le résultat, on s’arrête à un chiffre après la virgule.
Mé différent de ӿ

B) Généralisation de la médiane : les quartiles


1) Les quartiles

I ı ı ı ı
0 Q1 Q2 Q3 1

L’intervalle interquartiles = Q3 – Q1
2) Déciles

3) Centiles
La même chose sauf que c’est divisé par 100%.

C) Propriété de la médiane
La médiane partage l’histogramme en deux surfaces égales

fi

Mé xi

Xi Mé Xj
I I I
F(xi) 0,5 F(xj)

(Mé – xi) ÷ (0,5 – F(xi)) = (Xj – Xi) ÷ (F(xj) – F(xi))

Ecart absolu moyen à la médiane.


Livre Bleu Page 117
Paragraphe 3 : La moyenne ӿ
A) Définitions

Elle est égale à la somme de la valeur prise par la variable divisé par le nb d’observation.

ӿ = Σ (fi x xi)
De plus, fi= ni ÷ n ni= fi x n ӿ = (1÷n) Σ (fi x n)

Donc ӿ = Σ (fi x xi)

On peut donc calculer par les fi ou bien par ni xi.

B) Calculs pratiques obligatoires


1) Variables discrètes

Xi Ni Xi.ni (Xi.ni)÷ Σ ni
6000 30 180000 3600
7000 15 105000 2100
8000 5 40000 1000
total 50 325000 6700

ӿ = (325000÷50) = 6700

2) variables continue

Xi= 10^ 3 Centre de classe=Xi Ni fi


[3,4[ 3500 26 91000
[4,5[ 4500 33 148500
[5,6[ 5500 64 352000
[6,7[ 6500 7 45500
[7,8[ 7500 10 75000
Total 140 712000

ӿ = (712000 ÷ 140) = 5085,7

La somme des écarts à la moyenne est nulle :


Σ ni (xi - x) = 0

La somme des carrés des écarts à la moyenne est minimale :


Σ ni (xi - a) ² est minimale pour a = ӿ
On va démontrer que Σ ni (xi - a) ² est minimale pour a = ӿ
D) L’analyse shift and share et l’effet de structure

Quand on veut comparer deux phénomènes, on a tendances à comparer leur moyenne. C’est faux.
Les étudiants sont passés d’une moyenne de 6 à 12.
Est – ce que leur valeur à doubler ?
La valeur n’a pas doublé, cette comparaison dépend d’une pondération.
Chercher pondérer wiki.

1. Exemple type :
* Soient deux régions : R1 et R2
* Trois secteurs économiques :
 S1 (par exemple : l’Agriculture)
 S2 (par exemple : Industrie + BTP)
 S3 (par exemple : Services et commerces)
* Une phénomène : La productivité du travail mesurée par le rapport :
Valeur ajoutée (VA) sur nbrs d’emplois (E).

VA÷E de R1 ˃ VA÷E de R2

On a tendance à croire que dans R2, ce sont des flémards.


Mais la réalité peut être exactement le contraire, si on est en présence de spécialisations
sectorielles (c’est-à-dire beaucoup d’emplois dans le même secteur d’une région), et d’écarts de
productivités très différentes d’un secteur à un autre (VA très différentes par exemples).

TABLEAU DES DONNEES CHIFFREES :


S1 S2 S3 Total

Régions/Secteurs E VA E VA E VA E VA
R1 500 40 6000 1300 500 45 7000 1385
R2 1500 170 1000 380 1000 120 3500 670
R1+R2 2000 210 7000 1680 1500 165 10500 2055

TABLEAU DES PRODUCTIVITES REGIONALES :

Région/ VA÷E x1000 S1 S2 S3 Global


R1 80 217 90 198
R2 113 380 120 191
R1+R2 105 240 110 196
On voit bien que la productivité de R1 est plus forte que celle de R2.
Or, si on compare les productivités on remarque que l’on dit deux choses contradictoires.
R1 a une productivité plus forte (tableau 1) et R2 a une productivité plus forte (tableau 2)
C’est du à un effet de structure.
Structurellement, l’industrie dégage toujours une meilleure productivité que les autres secteurs,
R1 ayant beaucoup d’emplois dans l’industrie, cela va tirer la moyenne de R1 vers le haut.

Dans le shift and share, on se pose la question suivante :


Comment ça se passerai si les données étaient différentes ?
On va calculer les valeurs ajoutées qu’auraient dû avoir chaque région si les productivités moyennes
entre les régions étaient égales.

On choisit VA÷E = 105 pour S1, dans R1 et R2


= 240 pour S2, dans R1 et R2
= 110 pour S3, dans R1 et R2

LE NOUVEAU TABLEAU DES VALEURS AJOUTEES FICTIVES DEVIENT :


S1 S2 S3 Total

Régions/Secteurs E VA E VA E VA E VA
R1 500 52,5 6000 1440 500 55 7000 1547,5
R2 1500 157,5 1000 240 1000 110 3500 507,5
R1+R2 2000 210 7000 1680 1500 165 10500 2055

On voit nettement les différences de valeur ajoutée entre les régions. Ces valeurs fictives sont dues
au seul fait de la structure, c’est-à-dire indépendamment des spécialisations et des différences de
productivité : c’est « l’effet de structure ». Il faut comparer aux valeurs observées dans les
données :

VA (fictives) VA (observées) Différence Ecart en %


R1 1547,5 1385 -162,5 -10,5
R2 507,5 670 +162,5 +32%
R1+R2 2055 2055 0 0

Les écarts ou les différences sont imputés aux différences inter-régionales de productivités : c’est
« l’effet résiduel » et, en définitive :

R1 présente un niveau de productivité inférieur de 10,5% à la moyenne


R2 présente un niveau de productivité supérieur de 32% à la moyenne
2) Forces et faiblesse du shift and share

 Intérêt économique :
Relativiser les phénomènes. Expliquer une réalité masquée. Décomposer l’évolution d’une variable
suivant plusieurs composantes.

 Intérêt statistique :
C’est une réinterprétation de la moyenne. C’est une critique des résultats moyens. Cependant : la
réalité « brute » reste ce qu’elle est : les moyennes sur les données ne sont pas fausses ; seules
l’interprétation demande l’utilisation de la méthode.

 Critiques :
L’évaluation du share dépend de la pertinence et du nombre de rubriques utilisées dans le tableau
statistique. Le découpage en rubriques doit être pertinent et homogène (il ne faut pas, par exemple,
qu’il y ait à l’intérieur de chaque rubrique… des effets de structure).

En bref : Sa force est de lever un doute. Elle est une interprétation de la moyenne.

Exercice examen :
Deux entreprises : A et B
A : emploi 3 quart homme (payé 16€ la pièce) et 1 quart femme (payé 12€ la pièce)
B : emploi 3 quarts femme (payé 13€ la pièce) et 1 quart homme (payé 17€ la pièce)

Il y a un effet de structure : dans cette économie-là, les femmes sont moins bien payées.
Sa=(0.75x16)+(0.25x12)=15€
Sb=(0.75x13)+(0.25x17)=14€
B a un salaire moyen inférieur. Or B paye mieux les hommes et les femmes que A sauf qu’ils
emploient plus de femmes qui sont moins bien payées que les hommes. (EFFET DE STRUCTURE)

Quelle seraient le salaire de B, si on avait la répartition de A ?


On peut se poser une autre question :
Quelle seraient le salaire de A, si on avait la répartition de B ?
Ou encore
Quelle seraient le salaire de A et B, si on rémunérait tout le monde de la même manière ?

Il y a un très grand nombre de possibilités de questions pour utiliser la méthode shift and share.
Les résultats seront différents mais iront toujours dans le même sens.

S1= (0.75x17) + (0.25x13)= 16 donc 14/16= 0.875


S2= (0.75x12) + (0.25x16)= 13 donc 15/13= 1.15
Paragraphe 4 : Généralisation de la notion de moyenne
A) Moyennes arithmétiques ou autres valeurs centrales : Que choisir ?
B) Les moyennes non arithmétiques
1) Moyenne Géométrique
3) Moyenne Quadratique
4)Moyenne d’ordre « r », ou moyenne généralisée
 13/10/2011
 Cours de statistique n°6

Section 2 : Les caractéristiques de dispersion


Les valeurs centrales ne donnent pas de renseignement sur les dispersions.
Pour mesurer la dispersion, on a rien trouvé de mieux que de la mesurer par les écarts.

Paragraphe 1 : les écarts simples


A) L’intervalle de variation ou étendue d’une série
C’est la manière la plus simpliste de mesurer la dispersion.
Définition : L’étendue est la différence entre la plus grande et la plus petite des valeurs observées de
la variable.
C’est donc la différence entre les deux valeurs extrêmes. On comprend qu’elle est sujette à des
fluctuations considérables d’un échantillon à l’autre, et que par là même elle ne satisfasse pas la 5ème
condition de Yule. Elle satisfait très mal les autres conditions et on ne l’utilise que pour obtenir très
rapidement une première idée de la dispersion de la série.
Exemple : on pourra dire : des notes d’examen varient de 2/20 à 18/20.

B) : Les intervalles interquartiles


On s’intéresse ici aux intervalles qu’ils déterminent sur la série.
Pour éviter d’effectuer des calculs sur des valeurs extrêmes et souvent aberrantes, face au
phénomène étudié, comme dans le cas de l’étendue, on choisit souvent de les écarter de la série. On
perd de l’information, mais on gagne de l’homogénéité.

L’intervalle interquartile Q3 – Q1 contient 50% des observations.


L’intervalle inter décile D9-D1 contient 80% des observations.

Cependant ces caractéristiques de dispersion restent assez imparfaites : elles ne se prêtent que très
mal au calcul algébrique.

C) L’écart absolu moyen


On regarde de combien chaque observation s’écartent d’une valeur centrale.
Il s’agit donc d’une moyenne arithmétique d’écarts par rapport à une valeur centrale (ӿ ou Mé), et
non plus d’un intervalle entre deux valeurs.

Ecart absolu moyen par rapport à la moyenne arithmétique :


𝒌
𝟏
𝒆 = ∑ 𝒏𝒊 𝒙𝒊 − 𝒙
𝒏
𝒊=𝟏

Ecart absolu moyen par rapport à la médiane


𝒌
𝟏
𝒆 = ∑ 𝒏𝒊 𝒙𝒊 − 𝑴é
𝒏
𝒊=𝟏
Paragraphe 2 : La variance, l’écart type et le coefficient de variation
A) Variance et écart-type ou écart quadratique moyen
L’écart-type est, comme l’écart absolu moyen, une moyenne d’écarts, mais au lieu de manipuler des
valeurs absolues, on élève chaque écart au carré, ce qui permet de ne conserver que des valeurs
positives.
Des moyennes de carrés de valeurs sont moyennes quadratiques : d’où la deuxième appellation de
l’écart type : écart quadratique moyen.

1) Définitions
L’écart type étant défini à partir de la variance ; il nous faut commencer par définir la variance :
On appelle variance V(x) d’une variable statistique xi à laquelle correspondent des effectifs ni, la
moyenne arithmétique des carré des écarts à la moyenne arithmétique.

Un écart : xi – x
La somme : Σ xi – x
Pondération : Σ ni (xi – x)
Elevée au carré : Σ ni (xi – x) ²

𝟏
Formule variance : 𝑽(𝒙) = ∑𝒌𝒊=𝟏 𝒏𝒊 (𝒙𝒊 − 𝒙)𝟐 ou 𝑽(𝒙) = ∑𝒌𝒊=𝟏 𝒇𝒊 (𝒙𝒊 − 𝒙)𝟐
𝒏

𝟏
Formule Ecart-type : 𝝈x = √ 𝑽(𝒙) = √ ∑𝒌𝒊=𝟏 𝒏𝒊 (𝒙𝒊 − 𝒙)𝟐 = √ ∑𝒌𝒊=𝟏 𝒇𝒊 (𝒙𝒊 − 𝒙)𝟐
𝒏

2) Calcules pratiques

Première méthode : par la formule de définition


Classes Effectifs ni Centre de Ni xi (1) Xi - ӿ (2) (Xi - ӿ) ² (3) Ni (Xi - ӿ) ²
classe xi (4)
[1 ; 1,2[ 26 1,1 28,6 -0,317 0,100 2,613
[1,2 ; 1,4[ 33 1,3 42,9 -0,117 0,014 0,452
[1,4 ; 1,6[ 64 1,5 96 0,083 0,007 0,441
[1,6 ; 1,8[ 7 1,7 11,9 0,283 0,080 0,561
[1,8 ; 2[ 10 1,9 19 0,483 0,233 2,333
140 198 ,4 6,4

(1) : Colonne qui permet de calculer la moyenne 𝒙


(2) : On enlève 𝒙 à chaque xi correspondant
(3) : On élève au carré les données de la colonne précédentes
(4) : On multiplie par ni chaque chiffre précédent

Remarque : Au lieu de faire les (ni xi), on aurait tout aussi bien pu calculer les fréquences relatives fi
puis remplir les colonnes suivantes.
Deuxième méthode : par la formule développée
Elle utilise la formule dite « développé de la variance » qui n’est autre qu’une forme simplifiée de la
formule de définition.

Classes Effectifs ni Centre de Ni xi (1) Xi² (2) Ni xi² (3)


classe xi
[1 ; 1,2[ 26 1,1 28,6 1,21 31,46
[1,2 ; 1,4[ 33 1,3 42,9 1,69 55,77
[1,4 ; 1,6[ 64 1,5 96 2,25 144
[1,6 ; 1,8[ 7 1,7 11,9 2,89 20,23
[1,8 ; 2[ 10 1,9 19 3,61 36,1
140 198 ,4 287,56

(1) : Colonne des ni xi


(2) : On élève au carré les centres de classe xi
(3) : On multiplie les ni xi par xi soit ni xi²
3) Propriétés de l’écart-type et généralisation du théorème de König
L’écart type satisfait bien à l’ensemble des conditions de Yule, bien que son calcul soit assez long et
qu’il soit plus sensible aux fluctuations d’échantillonnage que la moyenne.
C’est la meilleure caractéristique de dispersion et la plus utilisée dans la plupart des cas.
Son principal avantage est de pouvoir se prêter aux calculs algébriques.

L’intérêt, c’est de remplacé a par une valeur connue.

𝟏
𝝈² = ∑ 𝒏𝒊 𝒙𝒊² − 𝒙² = 𝑽(𝒙) Elle s’énonce : « Le carré de l’écart-type est égal à la moyenne des
𝒏
carrés moins le carré de la moyenne ».
Il s’agit en fait de la formule développée de la variance qui nous a permis de traiter le calcul de V(x)
plus rapidement que la formule de définition. La démonstration de cette formule développée a déjà
été abordée.

4) Variance inter et intra populations.


Dans bien des cas, une population statistique « P » est composée de plusieurs sous-populations (P1,
P2, …, Pk)
Cette deuxième propriété algébrique de l’écart-type (associée aux propriétés de la moyenne
arithmétique) permet de calculer la variance globale de la distribution (population P), lorsque l’on
connait les variances des différentes sous-populations.
Pour simplifier l’écriture, mais en sachant que les conclusions ci-après peuvent se généraliser,
considérons qu’une population P (de moyenne ӿ) et d’effectif (n1+n2=n) est composée de deux sous-
population : P1 (de moyenne ӿ1 et d’effectif n1) et P2 (de moyenne ӿ2 et d’effectif n2).
La moyenne, c’est la moyenne pondéré des différentes moyennes.
P1  100=n1 x1= 4800

P2  400=n2 x2=4500

ӿ= (1÷500) [(100x4800) + (400x4500)]

La variance intra population [V (xi)] est la variance que l’on obtiendrait si toutes les sous-
populations avaient la même moyenne (qui serait donc égale à la moyenne globale). Ce serait alors la
mesure de la dispersion globale (le deuxième terme de la formule générale serait nul).

La variance inter population [V (xi)] est la variance que l’on obtiendrait si les sous-populations
étaient homogènes, c’est-à-dire si chaque variable de chaque sous-population était égale à sa
moyenne : il n’y aurait aucune dispersion intra population et le premier terme serait nul.
La décomposition de la variance, c’est le pilier de la statistique moderne.
B) Le coefficient de variation
Souvent, on est obligé de comparer les dispersions. Or, un problème se pose quand les observations
ne sont pas exprimées dans la même unité (par exemple : Salaire France : € et Salaire USA : $) De
même lorsque les moyennes de deux séries sont très différentes dans la même unité (production de
blé française et production de blé mondiale) les comparaisons sont difficiles.
Pour supprimer ces désavantages, on détermine un nombre sans dimension appelé coefficient de
variation qui est définie par :
CV = σ X
÷x

Paragraphe 3 : Les moments simples et centrés


Jusqu’ici on a caractérisé une série par un certain nombre de valeurs typiques, dont 𝒙 et 𝜎² sont les
plus fréquemment utilisés.
Or, la moyenne 𝒙 et la variance 𝜎² ne sont que deux cas particuliers de valeurs caractéristiques qu’on
appelle « moments de la série statistique ». Les formules générales des moments sont très utiles
pour retrouver toutes les formules de 𝒙 et 𝜎² sans jamais avoir à les apprendre par cœur.

𝑘 𝑘
1 a = origine du moment
𝑎𝑀𝑟 = ∑ 𝑛𝑖(𝑥𝑖 − 𝑎)ʳ = ∑ 𝑓𝑖(𝑥𝑖 − 𝑎)ʳ
𝑛 r = ordre du moment
𝑖=1 𝑖=1

Tout moment d’ordre 0 est égale à 1.


C’est-à-dire que 𝑎𝑀₀
A) Moments simples
Définition des moments simples : On appelle moment simple d’ordre « r » un moment général
d’ordre « r » pour lequel l’origine « a » est égale à zéro.
Formule générale :
𝑘
1
𝑚𝑟 = ∑ 𝑛𝑖 𝑥𝑖 ʳ
𝑛
𝑖=1

1
𝑚₁ = 𝑛 ∑𝑘𝑖=1 𝑛𝑖 𝑥𝑖 = 𝒙  Moyenne arithmétique pour r =1
1
𝑚₂ = 𝑛 ∑𝑘𝑖=1 𝑛𝑖 𝑥𝑖 ² = 𝑉(𝑥)  1er terme de la formule développé de la Variance pour r = 2

B) Moments centrés
Définition d’un moment centrés : On appelle moment centré d’ordre « r », u moment général d’ordre
« r », pour lequel l’origine est la moyenne arithmétique de la série 𝒙 soit quand a = 𝒙
𝑘
1
μr = ∑ 𝑛𝑖 (xi − x̅)ʳ
𝑛
𝑖=1

Lorsque r = 1, μr = O , puis que le terme ∑𝑘𝑖=1 𝑛𝑖 (xi − x̅) est égale à 0 ( 1ère propriété de la moyenne 𝒙)
Lorsque r=2, on retrouve la formule de la variance, donc μ₂ = V(x)

On voit qu’on a développé un moment centré en une suite algébrique de moments simples.
Chaque moment centré peut être décomposé en moments simple.

Vous aimerez peut-être aussi