Vous êtes sur la page 1sur 47

PARAMETRES STATISTIQUES

PARAMETRES DE TENDANCE CENTRALE


ET PARAMETRES DE DISPERSION
Les paramètres statistiques ou les
indicateurs statistiques sont des
valeurs calculées pour les caractères
quantitatifs, elles ont pour but de
résumer, à partir de quelques nombres
clés, l'essentiel de l'information et de
permettre l’interprétation des données
statistiques.
Les paramètres les plus utilisées sont ceux de
position, de dispersion, de forme ou de
concentration:
 Les indicateurs de position les plus utilisées
sont ceux de tendance centrale car ils
représentent une valeur numérique autour de
laquelle les observations sont réparties.
 Les indicateurs de dispersion permettent de
nous renseigner sur la manière dont les
différentes observations sont réparties autour
des différentes caractéristiques de tendance
centrale.
LES MOYENNES:
MOYENNE ARITHMETIQUE
Considérons une variable statistique quantitative
X : ( x1 , x2 , x3 ,......., xn ) avec ( x1 , x2 , x3 ,......., xn )
sont les valeurs observées.
La moyenne arithmétique de cette série statistique
(xi, 1 ≤i≤ n) se calcule de la manière suivante :
1 n
x   xi
n i 1
Cette moyenne s’appelle moyenne arithmétique observée
puisqu’elle est calculée à la base des valeurs observées. Elle
s'exprime toujours dans la même unité que les observations
xi . Elle peut être décimale, même si les xi sont entiers par
nature.
Moyenne arithmétique pondérée: Cas
discret
 Considérons la série statistique (xi, ni); avec xi
les modalités et ni les effectifs correspondants.
 La moyenne arithmétique dans ce cas serait
égale à: m
1
x   ni xi
n i 1
n est l’effectif total.
 Notons fi la fréquence correspondante à la
modalité xi, la moyenne arithmétique serait
égale aussi à: m
x   f i xi
i 1
EXEMPLE 2
Un chef d’entreprise se préoccupe des absences multiples
de ses salariés pour des causes multiples et a voulu s’assurer
si ses soupçons étaient justifiées. Il a demandé ensuite au
responsable des ressources humaines de lui calculer la
moyenne des absences pour le dernier semestre:
xi ni fi
Ainsi la moyenne arithmétique des
5 3 3.57 %
jours d’absences est :
6 1 1.19 %
7 13 15.47 %
1 7 7
740
8 16 19.04 % x   ni xi   f i xi   8.8
9 21 25 % n i 1 i 1 84
10 19 22.61%
Ce qui justifie les soupçons du
11 11 13.09%
chef de l’entreprise
Total 84
Moyenne arithmétique regroupée: Cas
continu
 Considérons la série statistique (xi, 1≤ i ≤ n) et ci les

centres des m classes ei , ei 1 .
 On note ni les effectifs correspondants aux mêmes classes.
 La moyenne arithmétique dans ce cas serait égale à:
1 m
x   ni ci
n i 1
 Si fi est la fréquence correspondante à la classe
ei , ei 1 , la moyenne arithmétique est calculée par:
m
x   f i ci
i 1
Exemple 3
Considérons le tableau regroupant les salaires dans
une entreprise:
Classes ni fi ci

[2000, 4000[ 20 30.76% 3000


[4000 – 6000[ 22 33.84% 5000
[6000 – 8000[ 12 18.46% 7000

[8000 – 10000[ 5 7.69 % 9000

[10000 – 16000[ 4 6.25% 13000

[16000 – 30000[ 2 3.07% 23000

Total 65 100 % 100

1 m 397000
x   ni ci   6107 ,69
n i 1 65
Moyenne de plusieurs populations
 Considérons plusieurs populations d'effectifs
n1, n2, ....., nk, de moyennes respectives :

x1, x2 , ......,xk
La moyenne globale = moyenne des moyennes
1 k
x   ni x i
n i 1
Avec k
n   ni
i 1
Moyenne géométrique

Avec les notations précédentes :

np
G = x ´ ...´ x
n n1
1 n

est la moyenne géométrique de la


série statistique.
Exemple
L’essence a augmenté de 10% l’an
dernier et de 30% cette année. Quelle
est le taux d’augmentation annuel ?
Ce n’est pas 20% ! La moyenne
arithmétique ne convient pas.
Si t est ce taux, on a bien sûr :
1+ t = 1,1´1,3
et donc t = 0,196 = 19,6%.
La « bonne » moyenne est ici la
moyenne géométrique.
Moyenne harmonique

Toujours avec les notations


précédentes :
n
H=
å ni / x i
i
est la moyenne harmonique de la
série statistique.
Exemple

Si je fais un trajet aller-retour avec une


vitesse v1 à l’aller et une vitesse v2 au
retour, quelle est ma vitesse moyenne
sur l’ensemble du trajet ?
La réponse n’est pas
v 1 + v 2

2 2
Mais 1 1 qui est la moyenne
+
v1 v 2
harmonique de v1 et v2.
LE MODE
C'est la valeur dont la fréquence est la plus
élevée.
o Si la série n’a qu’un seul mode, elle est dite
unimodale.
o Dans le cas contraire, on la qualifie de
plurimodale.
Ce cas apparaît surtout si la population est un
mélange de groupes hétérogènes.
f
r
é
q
u
e
n
c
e
X X
modes mode mode
principal secondaire
Détermination du mode :
 Cas d'une variable discrète : Le mode
est facilement repérable. Sur le tableau
statistique, c'est la valeur xi pour
laquelle la fréquence est la plus élevée
140

120 Exemple
100

80

60

40

20

0
0 1 2 3 4 5 6

Le Mode
Cas d'une variable continue
 Les données sont groupées en classes ; deux
situations se présentent: les amplitudes sont égales
ou non égales.

Si les amplitudes sont égales : on définit la classe


modale comme la classe correspondant à la
fréquence la plus élevée.
Exemple

100
90
80
70
60
50
40
30
20
10
0
900 1400 1900 2400 2900 3500 ou plus...

Mode Classe modale


Calcul de la valeur modale
Supposons que [ei , ei 1[ est la classe modale et
ai  ei 1  ei l’amplitude de la classe modale.

 i  ni  ni 1 la différence entre l’effectif de la classe


modale et la classe qui lui est inférieure.
 s  ni  ni 1 la différence entre l’effectif de la classe
modale et la classe qui lui est supérieure.
La valeur modale est donnée approximativement par la
formule suivante:
i
M o  ei  ai
i   s
Cas d'une variable continue

Si les amplitudes sont inégales : on définit la classe


modale comme étant la classe ei , ei 1 
correspondant à la densité ou l’effectif corrigé le
plus élevé.
La valeur modale est calculée dans ce cas
à l’aide des effectifs corrigés ou des densités.

i c
M o  ei  ai ; i c  nic  ni 1c
i c   s c
Exemple
On a questionné un échantillon de 40 personnes sur
le temps passé devant la télévision, on a obtenu les
Résultats suivants:

Temps [0,1[ [1,2[ [2,3[ [3,4[ [4,5] Total

Effectifs 5 15 10 8 2 40
Fréquence 12.5% 37.5% 25% 20% 5% 100%

M o  1  1
15  5
 1,666
15  5  15  10 
Exemple
Ci-dessous les tailles de 50 étudiants regroupés dans
des classes d’amplitudes inégales:
Tailles [150,165[ [165,170[ [170,175[ [175,185[ [185,200[ Total

Effectifs 15 6 10 16 3 50

Effectifs 1 1.2 2 1.6 0.2 #


corrigés

La classe modale est la troisième classe dont


l’effectif corrigé est le plus grand.

M o  170  5 
2  1.2
 173 .33
2  1.2  2  1.6
LA MEDIANE: Cas d'une variable discrète

On range les valeurs observées par ordre croissant.

La médiane Me est la valeur du milieu de la série


d’observations, c.à.d. telle qu'il y ait autant
d'observations « à gauche » qu’ « à droite ».

Nombre impair d’observations


3 4 4 5 6 8 8 9 10

4 valeurs 4 valeurs
Me
Si le nombre d’observations est impair N=2p+1, dans
ce cas la médiane est l’observation classé p+1 donc,

M e  x p 1
Exemple 7
Modalités 2 5 6 9 11
Effectifs 2 4 10 8 3
ECC 2 6 16 24 27

M e  x14  6
Nombre pair d’observations
3 4 4 5 6 8 8 9

4 valeurs 4 valeurs

Intervalle médian
Me = milieu = 5,5
Si le nombre d’observations est pair N=2p, on n’a pas
une valeur médiane mais un intervalle médian et on
prend comme valeur médiane le centre de cette classe:
x p  x p 1
Me 
2
Revenons au 2ème exemple :
xi ni ECC x42  x43
5 3 3 Me 
6 1 4 2
7 13 17 99
8 16 33  9
9 21 54
2
10 19 73
11 11 84
Total 84
LA MEDIANE: Cas d'une variable
continue:
Pour des données groupées en
classes, la classe médiane est la classe
correspondante à 50% de FCC et
c’est la classe qui contient la médiane.
On détermine la médiane par
interpolation linéaire.
LA MEDIANE à partir d’une distribution continue

[ei – ei+1[ Fcc

[ 0 - 3 [ 0,391 1
0,9

M [ 3 - 5 [ 0,680 0,5
0,8
0,7
0,6
[ 5 - 10 [ 0,920
0,5 0,5
0,4
[10 - 20 [ 0,963 0,3
0,2
[20 - 30 [ 0,993 0,1
0
[30 - 50 [ 1 -10 0 3,2210 20 30 40 50 60

M-3 0,5-0,391

5-3 0,680-0,391
0,5  0,391
D'où M  3   5  3  3, 22
0,680  0,391
 De manière générale, si a et b sont les
bornes de la classe contenant la médiane,
F(a) et F(b) les valeurs de la fréquence
cumulée croissante en a et b, alors
Dans le cas d'une variable groupée en classes, en peut
calculer la médiane par la formule suivante :
n
ai(  N i 1 )
Me  L0  2
ni
Lo : Limite inférieure de la classe médiane
ai : Amplitude de la classe médiane
n : Nombre total des observations
Ni-1: effectif cumulé croissant de la classe inférieure à la
classe médiane
ni : effectif de la classe médiane
Les Quartiles

Une distribution quelconque admet 3


quartiles Q1, Q2 et Q3.
 25 % des valeurs de la série seront inférieures
à Q1.
 50 % des valeurs de la série seront inférieures
à Q2. Il est claire que Q2 est la médiane.
 75 % des valeurs de la série seront inférieures
à Q3 et plus de 25 % lui seront supérieures.
Les Quartiles: Caractère discret

 Si n désigne l’effectif total, Q1 sera égal à xi, où i


est calculé de la manière suivante:
 Si n/4 n’est pas entier, i serait égale au plus petit
entier supérieur à n/4.
 Si n/4 est entier, xi serait égale à la moyenne de
x(n/4) et de x((n/4)+1).

 Q3 sera égal à xi, où i est le plus petit entier


supérieur à 3n/4 s’il n’est pas entier sinon i serait
égale à la moyenne de 3n/4 et de (3n/4)+1 .
Exemple
Modalités 7 11 13 17 19

Effectifs 11 12 7 4 5

ECC 11 23 30 34 39

n / 4  39 / 4  9,75  i  10 et Q1  x10  7
3n / 4  29 ,25  i  30 et Q3  x30  13
Les Quartiles: Caractère continu

 On détermine d’abord les intervalles


contenant Q1 et Q3.
 Comme on a fait pour le calcul de la
médiane on procède par interpolation
linéaire.
Exemple 2

Classes [2,10[ [10,18[ [18,26[ [26,32[ [32,40[

Effectifs 6 10 8 8 6

Fréquence 15,78% 26,31% 21,05% 21,05% 15,78%

FCC 15,78% 42,09% 63,14% 84,19% 100%

Q1  10 0,25  0,1578

18  10 0,4209  0,1578
0,25  0,1578
 Q1  10  (18  10)   12,8
0,4209  0,1578
PARAMETRES DE DISPERSION
Considérons deux distributions
S1: 7 , 8 , 11 , 12 , 13 , 13, 13.
et
S2: 4 , 7 , 9 , 12 , 13 , 13 et 19.
Moy(S1)=Moy(S2)=11
Me(S1)=Me(S2)=12
Mo(S1)=Mo(S2)=13

S1et S2 ont les mêmes paramètres de


tendance centrale mais elles n’ont pas la
même dispersion.
L’ETENDUE

L’étendue d’une série statistique est la


différence entre la plus grande valeur de la
série et la plus petite.
Remarque
 Par nature très sensible aux valeurs extrêmes.
Exemple
S1: 3 4 8 9 12 15 17 21 39 E1=36
S2: 1 4 8 9 12 15 17 21 52 E2=51
ECART INTERQUARTILE

 L’intervalle interquartile est l’intervalle


[Q1;Q3].
 Cet intervalle contient au moins 50% des
données.
 L’écart interquartile est la différence Q3 - Q1.
 L’écart interquartile diffère de l’étendu par la
non influence des valeurs extrêmes.
Pour visualiser la dispersion d’une série statistique, on
peut alors représenter une « boîte à moustache »,
appelé aussi diagramme de Box et Wiskers ou boîte de
Tukey.

boîte à moustache

1er décile 9éme décile

min max

1er quartile médiane 3éme quartile


INTERPRETATION DE LA BOITE DE TUKEY
 Plus le corps de la boîte (intervalle interquartiles)
est petit, plus les valeurs « du milieu » sont homogènes ;
plus c’est grand, plus c’est hétérogène ou dispersé.

 Plus les moustaches (étendue) sont grandes, plus les


valeurs sont dispersées ; plus c’est petit, moins c’est
dispersé.

 L’axe étant orienté de gauche à droite , plus la boîte est


à gauche plus les valeurs sont basses, faibles ; plus la boîte est à
Droite , plus les valeurs sont hautes, grandes.

 Plus la forme de la boîte à moustaches est symétrique,


plus les valeurs sont « bien réparties », moins la forme est
symétrique, plus les valeurs sont « mal réparties ».
Variance

Soit X une variable statistique définie par:


X : ( x1 , x2 , x3 ,......., xn ) ( x1 , x2 , x3 ,......., xn )
La variance observée est la moyenne arithmétique des
carrés des écarts par rapport à la moyenne:

1
V ( X )   xi  x
n i
 2
Variance
 Dans le cas regroupé la variance serait égale à :
1

V ( X )   ni xi  x
n i
2

Où n i est l’effectif de la modalité x i .
 Dans le cas continu x i sera remplacé par ci , le
centre de la classe ei , ei 1 .

 La variance est le paramètre de dispersion le plus


utilisé en statistiques. Il est Calculé par tous les
calculatrices et logiciels.
Variance
On simplifie la formule de la variance pour
obtenir ce qu’on appelle Formule de Koenig :
1
  1

V ( X )   ni x i  x   ni x i  2 x i x  x
n i
2

n i
2 2

1
n x i i
1
  ni xi2  2 x  x   ni x i  x
2 2 2
i

n i n n i
2
x x
2
i
L’Ecart type
 L’écart type est la racine carrée de la variance:
 X  V (X )
 Propriétés:
La variance et l’écart type sont toujours positifs.
 Considérons la distribution
Y  aX  b
donc

V (Y )  a 2V ( X ), Y  a  X .
Exemple: Dans une commune rurale la distribution
de 100 exploitations en fonctions de la superficie se
présente comme suit:

Superficie en Ha: xi Effectif


[0,5[ 15
[5,10[ 20
[10,15[ 15
[15,20[ 10
[20,30[ 10
[30,50[ 12
[50,75[ 18
Total 100
Exemple
Superficie Effectif Centres x  24 ,05
en Ha: xi
1
V ( X )   ni ci  x
[0,5[ 15 2,5 2 2

[5,10[ 20 7,5 n i
[10,15[ 15 12,5
 1023,875  24,05 2

[15,20[ 10 17,5
[20,30[ 10 25
 445,4725
[30,50[ 12 40  X  445,4725
[50,75[ 18 62,5  21,106
Total 100
Coefficient de variation

Le coefficient de variation est un coefficient sans


unité défini par:
X
C.V 
x
Plus ce coefficient est proche de 0 plus la série
statistique est homogène.
Généralement on considère qu’une série est dispersée
une fois le coefficient de variation dépasse 0,3.

Vous aimerez peut-être aussi