Académique Documents
Professionnel Documents
Culture Documents
1 statistique descriptive est utilisée dans de nombreux domaines et disciplines, comme l'économie,
la finance, l'assurance, le marketing, l'histoire, la géographie, la géologie, la biologie, la
médecine, la météorologie, le sport, etc. Ce très large éventail de domaines d'application s'explique
par le fait que dès lors que l'on dispose de données, c'est-à-dire d'observations, sur le phénomène
que l'on souhaite étudier, il est nécessaire de les traiter afin de pouvoir les exploiter pour en extraire
un certain nombre d'informations pertinentes. Tel est précisément l'objet de la statistique descriptive,
qui permet de résumer et synthétiser l'ensemble des données étudiées au travers de graphiques,
tableaux et divers indicateurs dont l'un des plus connus est la moyenne.
Au-delà de l'analyse d'un seul phénomène, la statistique descriptive permet aussi d'analyser et
chiffrer la relation entre plusieurs phénomènes, c'est-à-dire plusieurs variables, et de mesurer
l'intensité d'une telle liaison.
uel est le salaire annuel moyen des hommes pour les hommes et les femmes? Les femmes sont-
LES GRANDS
AUTEURS William Playfair (1759-1823)
Ingénieur et économiste écossais, William Playfair est considéré comme l'un des
pionniers de la représentation graphique des données statistiques. Dans son ouvrage
Commercial and Political Atlas paru en 1786, il introduit plusieurs représentations
graphiques, comme celle retraçant l'évolution temporelle des intérêts de la dett e pu-
blique britannique au cours du xv111° siècle ou encore le diagramme en bâtons lui
permettant de comparer les importations et exportations de l'Écosse en 1781 à celles
d'autres pays. Également crédité de l'invention du célèbre histogramme, les repré-
sentations graphiques proposées par Playfair figurent parmi celles les plus util isées
en statistique descriptive. Quelques années plus t ard, son ouvrage Statistical Breviary
paru en 1801 présente un schéma circulaire, connu aujourd'hui sous le nom de re-
présentation par secteurs (ou « camembert »). •
"O
0
c
::J
0
1./)
,..-i
0
N
@
.......
..c
Ol
ï::
>-
a.
0
u
2
Distributions
à un caractère
Plan
D Définitions et concepts fondamentaux de la statistique descriptive . . . . . . 5
fJ Caractéristiques d'une distribution à un caractère . . . .. . . . .. ... . .. . . .... . 14
Pré-requis
' Connaître les opérations mathématiques de base.
Objectif~
' Synthétiser, résumer et extraire l'information pertinente contenue dans
une série statistique.
' Représenter graphiquement une distribution statistique.
' Construire un tableau statistique.
' Définir les indicateurs statistiques clés.
"O
0
c
::J
0
1./)
T"""i
0
N
@
.......
..c
Ol
ï::
>-
a.
0
u
Partie 1 Statistique descriptive
e tableau 1. 1 donne la valeur du salaire annuel net moyen en euros des hommes
L et des femmes en France de 1950 à 2010 (source des données : INSEE). La fi-
gure 1.1 représente graphiquement ces mêmes données : la courbe orange décrit
l'évolution du salaire des hommes sur la période 1950-2010, la courbe grise étant rela-
tive à l'évolution du salaire des femmes sur la même période. Sans prendre en compte
l'effet de l' inflation, on constate globalement une tendance haussière avec un niveau
plus élevé du salaire pour les ho mmes que pour les femmes.
4
Chapitre 1 Distributions à un caractère
0
0
0
"'
N
.,c>-
~
0
0
0 0
E 0
N
~
Qi 0
:J 0
c
c
.
~
0
~
o; 0
c 0
~ 0
~ 0
·;;; ~
-;;;
Vl 0
8
"'
0
.à Figure 1.1 Évolution du salaire annuel net moyen en euros des hommes et des
femmes en France, de 1950 à 2010
D Définitions et concepts
fondamentaux de la statistique
descriptive
L' objectif de la statistique descriptive est de résumer et synthétiser l' information
contenue dans les données étudiées afin d 'en déduire un certain nombre de propriétés.
À cette fin , on utilise des tableaux et des graphiques (~ section 1.2) et l'on calcule
~
divers indicateurs ou caractéristiques c~ section 2).
""'c:
0
"'
""
'~
\J
0
·=
8
0
Ill Définitions
c "'c:
:J 0
0
c:
c: 1 1.1.1 1 Population, individus, échantillon
Lf) .g
..... u
:;:;
0 Une population est un ensemble, fini ou non, d ' élé ments que l' on souhaite étudier.
N ""'ea.
@ e Ces éléments portent le nom d' individus ou d ' unités statistiques. JI peut s'agir par
~
exemple d ' êtres humains (adultes, enfants, chômeurs, salariés, etc.), d ' animaux ou en-
..c ~
.µ
Ol -ci core d ' objets (entreprises, voitures, ordinateurs, incend ies, accidents, etc.). Très sou-
ï:: 0
>- c: vent, la population que l' o n souhaite analyser est très grande et il est usuel de se
a. 8
0 @ restreindre à l'étude d' un échantillon.
u
5
Partie 1 Statistique descriptive
6
Chapitre 1 Distributions à un caractère
les valeurs au sein de son intervalle de variation. On peut donner comme exemples
la taille, le poids, la température, etc. Le nombre de valeurs possibles à l' intérieur de
l'intervalle de variation étant infini , on les groupe par classes. Si l'on considère la
variable de salaire annuel, on peut par exemple définir les classes suivantes : moins
de 10 000 euros, de 10 000 à moins de 15 000 euros, de 15 000 à moins de 20 000 eu-
ros, de 20 000 à moins de 25 000 euros, de 25 000 à moins de 40 000 euros, plus de
40000 euros. La longueur (ou l' étendue) de la classe, c' est-à-dire la différence entre
l'extrémité supérieure et l'extrémité inférieure de la classe, est appelée amplitude
de la classe. Elle peut être variable, comme dans l'exemple précédent, ou constante.
Dans la mesure où il existe une infinité de valeurs au sein d' une classe, il est possible
de calculer le centre de classe défini comme suit :
Extrémité inférieure + Extrémité supérieure
Centre de classe = (1.1 )
2
0
c
:J
"'c:
0
c:
c:
N= I n; (1. 2)
Lf) .g i= I
..... u
:;:;
La fréquence (ou fréquence relative) associée à une modalité x; est définie comme le
0
N ""'ea.
e rapport:
@ ~
..c ~
.µ
( J .3)
Ol -ci
ï:: 0
c:
>- l Dans le cas d'une variable qualitative nominalc. l'ctfectif 11; correspond au nombre de fois où la modalité
a. 8
0 @ x; apparaît.
u
7
Partie 1 Statistique descriptive
La somme des fréquences f; correspondant aux différentes modalités, notée Fi, est
appelée fréquence cumulée :
(1.5)
(1.6)
Fi = /1 + fi + · · · + fJ + ·· · + f; ( 1.7)
soit: i
Fi = °"If1 (1.8)
J= I
Ni = ""In1 (l.9)
J=I
F
Variable statistique et variable aléatoire
\J
Ainsi que nous l'avons vu, une variable est une en- bution d ' une variable statistique est une distribu-
0
c tité pouvant prendre toutes les valeurs possibles au tion empirique. Les différentes caractéristiques qui
:J
0 sein d' un ensemble de définition donné. Lorsque seront présentées dans ce c hapitre se réfèrent à
Lf) les valeurs prises par la variable sont soumises cette distribution empirique : fonction de réparti-
.....
0 au hasard (par exemple, « pile » ou « face » dans tion empirique, moyenne empirique, variance em-
N
@ le cas du lancer d ' une pièce), on parle de va- pirique, moments empiriques, etc. Dans la suüe du
.µ riable aléatoire (.,,. chapitre 6). Il convient de ne chapitre, afin d ' alléger la présentation nous omet-
..c
Ol pas les confondre avec les variables statistiques, trons généralement le terme « empirique », mais il
ï::
>-
a.
objet d'étude de ce premier chapitre. La distri- convient de bien garder cette notion à !'esprit.
0
u
8
Chapitre 1 Distributions à un caractère
T Tableau 1.2 Origine sociale des étudiants en économie à l'université en 2011 -2012
Deux principaux types de graphiques sont utilisés pour des distributions à caractère
qualitatif : la représentation en tuyaux d'orgue et la représentation par secteurs
(camembert).
30 000
~
""'c:
0
25 000
"' 20 000
""
'~
\J
0
·=
8
0
15 000
c "'c: 10 000
:J 0
c:
0 c:
Lf) .g 5 000
..... u
:;:;
0
N ""'ea. O-"-~----
..c ~
.µ
Retraités, inactifs - Non renseigné ~ Ouvriers - Artisans, comm erçants, chefs d'ent.
Ol -ci
ï:: 0
c:
>-
a.
0
8 •Figure 1.2 Représentation en tuyaux d'orgue • Figure 1.3 Représentation par secteurs
@
u
9
Partie 1 Statistique descriptive
Dans les deux cas, le principe de base est que les surfaces doivent être proportionnelles
aux effectifs. Sur le graphique 1.2 en tuyaux d ' orgue, les différentes modalités sont
représentées par des rectangles de base constante et de hauteurs proportio nnelles aux
effectifs. Il est également possible de considérer les fréquences au lieu des effectifs en
ordonnée. Dans le cas d' une représentation par secteurs(.,.. figure 1.3), l'effectif total
est représenté par un cercl.e et les modalités par des secteurs dont la surface (et donc
!'angle au centre) est proportionnelle à !'effectif.
Deux types de graphiques ex istent pour les variables q uantitatives discrètes : le dia-
gramme en bâtons et le diagramme cumulatif (ou diagramme intégral). Dans un
diagramme en bâtons, on fait correspondre à chaque valeur des modalités x; (en abs-
cisse) un bâton vertical de longueur proportionnelle à l'effectif n ; ou à la fréquence f;
\J
0 associée (en ordonnée). La figure 1.4 reporte ainsi le diagramme en bâtons correspon-
c dant aux données du tableau 1.3. Notons que dans le cas où ce sont les fréquences
:J
0 qui sont reportées en ordonnée, la courbe joignant les somme ts des bâtons est appelée
Lf)
..... courbe des fréquences .
0
N
Le diagramme cumulatif (ou courbe cumulative) consiste à représenter les fréquences
@
.µ
cumulées (ou, de façon similaire, les effectifs cumulés) sur un graphique en escalier
..c (.,.. fi gure 1.5) 2 . Les valeurs des modalités x; de la variable x étudiée figurent en abs-
Ol
ï::
>-
a. 2 La courbe j oignant les extrémités droites des « marches d 'escalier » est appelée courbe des fréquences
0 cumulées.
u
10
Chapitre 1 Distributions à un caractère
i
Modalités x ; Effectifs n ; Fréquences f ; = n ;/N Fréquences cumulées F; = ~ fi
i=1
x, n,
Xi n; F; = f1 + f2 + ... + f;
xk fk
Total 1(ou100 %)
01234567 0 1 2 3 5
Nombre d'enfants Nombre d'enfants
11
Partie 1 Statistique descriptive
Cas des variables continues. Considérons la répartjtion des enfants scolarjsés par
âge, de 2 ans à mojns de 22 ans, durant l'année 2010-2011 en France. S ' agissant
d' une variable continue, les données sont regroupées en classes et sont reportées dans
le tableau 1.5.
T Tableau 1.5 Répartition des enfants scolarisés par âge en 2010-2011 en France
f; F; = f1 + f 2 + ... + f ;
k fk
Total 1 (ou 100 %)
Dans la mesure où une variable quantitative continue pe ut prendre une infinité de va-
leurs au sein d' une classe donnée, la représentation graphique en diagramme en bâtons
\J
0
c n'est pas appropriée. Pour représenter une variable quantitative continue, on utilise un
:J histogramme : à chaque classe de la variable, portée en abscisse, o n associe un rec-
0
Lf) tangle ayant pour base l' amplitude de la classe et dont la hauteur est proportionnelle
.....
0 à l'effectif (ou à la fréquence). On doit distinguer le cas où les classes ont toutes la
N
@
même amplitude du cas d ' amplitudes différentes. Cons idérons tout d ' abord le cas,
.µ comme celui décrit dans le tableau 1.5, où les classes ont toutes la même amplitude,
..c
Ol soit ici 4 ans. Comme illustré par l'histogramme reporté sur la figure 1.6, la hauteur
ï::
>- de c haque rectang le est proportionnelle à la fréquence f;. On obtient naturellement un
a.
0 graphique similaire si l' on remplace les fréquences f; par les effectifs n;.
u
12
Chapitre 1 Distributions à un caractère
"'
N
è
-
1
0
N
è
-
Ql ~ -
u
c è
QJ
:i
O'
~
u. ~ -
è
"'è0 -
1 1 1 1
.& Figure 1.6 Répartition des enfants scolarisés par âge en 2010-2011 en France,
histogramme
Remarque : La courbe joig nant le milieu des sommets des rectangles est appelée
courbe ou polygone des fréquences. Une telle courbe est notamment utilisée lorsque
l'échantillon comprend un très grand nombre d'individus, rendant la représentation
en histogramme peu lisible du fait des regroupements des observations en un nombre
relativement faible de classes.
Considérons à présent le cas où les classes n' ont pas la même amplitude . Reprenons
et complétons à cette fin l'exemple de la répartition des enfants scolarisés en France
en cons idérant une classe supplémentaire, lac.lasse allant de 22 ans à moins de 30 ans
(.,.. tableau 1.7).
T Tableau 1.7 Répartition des enfants scolarisés par âge en 2010-2011 en France
Ol -ci comparer les effectifs ou les fréquences des différentes classes, il convient de« corri-
ï:: 0
>- c: ger » .les amplitudes afi n que l'aire de chaque rectangle composant l' histogramme soit
a. 8
0 @ bien proportionnelle à l' effectif (ou la fréquence) . À cette fin, on choisit une amplitude
u
13
Partie 1 Statistique descriptive
unité a11 , qui est en général l'amplitude la plus fréquente ou la plus faible. Ici, nous
retenons donc une amplitude unité égale à 4 ans. On exprime les amplitudes de chaque
a;
classe en fonction de cette nouvelle unüé. Soient les amplitudes ainsi corrigées :
' e; - e ;- 1
a;= ( 1.12)
,.,
~
<Il
""ci
:;
E
:J
u
~
<Il
"'ci
u
c
<Il
:J
(j
"ci
·~
.._
N
ci
..
Ë Ë
"'
:!
Ë
"'
~
..
Ë
N
2 10 14
Classes d"âge
18 22
"'
1
1 1
N
1
N
~ :! ~
Classes d"âge
D Caractéristiques
d'une distribution à un caractère
\J
0
c Ainsi que nous l' avons vu dans la section précédente, les tableaux et graphiques nous
:J permettent de disposer d' une première description des données étudiées. Un graphique
0
Lf) nous donne une idée de l'ordre de grandeur de la variable considérée, au travers des
.....
0 valeurs de la variable situées au centre de la distribution. On parle alors de tendance
N
@
centrale. Un graphique nous fournit également une indication quant à la variabilité
.µ des données autour de cette tendance centrale, on parle alors de dispersion. Pour me-
..c
Ol surer la tendance centrale et la dispersion, il convient de calculer des caractéristiques
ï::
>- permettant de décrire plus précisément la distribution que les graphiques. On y adjoint
a.
0 des caractéristiques de forme et de concentration.
u
14
Chapitre 1 Distributions à un caractère
Le mode peut être calculé pour tous les types de variables (qualitative et quantitative).
Cas d'une variable discrète. Reprenons le tableau 1.3 ou, de façon équivalente,
la figure 1.4. Le mode est la modalité pour laquelle la fréquence est la plus élevée,
c' est-à-dire pour laquelle la bâton est le plus haut sur le graphique. TI s'agit donc ici
de la valeur 2, ce qui signifie que la majorité des familles considérées ont 2 enfants.
Notons que lorsque la série étudiée comporte deux valeurs consécutives pour les-
quelles la fréquence est la plus élevée, on parle d'intervalle modal - les bornes de
cet intervalle correspondant à ces deux valeurs de la série. Mentionnons en outre que
lorsque la distribution étudiée ne comporte qu' un seul mode - ce qui est le cas le
~
plus fréquent - on parle de distribution unimodale. Il peut toutefois arriver que la
""'c:
0
di stribution comporte 2 ou plusieurs modes (correspondant à 2 ou plusieurs valeurs
"' non consécutives), on parle alors de distributions hi-modale ou pluri-modale. La pré-
""
'~ sence de plusieurs modes est indicative d ' une certaine hétérogénéité de l'échantillon
\J
0
·=
8
0 analysé.
c "'c:
:J 0
c:
0 c: Cas d'une variable continue. Les données étant regroupées en classes, on déter-
Lf) .g
..... u
:;:; mine la classe modale qui correspond à la classe du tableau ou de l'histogramme pour
0
N ""'ea. laquelle la fréquence est la plus élevée. Dans le cas de l'exemple relatif à la répartition
@ e par âge des enfants scolarisés (.,.. tableau L.5), la classe modale est la classe [6,10[.
~
..c ~
.µ
Ainsi que l'illustre la figure 1.9, il est possible de déterminer la valeur précise du
Ol -ci
ï:: 0
c:
mode:
>-
a.
0
8 ( 1.14)
@
u
15
Partie 1 Statistique descriptive
où ei- 1 désigne la valeur de l'extré mité inférieure de la classe modale, a 111 l' amplitude
de cette même classe, d 1 la différence entre l'effectif de la classe modale et l'effectif de
la classe précédente et d 2 la différence entre leffectif de la classe modale et J' effectif
de la classe suivante. Dans le cadre de notre exemple, la valeur du mode est donnée
par:
(3 220 753 - 2 538 643) 9
Mo d e =6 + 4 x = 75 ( 1 15)
(3 220 753 - 2 538 643) + (3 220 753 - 3 174 548) ' ..
Remarque : Dans le cas où les classes sont d'amplitudes différentes, il conv ient de
corriger les effectifs ou les fréquences préalablement à la détermination du mode en
utilisant la procédure présentée dans la section 1.2.2. Dans la formule (1.14), d 1 et d2
désignent alors des effectifs corrigés.
.. .
e2 mode e3
classe modale
1 2.1.2 1 Médiane
Définition 1.2
La médiane est la valeur de la variable qui partage la série étudiée en deux sous-
ensembles d 'effectifs égaux.
En d 'autres termes, la médiane - qui peut être calculée sur des variables quantitatives
ou qualitatives ordinales - est telle que le nombre des individus ayant une valeur in-
férieure soit égal au nombre des individus ayant une valeur supérieure. Il s' agit de la
valeur M de la variable pour laq uelle la fréquence cumulée est égale à 1/ 2 :
l
\J
0 Fx(M) =l ( l.16)
c
:J
0 Exemple
Lf)
..... Si la note médiane des étud iants à l'exame n de mathématiques en première année est égale
0 à 12/20, cela signifie qu ' il y a autant d'étudiants ayant o btenu moins de 12/20 que d' étudiants
N
ayant obtenu plus de 12/20.
@
.µ
..c
Ol Cas d'une variable discrète. La détermination de la médiane nécessite au préa-
ï::
>- lable de classer les observations de la série par ordre croissant. Considérons par
a.
0 exemple 9 étudiants ayant obtenu les notes suivantes (sur 20) : 4 ; 3; 17; 19 ; 11 ;
u
16
Chapitre 1 Distributions à un caractère
"'
Cl> "'
Cl>
~ "'
ô •Cl> "'ô
:i :5
E E
:i
u "'
ô
:i
u "'ô
"'
Cl> Y2 "'
Cl> Y2
u
c
Cl>
...ô u
c ...ô -
Cl>
:i :i
cr cr
-~ N
ô -~
N
ô
u.. u..
0 2 3 4 5 6 7 2 6 10 14 18 22
Médiane Médiane
No mbre d'enfa nts Classes d'âge
.& Figure 1.10 Nombre d' enfants par fa- .& Figure 1.11 Répartition des enfants
m ille, détermination de la médiane scolarisés par âge en 2010-2011 en
France, dét ermination de la médiane
..c ~
.µ
Ol -ci où e;_ 1 est l' extrémité inférieure de la classe médiane (10 dans notre exemple), a;
ï::
l' amplitude de la classe médiane (4), f i la fréque nce de la classe médi ane (22,96 %)
0
c:
>-
a. 8
0 @ et F;_1 désigne la fréquence c umulée de la classe au dessus de la classe médiane dans
u
17
Partie 1 Statistique descriptive
Il s'ensuit que notre échantillon est co mposé d ' un nombre ide ntique d ' enfants scola-
risés ayant moins de 11 ,45 ans que d'enfants scolarisés ayant plus de 11,45 ans.
Remarque : La présence de classes d 'amplitudes inégales n'affecte pas le calcul de la
médiane. JI n'est donc pas nécessaire de corriger les effectifs ou les fréquences pour
dé termine r la médiane.
1 2.1.3 1 Quantiles
Les quanti les sont des valeurs pe rmettant de partager les observations ordonnées d ' une
série e n sous-groupes conte nant le même nombre de données (aux e rre urs d 'arrondis
près).
Définition 1 3
Le quantile d ' ordre q est défini par :
Fx(Xq) = q ( 1.19)
avec 0 :::; q :::; 1.
Lorsque q = 1/2, on retrouve la médiane, cette derniè re étant un quantile particu-
lier. On distingue trois principaux types de quantiles :
- Les quartiles : ce sont les vale urs de la vari able qui partagent la distribution
e n 4 sous-ensembles égaux. Il ex iste donc 3 quartiles : Q 1 = 0 ,25 ; Q 2 = 0, 5
et Q3 = 0,7 5 ; le deuxième quartile Q1 étant la médiane. L'intervalle Q3 - Q1
est appe lé intervalle interquartile. Il comprend 50 % des observations et est en
géné ral utilisé comme caracté ristique de dispersion (voir infra).
- Les déciles : ce sont les valeurs de la variable qui partagent la distribution e n l 0
sous-ensembles égaux. Il existe 9 déciles, notés D 1, ••• ,D 9. L' intervalle D9- D 1,
appelé intervalle interdécile, comprend 80 % des observations et est égale ment
utilisé comme caractéristique de dispersion (voir infra).
- Les centiles : ce sont les valeurs de la variable qui partagent la distr ibution en
100 sous-ensembles égaux. E n notant C 1 et C99 les premier et dernier centiles,
respectivement, on définit l' intervalle intercentile C99 - C 1 comprenant 98 %
des observations.
\J
0
c
0
:J 1 2.1.4 1 Moyenne arithmétique
Lf)
..... Défiaition 1...4
0
N La moyenne arithmétique4 d ' une variable quantitative x, notée i, est égale à la
@ somme des valeurs, x 1, x2 , ••• ,XN, prises par cette variable divisée par le nombre
.µ
..c
Ol
ï::
>-
a. 4 Rappelons qu'il s'agit de la moyenne arithmétique empirique au sens où clic se rapporte à une variahlc
0 statistique (et non pas à une variable aléatoire comme dans le chapitre 6).
u
18
Chapitre 1 Distributions à un caractère
d'observation s N, soit:
N
X1+X2+ .. . +XN l ~
i = - - - N - - - - = N LJ Xi ( L.20)
i= I
Pour calculer la moyenne, il convient alors de pondérer les notes par les effectifs cor-
respondants, soit :
3x l +4 x2+ 10 x2+ 11 x l+1 2x2+ 13x l + l4 x 1+17x 1+19x l
~ i=
""'c: 12
0
( 1.22)
"'
""
'~
d' où:
129
\J
0
·=8
0
i = -12 = 10 ' 75 ( 1.23)
c "'c:
:J 0
c: Il s' agit d' une moyenne arithmétique pondérée dont la définition est donnée ci-après.
0 c:
.g
Lf)
..... u
:;:; Définjtion 1.s
0
N ""'ea. La moyenne arithmétique pondérée d'une vari able x composée des observations
@ e
~ x 1 , x 2 , ... ,xk auxquelles sont associés les effectifs n 1 , n 2 , . .. , nk est donnée par :
..c ~
.µ
Ol k
ï:: -ci
0 __ n1x1 +n2x2 + ... +nkxk _ l ~
>- c:
X - - - L.JniXi (1.24)
a.
0
8 N N i= I
@
u
19
Partie 1 Statistique descriptive
On peut égale ment exprimer la moyenne arithmétique pondérée en fonction des fré-
quences f;, i = l , ... ,k:
_ ni n2 nk
X = - Xt +- X2 + ... + - Xk (1.25)
N N N
X = ft Xt + f2x2 + .. · + fkXk (1.26)
k
Dans le cas d'une variable discrète, il est possible d'appliquer directement la formule
donnée par l'équation ( 1.24). On ajoute ainsi une colonne donnant le produit ni xi
comme dans le tableau l .8 et l'on obtient aisément :
129
i= - = 1075 (1.28)
12 '
Dans le cas d'une variable continue, les observations étant groupées en classes, il
convient de déterminer préalablement le centre de classe Xi et d'appliquer ensuite
la formule donnée par l'équation ( J .24). À titre d'exemple, le tableau 1.9 reporte le
salaire mensuel de 150 salariés d'une entreprise de textile, « TextpluS » .
20
Chapitre 1 Distributions à un caractère
Démonstration
Démontrons tout d'abord la relation ( 1.30). On a:
k k k k k
I n;(X; -x) = I n;x; - I n;.X = I n ;x; -x I n; (1.3 1)
i=I i=I i=I i=I i= I
k k
Or I n;= Net I n;x; = Nx. On en déduit donc la relation (1 .30 ) :
i= I i= I
k
I n;(x; - x) = Nx - xN = o (l.32)
i= I
Pour mo ntrer à présent que la somme des carrés des écarts des observations à la moyenne est
inférieure à la somme des carrés des écarts par rapport à toute autre valeur, considérons une
valeur quelconque X et minimisons la somme des carrés des écarts par rapport à cette valeur,
notée S(X):
k
S (X) = I n;(X; - X) 2 (l .33)
i= I
En annul ant la dérivée première de S (X) par rapport à X, il vient:
k
I n;(x; - X) =0 (l.34)
i= I
soit:
k k
D ' où:
1 k
X = - I n ;x; =.X (l .37)
N i= I
P.Qil.B..Al.il..B.. PLUS LOIN
La somme des carrés des écarts S (X) est donc bien minimale pour X = .X. • 11> Voir p. 31
~
""'c:
0
"'
tl'I Caractéristiques de dispersion
""
'~
\J
0
·=
8
0
Étudier la dispersion - ou la variabilité - d' une série consiste à analyser ses fluctua-
c "'c: tions autour d'une valeur centrale.
:J 0
c:
0 c:
Lf) .g
..... u
:;:;
0
N ""'ea. 1 2.2.1 1 Étendue
@ e
~
Dé.finitiPJJ 1.6
..c ~
.µ
Ol
ï:: -ci
0
L'étendue est définie comme la différence entre la plus grande et la plus petite
c:
>- valeur de la série.
a.
0
8
@
u
21
Partie 1 Statistique descriptive
L'étendue est ainsi très simple à calculer, mais présente l'inconvénient majeur de ne
dépendre que des valeurs extrêmes de la série. Ces dernières étant souvent exception-
nelles, voire aberrantes, l'étendue ne constitue qu' une mesure très imparfaite de la
dispersion d ' une série.
( 1.38)
i=I
2
(1.39)
L'écart-type, noté <rx, est la racine carrée de la variance et s'exprime ainsi dans
la même unité que la variable étudiée :
l k
\J
0
c
CTx = NI i= I
n ;(X; - i) 2 ( J.40)
:J
0
Lf)
..... Plus l'écart-type est faible, plus les valeurs sont regroupées autour de la moyenne .
0
N Ainsi, si l'écart-type d' une série de notes des étudiants de première année est faible,
@
.µ
cela signifie que la promotion est relativement homogène. Inversement, un écart-type
..c élevé témoigne d'une forte dispersion au sein de la promotion .
Ol
ï::
>-
a. 5 Rappelons qu ' il s'agit de la variance et de l'écart-type empiriques au sens où ils se rapportent à une
0 variable statistique (et non pas à une variable aléatoire comme dans le chapitre 6).
u
22
Chapitre 1 Distributions à un caractère
L' utilisation des formules (l.39) et (l .40) s' avère relativement fastidieuse en pra-
tique puisqu'elle nécessite le calcul des écarts (xi - i). Afin de rendre l'application
plus aisée, on utilise la formule développée de la variance. Développons ainsi l'équa-
tion ( l.39) :
l k
V(x) = - ~ n; [x 2 - 2x;i + x2 ] ( 1.41 )
ND t
i= l
soit:
1 k l k l k
V(x) = -N D~ n·x2
''
- 2.X- ~ nx + x2 - ~ n·
ND '' ND'
( 1.42)
i= I i= I i= I
k k
Sachant que I n; = Net que ~I n;x; = .X, on en déduit :
i= l i= l
k
.1 ~ ? -2
V(x) =N D n;Xj - x- ( l.43)
i= I
L' équation (1.43) est appelée formule développée de la variance. Afin d' illustrer
son application, reprenons l'exemple du salai re mensuel des 150 employés de l'en-
treprise TextpluS et complétons le tableau initial (~ tableau 1.9) par l'ajout de deux
colonnes x7 et n;x f (~ tableau 1.10).
Ol
ï::
>-
a.
-ci
8
0
c:
S 2.=
X
-l -
N- 1
I k
' l
N
-2 = --V(x)
n ·(x· -x)
N- 1
(1.46)
0 @
u i= I
23
Partie 1 Statistique descriptive
et:
CV = a-x (1.49)
.X
Ainsi, si la valeur obtenue de CV sur une série de salaires en livres perçus par les
salariés d'une entreprise A au Royaume-Uni est proche de celle obtenue sur une série
de salaires en euros perçus par les salariés d'une entreprise Ben France, on peut en
déduire que la dispersion des salaires est proche dans les deux entreprises.
24
Chapitre 1 Distributions à un caractère
Définition 1.9
On appelle moment simple d'ordre r un moment d' ordre r pour lequel a = 0,
soit: k
m,. = N1 L...J
" ' n;x;,. (1.51)
i= I
µ,. = -i I
N.
k
n;(x; - x) -,. (l.52)
1=1
Propriétés
Le moment centré d'ordre 1 est nul :
(1.53)
soit encore :
1 k 1 k
µ1 = - "\" n;X; - - "\" n;.X =X - X ( 1.56)
N f;j N f;j
D 'où :
( 1.57)
- Dans le cas où r = 2, on a :
k
~ 1 "\" - 2
µ2 = - L.i n;(x; - x) ( 1.58)
""'c:
0 N i= I
"' soit encore :
""
\J
'~
·=
8 µ ?- = -Ni Ik
2
n·x. -2
, , - x- ( l.59)
0 0
i=I
c "'c:
:J 0
c: D 'où :
0 c:
Lf) .g ( l.60)
..... u
:;:;
0
N
@
""'ea.
e •
~
Remarque : Outre les moments centrés d 'ordres 1 et 2, les moments centrés
..c ~
.µ
Ol -ci d'ordres 3 et 4 sont également fréquemment utilisés. Comme nous le verrons ci-après
ï:: 0
>- c: ils interviennent dans le calcul des coefficients d 'asymétrie et d'aplatissement. Les
a. 8
0 @ expressions de ces deux moments sont les suivantes :
u
25
Partie 1 Statistique descriptive
1 k
- Dans le cas où r = 4, on a : µ 4 = N ~ n;(xi - x)
4
f; f, f;
26
Chapitre 1 Distributions à un caractère
µ~
(1.64)
µ~
La distribution est symétrique si /3 1 = 0, étalée vers la droite si {31 > 0 et étalée vers
la gauche si /3 1 < O.
(1.65)
~
""'c:
0
"'
""
'~ = -- - - - - - - - ---"1<.X ;
\J
0
·=
8
0
c "'c: .&Figure 1.15 Distribution .&Figure 1.16 Distribution aplatie .&Figure 1.17 Distribution
:J 0
c:
0 c: normale (courbe platykurtique) pointue (courbe leptokurtique)
Lf) .g
..... u
:;:;
0
N ""'ea.
@ e
~
..c ~
.µ
Ol -ci
ï:: 0
c:
7 li existe également un autre coefficient d'asymétrie de Pearson, valable pour des distributions faiblement
>- asymétriques. donné par: f3'i = (x-Mode)/<r,. La distribution est symétrique si,B; =O. étalée vers la droite
a. 8
0 @ si .B; > 0 et étalée vers la gauche si .B; < O.
u
27
Partie 1 Statistique descriptive
F
La loi normale
La loi normale, encore appelée loi de Gauss ou cloche » du fait de sa forme (.,. figure 1.15). Une
loi de Laplace-Gauss, est la loi statistique la plus di stribution normale est caractérisée par un coef-
répandue. Il s'agit d ' une loi de probabilité conti- ficient d 'asymétrie nul, cette loi étant symétrique
nue très utilisée pour modéliser de nombreux phé- par rapport à la moyenne. Les coefficients d ' apla-
nomènes aléatoires. La courbe des fréquences de tisseme nt de Pearson et de Fisher d'une distribu-
la loi normale est souvent dénommée «courbe en tion normale sont respectivement égaux à 3 et O.
\J 1 2.4.1 1 Médiale
0
c
:J Défie iti.QJU.j 1
0
Lf) La médiale est la valeur x; de x partageant la série du produit n;x; e n deux sous-
.....
0 ensembles égaux.
N
@
.µ
..c
Ol En d'autres termes, il s'agit de la médiane que l'on calcule non plus à partir des seuls
ï::
>- effectifs n;, mais à partir du produit n;x;. Si l'on suppose, à titre d'exemple, que la va-
a.
0 riable étudiée x est le salaire, n;x; représente la masse salariale. En pratique, on utilise
u
28
Chapitre 1 Distributions à un caractère
~
""'c:
0
"'
""
'~
\J
0
·=
8
0
 Figure 1.18 Courbe de  Figure 1.19 Concentration  Figure 1.20 Concentration
c "'c: concentration faible forte
:J 0
c:
0 c:
.g
Lf)
..... u
:;:;
Exemple
0
N ""'ea. Reprenons l'exemple fi gurant dans le tableau 1.9 relatif au salaire mensuel (en euros) des
@ e 150 salariés de l' entreprise TextpluS.
~
..c ~
.µ
La classe médiane est la classe [l 800,2000[ et l'on peut calculer la valeur précise de la
Ol
ï:: -ci
0
médiane au moyen de la relation ( 1. 17) :
c:
>- 200
a.
0
8 M = 1800 + - x [0,5 - 0,4) = 1 846,51 (l.69)
@ 0,43
u
29
Partie 1 Statistique descriptive
Il existe ainsi autant de salariés percevant moins de 1846,5 1 euros que de salariés perce-
,
vant plus que cette meme somme. Au regard des valeurs fi gurant dans la colonne -n ;X;
- L
L: n;x;
du tableau 1. 1 l , on constate que la classe médiale est identique à la classe médiane, soit
[1800,2 000[. La valeur de la médiale, notée Ml, est ainsi donnée par:
200
Ml= 1 800 + 0, X [0,5 - 0, 35] = 1 868, 18 ( l .70)
44
Classes n; X; f; F; n ·x ·
n·x·
- '- '-
L - n- '-·x '-·
, ' I n ;X; I n ;X;
\J
0
c
Il est possible de calculer un indice de concentration, appelé indice de Gini et noté G,
:J égal au double de l' aire de concentration. Il s'agit d' un nombre sans dimension, com-
0
Lf) pris entre 0 et 1 :
.....
0
N - Si G = 0, la concentration est nulle.
@ - Si Gest proche de 0, la concentration est faible .
.µ
..c
Ol - Si G est proche de 1, la concentration est forte.
ï::
>-
a.
0
u
30
Chapitre 1 Distributions à un caractère
31