Vous êtes sur la page 1sur 29

TRAVAUX DIRIGES

− STATISTIQUE DESCRIPTIVE −

TD 2
LES RESUMES NUMERIQUES DES
DISTRIBUTIONS STATISTIQUES A UNE
VARIABLE QUANTITATIVE
L'ESSENTIEL DU COURS
1. LES PRINCIPAUX RESUMES DE LA STATISTIQUE
Les distributions statistiques à une variable sont représentées par un petit nombre d'indicateurs
(résumés numériques) qui doivent être représentatifs de la distribution statistique. Quatre
grands groupes d'indicateurs (ou caractéristiques) :
- les caractéristiques de valeur centrale ou de position qui permettent, comme la
moyenne arithmétique, de substituer à une distribution statistique une valeur
représentative, ou encore comme la médiane, ou le mode, qui tiennent compte de
la position d'une valeur précise dans la distribution statistique,
- les caractéristiques de dispersion, telles l'écart absolu moyen, l'écart inter-
quantile, la variance ou l'écart-type, qui permettent de chiffrer la variabilité ou la
dispersion autour d'une valeur centrale (généralement la moyenne arithmétique).
- Les caractéristiques de forme : elles permettent de préciser l’allure de la courbe
des fréquences.
- Les caractéristiques de concentration qui mesurent la dispersion relative de la
variable indépendamment des unités choisies.
Il est souhaitable que les paramètres ou résumés numériques possèdent certaines propriétés,
appelées conditions de Yule :
- être définis de manière objective,
- dépendre de toutes les observations,
- avoir une signification concrète,
- être facilement calculables et interprétables,
- être peu sensibles aux fluctuations d'échantillonnage,
- se prêter aisément aux calculs algébriques.

2. LES CARACTERISTIQUES DE VALEUR CENTRALE


ET DE POSITION
2.2. LA MEDIANE
Nous pouvons retenir deux définitions de la médiane suivant que nous avons une série ou une
distribution :
- La médiane XM d'une série statistique rangée par ordre croissant ou décroissant partage en
deux parties égales l'effectif total de la série.
- La médiane XM d'une distribution statistique est la valeur de la variable qui partage
l'effectif total de la distribution en deux parties égales, telles que la première moitié des

Jean-Louis MONINO - Jean-Michel KOSIANSKI - François LE CORNU 1


TRAVAUX DIRIGES
− STATISTIQUE DESCRIPTIVE −

observations soit inférieures (ou égales) à XM et la seconde moitié soit supérieures (ou
égales) à XM.
Si (xi,Fi(x)) est la distribution des fréquences cumulées d'une variable statistique, alors la
médiane est donnée par l'équation :
1
F(XM) =
2
Si la variable est continue on effectue une interpolation à l’intérieure de la classe médiane.
⎛ 0.5 − Fi −1 ⎞ ⎛ 0.5 − Fi −1 ⎞
X M = xi −1 + ai ⎜ ⎟ = xi −1 + ai ⎜⎜ ⎟
⎝ Fi − Fi −1 ⎠ ⎝ f i i ⎟⎠
Fi-1 fréquence cumulée de la classe avant la classe médiane,
Fi fréquence cumulée de la classe médiane,
0.5 représente la valeur théorique de l'image de la médiane sur par
l'intermédiaire de la fréquence cumulée.

1.2. LES QUARTILES, DECILES ET CENTILES


La généralisation de la notion de médiane porte le nom de quantile. Parmi les quantiles
utilisés nous trouverons ; les quartiles, les déciles et les centiles.
Les quartiles sont les valeurs d'une série ou d'une distribution statistique rangée par ordre
croissant (ou décroissant) qui partagent l'effectif total en quatre parties égales. Il existe trois
quartiles souvent notés Q1, Q2, Q3.
Si (xi,F(xi)) représente la distribution de fréquences relatives cumulées d'une variable
statistique, alors les quartiles sont donnés par les équations :
1 2 1 3
F(Q1) = = 0, 25 F(Q2) = = = 0, 50 F(Q3) = = 0, 75
4 4 2 4
Le quartile Q2 d'une variable statistique est égale à la médiane XM . Les calculs faits pour la
médiane sont donc les mêmes pour la recherche des trois quartiles.
Les déciles, notés D1, D2, D3 ,..., D9 (resp. les cenciles ou percentiles, souvent notés C1, C2,
C3,..., C99 ) partagent l'effectif total d'une série ou d'une distribution statistique rangée par
ordre croissant (ou décroissant) en dix (resp. cent) parties égales. Si l'on reprend les notations
ci-dessus nous avons la relation :
C50 = D5 = Q2 = XM ; C10 = D1 ; C90 = D9 .

1.3. LE MODE
1.3.1. Définition restrictive
Le mode Xm d'une série ou d'une distribution statistique est la valeur de la variable pour
laquelle l'effectif est le plus élevé ; on parle alors de mode absolu.
1.3.2. Définition élargie
Le mode Xm d'une série ou d'une distribution statistique est la valeur de la variable encadrée
par deux valeurs qui lui sont inférieures ; on parle alors de mode relatif.
Lorsqu'une série ou une distribution statistique possède un seul mode on dit que la série ou la
distribution est unimodale, lorsqu'elle en possède deux elle est qualifiée de bimodale et
lorsqu'elle en possède plusieurs, on dit qu'elle est multimodale. Les définitions du mode
Jean-Louis MONINO - Jean-Michel KOSIANSKI - François LE CORNU 2
TRAVAUX DIRIGES
− STATISTIQUE DESCRIPTIVE −

s'appliquent immédiatement dans le cas d'une variable discrète ; dans le cas d'une variable
continue groupée en classes les définitions sont appliquées à ces classes et on parle
d'intervalle modal.
Lorsque les variables sont groupées en classes il est parfois utile de remplacer la notion de
classe modale par la notion de mode, pour cela on effectue une interpolation linéaire à
l'intérieur de la classe modale ; la détermination se fait de la façon suivante :
⎛ d1 ⎞
X m = xi −1 + ai ⎜ ⎟
⎝ d1 + d2 ⎠
où xi-1 est l'extrémité inférieure de la classe modale, ai amplitude de la classe
modale, d 1 = ni − ni −1 d 2 = ni − ni +1 (effectifs) ou d 1 = f i − f i −1 et d 2 = f i − f i +1
(fréquences).

1.4. LA MOYENNE ARITHMETIQUE


Soit x1, ..., xi, ..., xr les r observations numériques d'une variable statistique X et soit les
effectifs respectifs n1, ..., ni, ..., nr de ces r valeurs numériques (à chaque valeurs xi on associe
un nombre ni appelé poids), où
i =r
n1 +...+ ni +...+ nr = ∑ ni = N
i =1
la moyenne arithmétique pondérée de la distribution (xi, ni) est le nombre :
i =r
∑ ni xi 1 i =r
n1 x1 +...+ ni xi +...+ nr x r i =1
X= = = ∑ ni x i
n1 +...+ ni +...+ nr N N i =1
La moyenne arithmétique simple d'une variable statistique X est obtenue en posant dans la
définition de la moyenne arithmétique pondérée, ni = 1 avec i ∈{1,..., r} , alors la distribution
(xi, 1) a pour moyenne arithmétique le nombre :
i =r i =r
∑ ni xi ∑ 1xi 1 i =r
X=
i =1
i =r
=
i =1
i =r
= ∑x
r i =1 i
∑ ni ∑1
i =1 i =1
La moyenne arithmétique simple apparaît comme un cas particulier de la moyenne
arithmétique pondérée.

La moyenne arithmétique pondérée d'une distribution statistique peut être calculée à partir
n
des fréquences : on associe à chaque ni la fréquence relative f i = i et la distribution de
N
fréquences relatives (xi, fi) admet donc comme moyenne arithmétique pondérée le nombre X :
i =r i =r
ni
X =∑ xi = ∑ f i xi
i =1 N i =1

Jean-Louis MONINO - Jean-Michel KOSIANSKI - François LE CORNU 3


TRAVAUX DIRIGES
− STATISTIQUE DESCRIPTIVE −

i =r
Soit la distribution statistique (xi, ni) où i ∈{1,..., r} et avec N = ∑ ni ; la moyenne
i =1
arithmétique pondérée possède les propriétés suivantes :
- changement d'origine : si on pose yi = xi + c où c est une constante alors :
i =r i =r i =r
1 i =r
∑ ni ( yi − c) = N
1 1 1
X =
N
∑ ni xi = N ∑ ni yi − N ∑ ni c d'où X = Y − c
i =1 i =1 i =1 i =1
xi
- changement d'échelle : si on pose yi = où d est une constante alors :
d
1 i =r 1 i =r d i =r
X = ∑ ni xi = ∑ ni (dyi ) = ∑ ni yi d'où X = d Y
N i =1 N i =1 N i =1
xi + c
- changement d'origine et d'échelle : si on pose y i = où c et d sont des
d
constantes alors :
1 i =r 1 i =r d i =r 1 i =r
X = ∑ ni xi = ∑ ni (d yi − c) = ∑ ni yi − ∑ c ni d'où X = d Y - c
N i =1 N i =1 N i =1 N i =1
Lorsque la variable statistique est groupée en classes les valeurs xi sont les centres de classe.
La moyenne arithmétique est un résumé numérique qui tient compte de toutes les observations
faites sur la variable statistique, elle est rarement une valeur observée.

1.5. GENERALISATION DE LA NOTION DE MOYENNE


Soit x1, ..., xi, ..., xr les r observations numériques d'une variable statistique X et soit les
effectifs respectifs n1, ..., ni ..., nr de ces r valeurs numériques (à chaque valeurs xi on associe
i =r
un nombre ni appelé poids), où n1 +...+ ni +...+ nr = ∑ ni = N :
i =1
- la moyenne géométrique G de la distribution (xi, ni) est obtenue à partir de
la moyenne arithmétique de la distribution (yi, ni) en posant yi = ln xi avec xi
positif, on a donc :
n1 log x1 +...+ ni log xi +...+ nr log x r 1 i =r i =r
log G = = ∑ ni log xi = ∑ f i log xi
n1 +...+ ni +...+ nr N i =1 i =1
qui s'écrit également :
n1 n1 n1 i =r
= ∏ xi i
n n f f f
G= N
x1 1 ⋅...⋅xi i ⋅...⋅xrnr = x1 ⋅...⋅xi ⋅...⋅xrN
N N
= x1 1 ⋅...⋅xi i ⋅...⋅xrf r
i =1
- la moyenne harmonique H de la distribution (xi, ni) est obtenue à partir de la
1
moyenne arithmétique de la distribution (yi, ni) en posant yi = avec xi non nul,
xi
on a donc :

Jean-Louis MONINO - Jean-Michel KOSIANSKI - François LE CORNU 4


TRAVAUX DIRIGES
− STATISTIQUE DESCRIPTIVE −

1 1 1
n1 +...+ ni +...+ n r
1 x1 xi xr 1 i = r ni
= = ∑
H n1 +...+ ni +...+ nr N i =1 x i
qui s'écrit également :
N
H = i =r
n
∑ xi
i =1 i
- la moyenne quadratique Q de la distribution (xi, ni) est obtenue à partir de la
moyenne arithmétique de la distribution (yi, ni), obtenue en posant yi = x²i , on a
donc :
n1 x12 +...+ ni xi2 +...+ nr x r2 1 i =r i =r
Q =
2
= ∑ ni xi = ∑ f i xi2
2
n1 +...+ ni +...+nr N i =1 i =1
qui s'écrit également :
1 i =r 2 i =r
Q=
1
N
( )
n1 x12 +...+ ni xi2 + ...+ nr xr2 = ∑n x =
N i =1 i i
∑ fi xi2
i =1
La moyenne géométrique est surtout utilisée quand les valeurs de la variable statistique sont
liées de façon multiplicative les unes aux autres. La moyenne harmonique est surtout
employée quand les valeurs observées varient en sens contraire (exemple prix et quantité). La
moyenne quadratique donne une importance accrue aux valeurs aberrantes de la variable
statistique.
Il existe une relation d'ordre entre les moyennes :
H< G< X <Q
Les moyennes arithmétique pondérée, harmonique pondérée et géométrique simple (non
pondérée) sont utilisées pour calculer des indices synthétiques des prix ou des quantités.

2. LES CARACTERISTIQUES DE DISPERSION


2.1. ETENDUE, INTERVALLES INTERQUANTILES
L'étendue est la différence entre la plus grande et la plus petite des observations faites sur une
variable statistique quantitative. Soit la variable statistique quantitative X (sa distribution est
(xi, ni) avec i ∈ {1,..., r} ), l'étendue est le nombre : xr − x1 (les xi étant classés par ordre
croissant ou décroissant)
L'étendue est la mesure la plus simple de la dispersion (ou variabilité ou étalement) des
observations faites sur une variable. L'étendue ne dépend que très indirectement de l'ensemble
des valeurs xi de la variable X. L'étendue est très influencée par les valeurs extrêmes de la
variable statistique qui sont parfois aberrantes, ce qui en fait une mesure peu utilisée.

Soit une variable statistique X, l'intervalle interquartile est la différence entre le quartile
d'ordre 3 le quartile d'ordre 1 : Q3 − Q1 . L'intervalle interquartile représente 50% des valeurs
de la variable X, en laissant de part et d'autre de cet intervalle, 25% des valeurs de la variable.

Jean-Louis MONINO - Jean-Michel KOSIANSKI - François LE CORNU 5


TRAVAUX DIRIGES
− STATISTIQUE DESCRIPTIVE −

La notion d'intervalle interquartile peut-être généralisée par celle d'intervalle interquantile ;


ainsi, par exemple, l'intervalle interdécile (resp. intercentile) le plus utilisé est la différence
entre le décile d'ordre 9 le décile d'ordre 1 : D9 − D1 (resp. entre le centile d'ordre 90 et le
centile d'ordre 10 : C90 − C10 ).
Les intervalles interdécile D9 − D1 et intercentile C90 − C10 représentent 80% des valeurs de
la variable X, en laissant de part et d'autre de cet intervalle, 10% des valeurs de la variable.
L'utilisation des intervalles interdéciles et surtout intercentiles est liée à des variables
possédant un nombre important de valeurs.

2.2. ECART ABSOLU MOYEN, VARIANCE ET ECART-TYPE


Soit une distribution statistique (xi, ni) où i ∈{1,..., r} , on appelle écart absolu moyen le
nombre, noté X e défini par :
1 i =r
Xe = ∑n x − X
N i =1 i i
L'utilisation de l'écart absolu moyen comme indicateur de dispersion est dû au fait que la
différence à la moyenne d'une variable statistique est nulle. En effet, le nombre X e , est tout
simplement une moyenne arithmétique pondérée des valeurs absolues de la variable centrée
sur sa moyenne arithmétique. L'écart absolu moyen est un indicateur de dispersion qui est
difficilement maniable puisqu'il y contient des valeurs absolues.

Soit X une variable statistique (discrète ou continue groupée en classes) de distribution (xi, ni)
où i ∈{1,..., r} , on appelle variance (mesure de dispersion ou de variabilité), notée s2X , la
moyenne arithmétique pondérée des carrés des écarts à la moyenne arithmétique pondérée ;
c'est le nombre définit par :
i=r
i =r
1 i=r
∑ ni ( xi − X ) avec N = ∑ ni et X = ∑ ni xi
1 2
s2X =
N i =1 N i =1
i =1
i =r 2
= ∑ f i ( x i − X ) avec f i =
ni
s 2X
i =1 N
On appelle écart-type de la variable X, noté s X , la racine carrée de la variance :
1 i =r i =r
∑ ni ( xi − X ) = ∑ fi ( xi − X )
2 2
s X = s2X =
N i =1 i =1
La variance est souvent appelée moyenne quadratique des écarts à la moyenne arithmétique
pondérée. La variance se calcule surtout en utilisant sa forme développée qui est :
1 i =r 2 i =r
s X = ∑ ni xi − X ou s X = ∑ f i xi2 − X 2
2 2 2
N i =1 i =1
pour limiter l'importance des erreurs dues aux arrondis.

3. LES MOMENTS CENTRES ET LES MOMENTS NON-


CENTRES D’ORDRE R D’UNE VARIABLE STATISTIQUE.
Jean-Louis MONINO - Jean-Michel KOSIANSKI - François LE CORNU 6
TRAVAUX DIRIGES
− STATISTIQUE DESCRIPTIVE −

3.1. LES MOMENTS NON CENTRES D’ORDRE R.


Soit la distribution statistique (xi, ni) où i ∈{1,..., r} , on appelle moment non centré d’ordre r
de la variable statistique X ,la quantité définie par :
1 n n
mr = ∑ ni xir avec N = ∑ ni
N i =1 i =1
que l’on peut écrire de la façon suivante si l’on utilise les fréquences relatives :
n n
n
mr = ∑ f i xir avec N = ∑ ni et fi = i
i =1 i =1 N

3.2. LES MOMENTS CENTRES D’ORDRE R.


Soit la distribution statistique (xi, ni) avec i ∈ {1...n} , on appelle moment centré (sur la
moyenne arithmétique) d’ordre r de la variable statistique X ,la quantité définie par :
1 n n
μr = ∑ ni ( xi − X ) N = ∑ ni
r
avec
N i =1 i =1
que l’on peut écrire de la façon suivante si l’on utilise les fréquences relatives :
n n
μr = ∑ f i ( xi − X )
n
N = ∑ ni et fi = i
r
avec
i =1 i =1 N
μ2 = m2 − m12
μ3 = m3 − 3m1m2 + 2m13
μ4 = m4 − 4m1m3 + 6m12m2 − 3m14
Le moment centré d'ordre 1 est toujours nul (μ1 = 0) et le moment centré d'ordre 2 est en fait
la variance (μ2 = s²X).

4. ASYMETRIE ET APLATISSEMENT
Les différents indicateurs d’asymétrie et d’aplatissement permettent en premier lieu la
comparaison entre les distributions statistiques.
L’asymétrie d’une distribution peut être approchée par une comparaison entre le mode, la
médiane et la moyenne arithmétique.
L’aplatissement peut être approchée par l’étude des observations aux alentours du mode .
Plus le nombre d’individu sera aura une valeur proche du mode de la distribution plus la
courbe sera concentrée et plus l’aplatissement sera faible
4.1. L’ASYMETRIE.
L'approche de la mesure de l’asymétrie est réalisée grâce à la notion de moment centré. Ces
indicateurs sont ceux de Pearson et de Fisher.
4.1.1. Le coefficient d'asymétrie de Pearson est :
μ32 μ3
AP = =
μ23 s2

Jean-Louis MONINO - Jean-Michel KOSIANSKI - François LE CORNU 7


TRAVAUX DIRIGES
− STATISTIQUE DESCRIPTIVE −

où μ est le moment centré sur la moyenne arithmétique. Ce coefficient s’écrit d’une façon
plus simple en utilisant les moments non-centrés.
Si AP est nul alors la distribution est symétrique. Si AP est positif alors il y a asymétrie. On
peut également calculer le coefficient d’asymétrie de Fisher. Par définition c’est la racine
carrée du coefficient de Pearson.
4.1.2. Le coefficient d'asymétrie de Fisher
μ32 μ3
AF = AP = =
μ23 s3X
S’il est calculé directement, alors il est possible d’écrire :
Si AF = 0 alors la distribution est symétrique,
Si AF > 0 alors la distribution est étalée vers la droite,
Si AF < 0 alors la distribution est étalée vers la gauche.
4.2. L’APLATISSEMENT.
On utilise le moment centré d’ordre 4 et la variance de la distribution statistique pour avoir
l’indicateur d’aplatissement.
4.2.1. Le coefficient d'aplatissement de Pearson
μ4
APP =
μ22
où μ est le moment centré sur la moyenne arithmétique. On sait également que :
μ22 = s22 = s4X
Le coefficient prend la forme suivante en utilisant la dernière formule :
μ4
APP =
s4X
Si APP = 3 alors la distribution est dite « normale » ou mésokurtique,
Si APP < 3 alors la distribution est dite plus aplatie que la « normale » ou platykurtique,
Si APP > 3 alors la distribution est dite moins aplatie que la « normale » ou leptokurtique.
On peut également faire référence à un indicateur dit de Fisher.
4.2.2. Le coefficient d'aplatissement de Fisher est :
μ4
APF = −3
μ22
Si APP = 0 alors la distribution est dite « normale » ou mésokurtique,
Si APP < 0 alors la distribution est dite plus aplatie que la « normale » ou platykurtique,
Si APP > 0 alors la distribution est dite moins aplatie que la « normale » ou leptokurtique.

Jean-Louis MONINO - Jean-Michel KOSIANSKI - François LE CORNU 8


TRAVAUX DIRIGES
− STATISTIQUE DESCRIPTIVE −

POUVEZ-VOUS REPONDRE ?
En 10 questions testez vos acquis.
VRAI FAUX
1 - Le mode est un résumé qui dépend du regroupement en classes ?
2 - La médiane est toujours une valeur de la variable calculable ?
3 - La moyenne arithmétique correspond à une valeur qui appartient à la
série ou distribution ?
4 - La variance est la racine carrée de l'écart type d'une série ou d'une
distribution ?
5 - Lorsque l'on regroupe en classes une variable statistique nous
perdons des informations ?
6 - Une distribution statistique continue groupée en classes admet
toujours un mode ?
7 - L'aplatissement est mesuré par rapport à une distribution connue ?
8 - La variance est un moment non centré d'ordre 2
9 - Le quantile d'ordre 3 fait parti de la famille des quartiles et
correspond à la médiane ?
10 - L'asymétrie d'une distribution statistique se mesure en comparant le
mode, la médiane et la moyenne arithmétique ?

QUESTIONS DE REFLEXION
11 - Quel autre nom peut-on donner à la moyenne quadratique centrée (sur sa moyenne
arithmétique) d'une variable statistique ?

12 - La moyenne arithmétique correspond au résumé qui minimise la dispersion de la variable


statistique autour d'une valeur centrale ?

13 - Le moment centré d'ordre 1 est toujours nul ?

14 - La variance est la différence entre un moment non centré d'ordre deux et un moment non
centré d'ordre 1 qui est élevé au carré ?

Jean-Louis MONINO - Jean-Michel KOSIANSKI - François LE CORNU 9


TRAVAUX DIRIGES
− STATISTIQUE DESCRIPTIVE −

SOLUTIONS
SOLUTION AUX TESTS
1 - VRAI, 2 -FAUX, 3 - FAUX, 4 - FAUX, 5 - VRAI, 6 - FAUX, 7 - VRAI, 8 - 9 - FAUX, 10
- FAUX, 11 - VRAI

SOLUTION AUX QUESTIONS DE REFLEXION


12 - L'autre nom de la moyenne quadratique centrée est la variance.

13 - Pour répondre à cette question il nous faut construire une quantité Q paramétrable sur par
exemple a et rechercher le minimum de cette fonction.

14 - Oui, toute variable statistique centrée sur sa moyenne admet un moment centré nul.
: soit la distribution (xi, ni) où i ∈ {1,..., r} , sa moyenne arithmétique pondérée X , et son
x −X
écart-type s X , la distribution centrée et réduite (zi, ni), définie par zi = i , possède une
sX
moyenne arithmétique pondérée et une variance toujours égale à un :
1 i =r 1 i = r ⎛ xi − X ⎞ 1 ⎡ 1 i =r ⎤
Z = ∑ ni yi = ∑ ni ⎜ ⎟= ⎢ ∑ ni xi − X ⎥ = 0
N i =1 N i =1 ⎝ s X ⎠ s X ⎢⎣ N i =1 ⎥⎦

1 i =r 1 i =r 1 i = r ⎛ xi − X ⎞ 1 ⎡ 1 i =r 2 ⎤
2
= ∑ ni ( zi − Z ) = ∑ ni ( zi ) = ∑ ni ⎜
1
⎟ = 2 ⎢ ∑ ni xi − X 2 ⎥ = 2 s2X = 1
2 2
sZ2
N i =1 N i =1 N i =1 ⎝ s X ⎠ s X ⎢⎣ N i =1 ⎥⎦ s X

15 - Oui, la variance est bien la différence entre un moment non centré d'ordre deux et un
moment non centré d'ordre 1 qui est élevé au carré. En effet , la définition de la variance est :

Jean-Louis MONINO - Jean-Michel KOSIANSKI - François LE CORNU 10


TRAVAUX DIRIGES
− STATISTIQUE DESCRIPTIVE −

ENTRAINEMENT
5.1. EXERCICE 1 - CAS NON PONDERE :
Lors d'un contrôle de connaissance on fait subir à huit étudiants un test de connaissance noté
sur 50 points. La série des notes obtenues est la suivante :
25 43 35 20 32 30 35 24
Calculer et expliquer les résumés statistiques suivants :
1 - Mode, médiane. Que devient la médiane lorsque nous ajoutons la note 45 à la série ?
2 - Moyenne arithmétique, quadratique, géométrique, harmonique,
3 - Variance et déduire l'écart type. Donner le coefficient de variation.

Analyse de l'énoncé et conseils.


Cet exercice vous permet de calculer les principales caractéristiques évoquées dans le cours.
Vous remarquerez que pour le cas discret les valeurs de la variable statistique sont ponctuelles
et ne nécessite pas le calcul préalable des centres de classes comme dans le cas des variables
groupée en classes.

5.2. EXERCICE 2 - CAS PONDERE :


Une entreprise industrielle vend des machines-outils. On s'intéresse au nombre de machines
vendues en une journée pour cela on définit la variable statistique X associée au caractère
"Nombre de machines vendues dans la journée". On observe les ventes sur 600 jours ouvrés et
nous dressons le tableau des ventes :
Tableau 1 - Distribution des ventes d'un entreprise (en jours)

Nombre de
Nombre de jours
machines vendues
de ventes
dans la journée

0 98
1 232
2 119
3 85
4 50
5 16
1 - Représenter graphiquement la distribution des ventes et la distributions des ventes
cumulées croissantes.
2 - Calculer et donner la définition des caractéristiques de positions de valeurs centrales
suivants :
- le mode, la médiane, la moyenne arithmétique.
3 - Calculer et donner la définition des caractéristiques de dispersions suivants :
- la variance, l'écart type, le coefficient de variation.
4 - Calculer et donner la définition des caractéristiques

Jean-Louis MONINO - Jean-Michel KOSIANSKI - François LE CORNU 11


TRAVAUX DIRIGES
− STATISTIQUE DESCRIPTIVE −

a - le coefficient d'asymétrie de Fischer et de Pearson


b - le coefficient d'aplatissement de Fischer et de Pearson
5.3. EXERCICE 2 - CAS PONDERE :
Une enquête auprès de 500 visiteurs d’un musée âgés d’au moins 15 ans permet d’obtenir la
distribution statistique ci-après :
Tableau 2 - Enquête sur un musée - Distribution des visiteurs
Age (en années) Nombre de visiteurs
15-25 ans 96
25-35 ans 118
35-50 ans 138
50-65 ans 101
65 ans et plus 47
1- Définir la variable associée au caractère « Age » (on nommera cette variable X). Calculer
les fréquences et les fréquences cumulées croissantes et décroissantes, afin de permettre la
représentation graphique de cette variable.
2 -Déterminer le mode. Calculer une valeur pour le mode.
3 Calculer la médiane. En donner une généralisation. Retrouver l’ensemble des résultats
graphiquement.
4 - Calculer la moyenne arithmétique.
5 - Calculer les caractéristiques de dispersion suivantes : l’étendue, l’écart absolu moyen et
l’écart-type.
6 - Calculer les moments centrés d’ordres 1 et 2. Vérifier et expliquer les résultats suivants :
μ1 = 0 et μ2 = s²X.
Retrouver la valeur du moment centré d’ordre 2 à partir des moments non-centrés. Quelle est
l’utilité des moments ?
7. Calculer les indicateurs d’asymétrie et d’aplatissement au moyen des moments.
8. On définit à présent une variable Y que l'on défini à partir de la variable X par :
Y=X−X
Calculer sa moyenne arithmétique et sa variance. Vérifier que la moyenne arithmétique de Y
est égale à 0 et que la variance de Y est égale à μ2. Vérifier ensuite que la variance de X est
égale à la moyenne quadratique de Y. Expliquer ces résultats.
9. On définit enfin une variable Z :
X−X
Z=
sX
Sans calculs, déterminer les valeurs de la moyenne arithmétique et de la variance de Z.

Analyse de l’énoncé et conseils. L’exercice porte sur une variable continue. Les cinq
premières questions permettent le calcul des caractéristiques de valeur centrale et de
dispersion les plus usitées : il s’agit essentiellement d’appliquer les principales formules de
cours. Avec les questions 6 à 9 sont abordés successivement les moments centrés et non-
centrés, les caractéristiques de forme et les changements d’origine et d’échelle : ces questions,
qui constituent davantage un approfondissement qu’une application des notions présentées

Jean-Louis MONINO - Jean-Michel KOSIANSKI - François LE CORNU 12


TRAVAUX DIRIGES
− STATISTIQUE DESCRIPTIVE −

dans « L’essentiel du cours », révèlent l’existence de liens algébriques fondamentaux entre


nombre de ces notions.

Jean-Louis MONINO - Jean-Michel KOSIANSKI - François LE CORNU 13


TRAVAUX DIRIGES
− STATISTIQUE DESCRIPTIVE −

2. SOLUTIONS COMMENTEES
6.1. EXERCICE 1 - CAS NON PONDERE
Eléments de réponse à la question 1 :
Nous devons noter dés le début de cet exercice, que nous sommes en présence du cas
particulier où la population est composée d’un nombre très faible d’individus (N=8). Ainsi, il
n’est pas nécessaire en général de construire un tableau statistique dans lequel nous noterions
les effectifs ou les fréquences. Nous associerons au caractère « note obtenue », la variable
statistique discrète X :
x1 = 20 x2 = 24 x3 = 25 x4 = 30
x5 = 32 x6 = 35 x7 = 35 x8 = 43
Commentaires :
Chacune des notes de la série est observée une fois (excepté la valeur 35), nous dirons que
chacune des observations est affectée d'un même poids, c’est à dire la fréquence 1. Nous
observerons également que la série a été rangée par ordre croissant, nous obtenons ainsi la
distribution des notes.
Voyons maintenant les différents résumés de valeurs centrale et de position de la série des
notes des 8 étudiants.
- Le mode n’a pas vraiment de sens lorsque nous avons a affaire à une petite série. En effet,
ce paramètre permet d’identifier au sein de la population la modalité la plus fréquemment
rencontrée. La valeur 35 apparaissant deux fois, nous pouvons néanmoins la considérer
comme la valeur « modale ».
- La médiane sépare en deux parties égales la série statistique rangée par ordre croissant ou
décroissant. Si nous rangeons la série X par ordre croissant nous obtenons :
20 24 25 30 32 35 35 43
L’effectif est pair (N=8), il n'y a pas de note qui sépare en deux parties égales la série rangée
par ordre croissant ou décroissant. Nous parlerons d'intervalle médian ( 30 ; 32 ). Si nous
avons besoin d'une valeur nous pouvons considérer que la demie somme des extrémités de
l'intervalle médian correspond à la médiane, mais dans ce cas la valeur 31 n'appartient pas à la
série (mais c'est une valeur possible de la série)
Dans le cas où nous rajoutons la note 45 à la distribution, le nombre d'observations devient
impair (N=9), il est alors possible de déterminer la médiane de la distributions statistique X.
La distribution des notes :
20 24 25 30 32 35 35 43 45
La médiane est représentée par la note 32 qui est la valeur de la variable qui sépare en deux
parties égales la distribution (qui est toujours rangée par croissant).
- La moyenne arithmétique :
i =8

∑x
i =1
i
20 + 24 + 25 + 30 + 32 + 35 + 35 + 43 244
X= = = = 30,5
N 8 8

Eléments de réponse à la question 2 :


- La moyenne quadratique

Jean-Louis MONINO - Jean-Michel KOSIANSKI - François LE CORNU 14


TRAVAUX DIRIGES
− STATISTIQUE DESCRIPTIVE −

i =8

∑x
i =1
2
i
20 2 + 24 2 + 25 2 + 30 2 + 32 2 + 35 2 + 35 2 + 43 7824
2

Q =
2
= = = 978
N 8 8
Q = Q 2 = 978 = 31,273
- La moyenne géométrique
i =8
G = N ∏ x i = 8 20.24.25.30.32.35.35.43 = 29,7086
i =1

- La moyenne harmonique
N 8 8
H = i =8 = = = 28,9175
1 1 1 1 1 1 1 1 1 0,2766486711
∑i =1 x i
+ + + + +
20 24 25 30 32 35 35 43
+ +

On vérifie sur cet exemple l’inégalité des moyennes :


H <G< X <Q
28,9175 < 29,7086 < 30,5 < 31,273
Eléments de réponse à la question 3 :
- Variance
i =8

∑x
i =1
2
i
7824
s X2 = −X2 = − (30,5) 2 = 47,75
N 8
- Ecart type
s X = s X2 = 47,75 = 6,9101
- Coefficient de variation
s X 6,9101
CV = = = 0,2266
X 30,5

6.2. EXERCICE 2 - CAS NON PONDERE


Eléments de réponse à la question 1 :
Le tableau suivant donne le calcul des fréquences et des fréquences cumulées :
Tableau 3 - Tableau de calculs de l'exercice 2

xi ni fi Fi
0 98 0.1633 0.1633
1 232 0.3867 0.5500
2 119 0.1983 0.7483
3 85 0.1417 0 .8900
4 50 0.0833 0 .9733
5 16 0.0267 1.0000
600 1

Jean-Louis MONINO - Jean-Michel KOSIANSKI - François LE CORNU 15


TRAVAUX DIRIGES
− STATISTIQUE DESCRIPTIVE −

Graphique 1 - Représentation du diagramme en bâtons de l'exercice 2

F ré q u e n c e s
0 .5 0
0 .4 0
0 .3 0
0 .2 0
0 .1 0
0 .0 0
0 1 2 3 4 5
N o m b re d e m a c h in e s v e n d u e s

- Le mode (Xm) est la valeur de la variable qui correspondant à l'effectif (ou à la fréquence) le
plus élevé. La plus grand valeur de ni est 232 , la valeur de (Xm) est 1.
- La médiane (XM) de série statistique classée par ordre croissant sépare l'effectif total en
deux parties égales. Dans notre exemple cette propriété est donnée par la valeur XM = 1.
- La moyenne arithmétique
X = 1,675
- la variance
s X2 = 1,6494
- l'écart type
s X = s X2 = 1,2843
- le coefficient de variation,
s X 1,2843
= = 0,7667
X 1,675
- le coefficient d'asymétrie de Fischer
μ 1,4775
γ1 = 3 = = 0,6975
s3 2,1184
- le coefficient d'asymétrie de Pearson
β 1 = (γ 1 )2 = 0,4865
- le coefficient d'aplatissement de Pearson
μ 7,4993
β2 = 4 = = 2,75664
s 4 2,7205
- le coefficient d'aplatissement de Fischer

Jean-Louis MONINO - Jean-Michel KOSIANSKI - François LE CORNU 16


TRAVAUX DIRIGES
− STATISTIQUE DESCRIPTIVE −

μ4
γ 2 = β2 − 3 = − 3 = −0,2434
s4
commentaires :
La valeur du coefficient d'asymétrie de Pearson est de 0.4865, il nous indique que la
distribution est non symétrique. La valeur du coefficient d'asymétrie de Fisher est de 0.6975,
il permet de voir que la distribution est étalée vers la droite, ce qui est confirmé par l'allure du
polygone des fréquences. La valeur négative du coefficient d'aplatissement de Fisher qui est
de -0.2434 indique que la courbe est plus aplatie que la "normale"(attention ce terme fait
référence à une loi statistique ; la loi normale), elle donc platikurtique.
6.3. EXERCICE 3 - CAS PONDERE CONTINUE
Eléments de réponse à la question 1 : Le caractère « Age » est associé à une variable
statistique continue, que nous noterons X et dont les valeurs sont groupées en classes. La
représentation graphique de X suppose le calcul préalable :
- des fréquences fi afin de construire l’histogramme,
- des fréquences cumulées Fi (croissantes et décroissantes) pour pouvoir construire
les courbes des fréquences cumulées.
Ici, les amplitudes des classes étant variables, nous devrons calculer les fréquences corrigées
fic et non les seules fréquences fi.. Les fic seront obtenues : fi / bi , où bi constitue l’amplitude
simplifiée ; comme on constate que les valeurs de la variable X peuvent être divisée par 10
pour simplifier les calculs, nous choisirons de poser : bi = ai / 5. Notons que dans d’autres
applications, le calcul des fréquences corrigées peut nécessiter le recours à un coefficient
correcteur, en plus de l’amplitude simplifiée. De plus, préalablement aux calculs, signalons
que nous résoudrons le problème de la dernière classe (ouverte) en considérant que celle-ci
peut avoir une amplitude identique à la précédente, soit ai = 15.
Tableau 4 - Tableau des calculs de l'exercice 3
Age Effectifs Fréquences Amplitudes Amplitudes Fréquences Fréquences Fréquences
[xi-1 , xi+1] ni fi ai simplifiées corrigées cumulées Fi cumulées
bi = a i / 5 fic = fi / bi croissantes décroissantes
De 15-à moins de 25 ans 96 0,192 10 2 0,096 0,192 1,000
De 25- à moins de 35 ans 118 0,236 10 2 0,118 0,428 0,808
De 35- à moins de 50 ans 138 0,276 15 3 0,092 0,704 0,572
De 50- à moins de 65 ans 101 0,202 15 3 0,067 0,906 0,296
De 65 ans et plus 47 0,094 15 3 0,031 1,000 0,094
TOTAL 500 1,000
A partir des fréquences corrigées on peut construire l’histogramme suivant :

Jean-Louis MONINO - Jean-Michel KOSIANSKI - François LE CORNU 17


TRAVAUX DIRIGES
− STATISTIQUE DESCRIPTIVE −

Graphique 2 - Histogramme de l'exercice 3

0.14

Fréquences 0.12

0.10

0.08

0.06

0.04

0.02

0.00
15-25 25-35 35-50 50-65 65 et plus

Les deux dernières colonnes du tableau 4, ci-dessus permettent de construire les courbes des
fréquences cumulées :
Graphique 3 - Courbes cumulatives croissantes et décroissante

1
Fréquences cumulées

0.9
0.8
0.7
0.6
0.5
0.4
0.3
0.2
0.1 Médiane
0
0 20 40 60 80
Classes d'âges

L’intersection des courbes détermine la médiane, que l’on notera XM. La lecture du graphique
ci-dessus nous permet de déduire que XM = 38,9 ans.
Eléments de réponse à la question 2 :
On constate que la classe pour laquelle la valeur fic est la plus élevée est la classe [25 , 35[,
elle constitue par conséquent la classe modale ; c’est-à-dire que [25 , 35[ constitue la
catégorie d’âge la plus souvent enregistrée par l’enquête. Si l'on désir effectivement une
valeur nous pouvons calculer :
⎛ d1 ⎞ ⎛ 0,022 ⎞
X m = xi −1 + ai ⎜ ⎟ = 25 + 10 ⋅ ⎜ ⎟ = 29 ,58
⎝ d1 + d2 ⎠ ⎝ 0,022 + 0,026⎠
Eléments de réponse à la question 3 :
Les fréquences cumulées Fi permettent de déterminer la classe médiane et, par généralisation,
les classes quantiles. A partir de celle(s)-ci, il sera ensuite possible de procéder au calcul par

Jean-Louis MONINO - Jean-Michel KOSIANSKI - François LE CORNU 18


TRAVAUX DIRIGES
− STATISTIQUE DESCRIPTIVE −

interpolation linéaire de la médiane et, par généralisation, des quantiles. La médiane est la
valeur de la variable X qui partage la distribution statistique en deux sous-ensembles de même
effectif. On note la médiane XM.
La variable X étant continue, on commence par rechercher la classe médiane. Celle-ci
correspond à Fi (XM) = 0,5. A défaut, c’est-à-dire si la valeur Fi (XM) = 0,5 ne figure pas dans
le tableau des calculs, on recherchera parmi les valeurs des fréquences cumulées croissantes,
la valeur de Fi (x) approchant 0,5 par excès . Ici : Fi (x) = 0,704 , qui correspond à la classe
[35 , 50[. On en déduit alors la valeur de médiane XM au moyen de la formule dite
d’interpolation linéaire :
⎛ 0.5 − Fi −1 ⎞ ⎛ 0.5 − Fi −1 ⎞
X M = xi −1 + ai ⎜ ⎟ = xi −1 + ai ⎜⎜ ⎟
⎝ Fi − Fi −1 ⎠ ⎝ f i i ⎟⎠
où xi-1 est l'extrémité inférieure de la classe médiane, ai l’amplitude de la classe médiane, Fi-1
la valeur de la fréquence cumulée croissante pour x i-1 et fi la valeur de la fréquence de la
classe médiane. Soit ici :
⎛ 0,5 − 0,428 ⎞
X M = 35 + 15⎜ ⎟ = 35 + 15.0,26087 = 35 + 3,91305 = 38;91305 ≈ 38,91ans
⎝ 0,276 ⎠
On en déduit que la moitié des visiteurs du musée a moins de 38,91 ans, soit encore que
l’autre moitié a plus de 38,91 ans.
Les quantiles constituent une généralisation de la notion de médiane. En particulier, les
quartiles sont les valeurs de la variable qui partagent l’effectif d’une série ou d’une
distribution statistique, rangée par ordre croissant ou décroissant, en quatre sous-ensembles de
même effectif. Les quartiles sont au nombre de trois et sont notés Q1, Q2, Q3 .
La première classe quartile correspond à Fi(Q1) = 0,25 ou, à défaut, à la valeur de la
fréquence cumulée croissante approchant 0,25 par excès ; soit ici : 0,428 . Il s’agit donc de
[25 , 35[. Par interpolation linéaire, on en déduit ensuite que :
⎛ 0,25 − Fi −1 ⎞
Q1 = x i −1 + a i ⎜⎜ ⎟⎟
⎝ f i ⎠

où xi-1 est ici l'extrémité inférieure de la première classe quartile, ai l’amplitude de cette
classe, Fi-1 la valeur de la fréquence cumulée croissante pour xi-1 et fi la valeur de la fréquence

⎛ 0,25 − 0,236 ⎞
Q1 = 25 + 10⎜ ⎟ = 25 + 10.0,07292 = 25 + 0,7292 = 25,7292 ≈ 25,73ans
⎝ 0,192 ⎠
de la première classe quartile. D’où :
On en déduit qu’un quart des visiteurs du musée a moins de 25,73 ans, soit encore que les
trois-quarts des visiteurs ont plus de 25,73 ans.
La deuxième classe quartile correspond à Fi (Q2) = 0,5. Q2 est donc la médiane. Soit ici :
Q2 = 38,91 ans.

Jean-Louis MONINO - Jean-Michel KOSIANSKI - François LE CORNU 19


TRAVAUX DIRIGES
− STATISTIQUE DESCRIPTIVE −

La troisième classe quartile correspond à Fi (Q3) = 0,75 ou, à défaut, à la valeur de la


fréquence cumulée croissante approchant 0,75 par excès ; soit ici : 0,906 . Il s’agit donc de
[50 , 65[. D’où , par interpolation linéaire:
⎛ 0,75 − Fi −1 ⎞
Q 3 = x i −1 + a i ⎜⎜ ⎟⎟
⎝ f i ⎠
où xi-1 est ici l'extrémité inférieure de la troisième classe quartile, ai l’amplitude de cette
classe , Fi-1 la valeur de la fréquence cumulée croissante pour xi-1 et fi la valeur de la
fréquence de la troisième classe quartile. D’où :
⎛ 0,75 − 0,704 ⎞
Q 3 = 50 + 15⎜ ⎟ = 50 + 15.0,22772 = 50 + 3,4158 = 53,4158 ≈ 53,42ans
⎝ 0,202 ⎠
On en déduit que 75% des visiteurs du musée ont moins de 53,42 ans, soit encore que 25%
des visiteurs ont plus de 53,42 ans.
Il est possible de retrouver ces résultats à partir de la courbe des fréquences cumulées
croissantes, en recherchant les points d’intersection du graphe avec les droites d’équation :
Fi (Q1) = 0,25 Fi (Q2) = 0,5 Fi (Q3) = 0,75.
Les projections de ces points sur l’abscisse fournissent les valeurs des quartiles.
Tableau 5 - Détermination graphique des quartiles

1
Fréquences cumulées

0.9
0.8
75%
0.7
0.6 50%
0.5
0.4 c
0.3 25%
0.2
0.1 Médiane

0
0 20 Q1 40 Q3 60 80
Q2 Classes d'âges

Les quartiles permettent de déterminer un intervalle interquartile. Ici, on déduira de Q1 et Q3


que 50% des personnes interrogées sont âgées de 25,73 à 53,42 ans. Cette caractéristique de
dispersion élimine par conséquent la moitié de l’information fournie par la distribution. Elle
élimine donc particulièrement les valeurs extrêmes, souvent aberrantes, de la variable
statistique X, mais pas que celles-là.
Eléments de réponse à la question 4 :
Le calcul de la moyenne arithmétique exige au préalable le calcul des produits nixi . Nous
profiterons pour calculer également les valeurs nixi² qui seront ensuite utiles pour la
détermination de l’écart-type (question 5).

Jean-Louis MONINO - Jean-Michel KOSIANSKI - François LE CORNU 20


TRAVAUX DIRIGES
− STATISTIQUE DESCRIPTIVE −

La variable associée au caractère « Age » est continue, la distribution statistique ne fournit pas
des valeurs xi, mais des classes [xi-1 , xi+1]. Pour effectuer les calculs nous considérerons, par
convention, que les xi sont les centres des classes. Cette convention se justifie par l’hypothèse
que la distribution au sein de chaque classe est uniforme. En pratique, les centres des classes
s’obtiennent en additionnant les extrémités des classes puis en divisant cette somme par
deux :
x i −1 + x i +1
xi =
2
où xi-1 est l’extrémité inférieure de la classe et xi+1 l’extrémité supérieure.
Tableau 6 - Tableau des calculs pour l'exercice 3
Classes d'âges Centres de classe Effectifs nixi nixi²
[xi-1 , xi+1]. xi ni
De 15 à moins de 25 ans 20 96 1920 38400
De 25 à moins de 35 ans 30 118 3540 106200
De 35 à moins de 50 ans 42,5 138 5865 249262,5
De 50 à moins de65 ans 57,5 101 5807,5 333931,25
De 65 ans et plus 72,5 47 3407,5 247043,75
TOTAL 500 20540 974837,5
La somme des nixi permet de procéder au calcul de la moyenne arithmétique. En effet, la
moyenne arithmétique pondérée de la distribution (xi, ni) est le nombre :
i =r
n 1
X = ∑ Ni xi = 500 20540 = 41,08 ans
i =1
L’âge moyen des visiteurs du musée est de 41,08 ans. On remarque que la moyenne
arithmétique est voisine de la médiane.
Eléments de réponse à la question 5 :
L’étendue constitue la manière la plus simple pour mesurer la dispersion d’une série ou d’une
distribution statistique. Elle se calcule par différence entre les valeurs extrêmes de la série. Ici,
l’extrémité supérieure de la dernière classe de la distribution est inconnue, mais nous l'avons
fixé par hypothèse à 80 ans. L'étendue est donc :
80-15 = 65 ans.
Il y a 65 années d’écart entre l'individu le moins âgé et le plus âgé de l’enquête.
L’écart absolu moyen est la moyenne arithmétique des écarts en valeur absolue par rapport à
une caractéristique de position, le plus souvent la moyenne arithmétique.
Tableau 7 - Tableau des calculs pour l'exercice 3 (suite)
Classes d'âges Effectifs Centres de classe
[xi-1 , xi+1] ni xi xi − X xi − X ni xi − X
De 15 à moins de 25 ans 96 20 -21,08 21,08 2023,68
De 25 à moins de 35 ans 118 30 -11,08 11,08 1307,44
De 35 à moins de 50 ans 138 42,5 1,42 1,42 195,96
De 50 à moins de65 ans 101 57,5 16,42 16,42 1658,42
65 ans et plus 47 72,5 31,42 31,42 1476,74

Jean-Louis MONINO - Jean-Michel KOSIANSKI - François LE CORNU 21


TRAVAUX DIRIGES
− STATISTIQUE DESCRIPTIVE −

TOTAL 500 17,1 81,42 6662,24


Pour la variable statistique X de distribution (xi, ni), où i∈{1,…,r}, on appelle l'écart absolu
moyen le nombre défini par :
1 i =r 1
X e = ∑ ni xi − X = 6662 ,5 = 13,32 ans
N i =1 500
L’écart absolu moyen par rapport à la moyenne arithmétique est de 13,32 ans
Enfin, à partir du tableau de la question 3, nous pouvons calculer la variance puis l’écart-type
de X. On appelle variance, notée s X2 , de la variable statistique X de distribution (xi, ni), où
i ∈ {1,... , r} ,la moyenne arithmétique pondérée des carrés des écarts à la moyenne arithmétique
pondérée. La variance est donc le nombre défini par :
1 i =r i =r
s2X = ∑ ni ( xi − X ) = ∑ f i ( xi − X )
2 2
N i =1 i =1
On appelle écart-type de la variable X, noté s X , la racine carrée de la variance :
i =r i =r

∑ n (x ) ∑ f (x )2
1 2
sX = s 2X = i i −X = i i −X
N i =1 i =1

En pratique, la variance se calcule surtout en utilisant sa forme développée :


i =r
1 i=r
s X2 = ∑ n i x i2 − X 2 ou s 2X = ∑ f i xi2 − X 2
N i =1 i =1

1
s x2 = 974837,5 − 41,08 2 = 1949,675 − 1687,5664 = 262,1086ans 2
500
s x = 262,1086 = 16,18977 ≈ 16,19ans
Par conséquent, les visiteurs du musée questionnés ont en moyenne 41,08 ans, avec un écart-
type de 16,19 ans. Ainsi, la plupart des visiteurs ont un âge compris entre :
41,08-16,19=24,89 ans et 41,08+16,19=57,27 ans.
Eléments de réponse à la question 4 :
Pour la variable statistique X de distribution (xi, ni), où i∈{1,…,n}, on appelle moment non
centré d’ordre r de la variable statistique X, la quantité :
1 n n
mr = ∑
N i =1
n i x ir ou m r = ∑ f i x ir
i =1
On appelle moment centré (sur la moyenne arithmétique) d’ordre r de la variable X, la
quantité :
1 n
( ) ( )
n
μ r = ∑ n i x i − X ou μ r = ∑ f i x i − X
r r

N i =1 i =1
Ainsi , les moments centrés d’ordres 1 et 2 seront respectivement:

μ1 =
1 n

N i =1
( )
1 n
n i x i − X et μ 2 = ∑ n i x i − X
N i =1
2
( )
Pour calculer μ1 et μ2, nous avons besoin de construire un nouveau tableau de calculs :

Jean-Louis MONINO - Jean-Michel KOSIANSKI - François LE CORNU 22


TRAVAUX DIRIGES
− STATISTIQUE DESCRIPTIVE −

Tableau 8 - Tableau des calculs suite 2


Classes d'Ages Effectifs Centres de
[xi-1 , xi+1] ni classe xi − X (
ni xi − X ) (x i −X )
2
(
ni xi − X )
2

xi
De 15 à moins de 25 ans 96 20 -21,08 -2023,68 444,36 42659,17
De 25 à moins de 35 ans 118 30 -11,08 -1307,44 122,76 14486,43
De 35 à moins de 50 ans 138 42,5 1,42 195,96 2,01 278,26
De 50 à moins de 65 ans 101 57,5 16,42 1658,42 269,61 27231,25
65 ans et plus 47 72,5 31,42 1476,74 987,21 46399,17
TOTAL 500 0 131054,3
On en déduit :
1
μ1 = 0 = 0an
500

1
μ2 =
131054,3 = 262,1086 ≈ 262,11ans 2
500
On constate que le moment centré d’ordre 1 est nul (toujours) et que le moment centré d’ordre
2 est égal à la variance.
Le premier résultat est inhérent à la notion même de moyenne arithmétique : la somme des
écarts des valeurs observées à la moyenne arithmétique est nulle.

( )
r r r

∑ ni xi − X = ∑ ni xi − X ∑ ni = N X − X N = N X − N X = 0
i =1 i =1 i =1

Le deuxième résultat pouvait être entrevu dès la lecture de la formule de détermination de μ2.
Cette formule est en effet identique à celle de la variance : la variance n’est autre que le
moment centré (sur la moyenne arithmétique) d’ordre 2. Les moments centrés et non centrés
sont liés entre eux . Par exemple :

μ2 =
1
N
n

∑ ni xi − X
i =1
( )2
=
1
N
n

i =1
(
∑ ni x i2 = X
2
)
− 2 xi X =
1
N
n

∑ ni x i2 +
i =1
1 2 n
N
n
X ∑ ni − 2 X ∑ ni xi
i =1 i =1

1 2 1 2 2 2
μ 2 = m2 +X N − 2 X N X = m 2 + X − 2 X = m 2 − X = m 2 − m12
N N
1 n 1 n
car on remarque que : m1 = ∑ n i x i1 = ∑ n i x i = X
N i =1 N i =1
La moyenne arithmétique est par conséquent un moment : le moment non-centré d’ordre 1.
Ainsi :

m1 = X = 41,08ans
1 n 1

N i =1
m2 =
n i x ié =
500
974837,5 = 1949,675ans 2

Les moments non-centrés permettent pour leur part de calculer les moments centrés, comme
on vient de l’observer. Par exemple :

Jean-Louis MONINO - Jean-Michel KOSIANSKI - François LE CORNU 23


TRAVAUX DIRIGES
− STATISTIQUE DESCRIPTIVE −

μ 2 = 1949,675 − 41,08 2 = 262,1086 ≈ 262,11ans 2


Les moments centrés indiquent l’allure générale de la distribution statistique. Ainsi, les
moments sont utiles pour le calcul des indicateurs d’asymétrie et d’aplatissement de la
distribution.

Eléments de réponse à la question 6 :


Les indicateurs d’asymétrie et d’aplatissement permettent une interprétation la plus objective
possible des représentations graphiques. En l’absence d’indicateur, c’est-à-dire de mesure
technique, donc objective, comment garantir que le commentaire puisse ne pas être empreint
de subjectivité ?
Les indicateurs d’asymétrie et de d’aplatissement de Pearson et de Fisher permettent de porter
un jugement objectif sur la forme de toute distribution statistique, par référence à une
distribution « normale » dont les paramètres théoriques sont connus. En l’occurrence : sa
moyenne arithmétique est égale à3 et son écart-type nul.
Le calcul des indicateurs de Pearson et Fisher nécessite au préalable celui des moments
centrés d’ordre 2, 3 et 4. En effet, les formules des coefficients d’asymétrie et d’aplatissement
font appel aux moments centrés :

INSERER LES FORMULES

Puisque nous avons calculé précédemment μ2, il nous reste à déterminer les valeurs de μ3 et
μ4 pour pouvoir appliquer ces formules. Comme dit plus haut, le plus simple sera de calculer
les moments centrés à partir des moments non centrés :

INSERER LES FORMULES


Nous connaissons les valeurs de m1 et m2 .Pour déterminer les valeurs de m3 et m4, nous
utiliserons le tableau suivant :
Tableau 9 - Tableau des calculs pour les moments
Classes d'Ages Effectifs Centres de classe nixi3 nixi4
[xi-1 , xi+1] ni xi
De 15 à moins de 25 ans 96 20 38400 768000
De 25 à moins de 35 ans 118 30 106200 3186000
De 35 à moins de 50 ans 138 42,5 249262,5 10593656,3
De 50 à moins de-65 ans 101 57,5 333931,25 19201046,9
De 65 ans et plus 47 72,5 247043,75 17910671,9
TOTAL 500 974837,5 51659375
Ainsi :
1
m3 = 974837,5 = 1949,675ans 3
500
1
m4 = 51659375 = 103318,75ans 4
500
On en déduit :

Jean-Louis MONINO - Jean-Michel KOSIANSKI - François LE CORNU 24


TRAVAUX DIRIGES
− STATISTIQUE DESCRIPTIVE −

μ 3 = 1949,675 − 3.41,08.1949,675 + 2.41,08 3 = 1949,675 − 240277,95 + 138650,46 = −99677,82ans 3


μ 4 = 103318,75 − 4.41,08.1949,675 + 6.41,08 2 .1949,675 − 3.41,08 4
= 103318,75 − 320370,6 + 19741236 − 8543641,1 = 10980543ans 4
Soit finalement , pour les coefficients d’asymétrie :
− 99677,82 2 9935667800
Ap = = = 551,76387 ≈ 551,76
262,10861 18007101
AF = 551,76387 = 23,489655 ≈ 23,49
Les coefficients de Pearson et de Fisher étant tous les deux positifs, on en conclut que la
distribution est asymétrique (Pearson), étalée vers la droite (Fisher).
Pour les coefficients d’aplatissement :

10980543 10980543
APP = = = 159,8311 ≈ 159,83
262,1086 2 68700.918
APF = 159,8311 − 3 = 156,8311 ≈ 156,83
Le coefficient de Pearson étant strictement supérieur à 3 et conséquemment le coefficient de
Fisher étant strictement supérieur à 0, on en déduit que la distribution est moins aplatie que la
« normale ».
Eléments de réponse à la question 6 :
Le calcul de la moyenne arithmétique et de la variance de Y nous passons par le calcul
préalable des yi puis des produits niyi et niyi². Pour ce faire, on considérera que la moyenne
arithmétique de X est égale à 41,08 ans. D’où :
Tableau 10 - Tableau de la nouvelle variable
Classes d'Ages Effectifs Centres de n iy i niyi²
[xi-1 , xi+1] ni classe
xi
De 15 à moins de 25 ans 96 20 -21,08 -2023,68 42659,17
De 25 à moins de 35 ans 118 30 -11,08 -1307,44 14486,43
De 35 à moins de 50 ans 138 42,5 1,42 195,96 278,26
De 50 à moins de-65 ans 101 57,5 16,42 1658,42 27231,25
De 65 ans et plus 47 72,5 31,42 1476,74 46399,17
TOTAL 17,1 0 131054,3
A partir du tableau, on peut calculer :

Jean-Louis MONINO - Jean-Michel KOSIANSKI - François LE CORNU 25


TRAVAUX DIRIGES
− STATISTIQUE DESCRIPTIVE −

1
Y = 0 = 0an
500
1
sY2 = 131054,3 − 0² = 262,1086ans ²
500
sY = 262,1086 = 16,189768 ≈ 16,19ans
On remarque que l’on retrouve ici des résultats déjà obtenus : Y n’étant autre que la variable
centrée à la moyenne arithmétique, sa moyenne est égale au moment centré d’ordre 1 de la
variable X et sa variance est égale au moment centré d’ordre 2 de X. Par ailleurs, la variance
de X est égale à la moyenne quadratique de Y.
La moyenne quadratique Q d’une distribution (xi, ni) est obtenue à partir de la moyenne
arithmétique de la distribution (x’i, ni), obtenue en posant x’i = x²i.On a donc :
n x 2 +... + ni xi2 +... + nr xr2 1 i = r i=r
Q2 = 1 1 = ∑ ni xi2 = ∑ fi xi2
n1 +... + ni +... + nr N i =1 i =1
qui s'écrit également :
i =r
Q=
1
N
( )
n1 x12 + ...+ ni xi2 + ...+ nr xr2 =
1
N ∑n x 2
i i
i =1

Ici, nous aurons à calculer la moyenne quadratique de Y, soit :

Q² =
1 r

N i =1
( 2
)
n i x i − X et Q =
1 r

N i =1
ni xi − X
2
( )
On constate que cette formule est identique à celle de la variance de X (et d’après la remarque
précédente à celle de μ2). De fait :
1
Q² = 131054,3 = 262,1086ans ² = s 2X
500
Eléments de réponse à la question 6 :
La variable statistique Z correspond à une distribution (zi,ni) où les zi sont obtenus en centrant
et en réduisant les valeurs xi de la variable X. Précisément, les valeurs xi sont centrées autour
de la moyenne arithmétique de X puis réduites en divisant le résultat de cette soustraction par
sx :

xi − X
zi =
sX
On peut démontrer sans recours au calcul que la distribution centrée réduite (zi,ni) possède
une moyenne arithmétique toujours égale à 0 et une variance toujours égale à 1.

INSERER LA DEMONSTRATION BOUQUIN


Plus généralement, on peut à partir de la distribution statistique liée à X procéder à des
changements d’origine et/ou d’échelle. Les moyennes arithmétiques et les variances liées à
ces nouvelles distributions peuvent s’obtenir à partir des propriétés suivantes :

Jean-Louis MONINO - Jean-Michel KOSIANSKI - François LE CORNU 26


TRAVAUX DIRIGES
− STATISTIQUE DESCRIPTIVE −

soit la distribution (xi, ni) où i ∈ {1,..., r} et sa moyenne arithmétique pondérée X , la


moyenne arithmétique de la distribution centrée (yi, ni) où yi = xi− X et :
1 i =r 1 i =r 1 i =r
Y = ∑ n y = ∑ ( n
N i =1 i i N i =1 i i
x − X ) N ∑ ni xi − X = X − X = 0
=
i =1

: soit la distribution (xi, ni) où i ∈ {1,..., r} , sa moyenne arithmétique pondérée X , et son


x −X
écart-type s X , la distribution centrée et réduite (zi, ni), définie par zi = i , possède une
sX
moyenne arithmétique pondérée et une variance toujours égale à un :
1 i =r 1 i =r ⎛ x − X ⎞ 1 ⎡ 1 i =r ⎤
Z = ∑ ni yi = ∑ ni ⎜ i ⎟= ⎢ ∑ ni xi − X ⎥ = 0
N i =1 N i =1 ⎝ s X ⎠ s X ⎣⎢ N i =1 ⎦⎥
1 i =r 1 i =r 1 i = r ⎛ xi − X ⎞ 1 ⎡ 1 i =r 2 ⎤
2
= ∑ ni ( zi − Z ) = ∑ ni ( zi ) = ∑ ni ⎜
1
⎟ = 2 ⎢ ∑ ni xi − X 2 ⎥ = 2 s2X = 1
2 2
sZ2
N i =1 N i =1 N i =1 ⎝ s X ⎠ s X ⎢⎣ N i =1 ⎥⎦ s X

REMARQUE :

Les différents résultats de cet exercice sont exprimés dans l’unité « an ». Or par exemple, le
résultat : « L’âge médian des visiteurs du musée est 38,91 ans » ne constitue pas un résultat
qui « parlera » à tout le monde. Aussi, pourra-t-on préférer fournir ce résultat en années, mois
et éventuellement jours, afin d’avoir une information plus explicite.
Le principe consiste à déterminer d’abord le nombre de mois correspondant à 0,91 an ; ici :
0,91 x 12 = 10,92 mois. Ensuite, en considérant que le mois est équivalent à 30 jours (pour
simplifier), on calculera le nombre de jours correspondant à 0,92 mois ; ici : 0,92 x 30 = 27,6
jours.

On en déduit finalement que l’âge médian des visiteurs est égal à 38 ans, 10 mois et 28 jours.

Jean-Louis MONINO - Jean-Michel KOSIANSKI - François LE CORNU 27


TRAVAUX DIRIGES
− STATISTIQUE DESCRIPTIVE −

TABLE DES MATIERES TD2


LES RESUMES NUMERIQUES DES DISTRIBUTIONS STATISTIQUES A UNE
VARIABLE QUANTITATIVE

L'ESSENTIEL DU COURS.................................................................................................................................... 1

1. LES PRINCIPAUX RESUMES DE LA STATISTIQUE .............................................................................. 1

2. LES CARACTERISTIQUES DE VALEUR CENTRALE ET DE POSITION ............................................. 1


2.2. LA MEDIANE ............................................................................................................................................ 1
1.2. LES QUARTILES, DECILES ET CENTILES ..................................................................................................... 2
1.3. LE MODE .................................................................................................................................................. 2
1.3.1. Définition restrictive ....................................................................................................................... 2
1.3.2. Définition élargie ............................................................................................................................ 2
1.4. LA MOYENNE ARITHMETIQUE .................................................................................................................. 3
1.5. GENERALISATION DE LA NOTION DE MOYENNE ........................................................................................ 4
2. LES CARACTERISTIQUES DE DISPERSION ........................................................................................... 5
2.1. ETENDUE, INTERVALLES INTERQUANTILES .............................................................................................. 5
2.2. ECART ABSOLU MOYEN, VARIANCE ET ECART-TYPE ................................................................................ 6
3. LES MOMENTS CENTRES ET LES MOMENTS NON-CENTRES D’ORDRE R D’UNE VARIABLE
STATISTIQUE. ...................................................................................................................................................... 6
3.1. LES MOMENTS NON CENTRES D’ORDRE R. ................................................................................................ 7
3.2. LES MOMENTS CENTRES D’ORDRE R. ........................................................................................................ 7
4. ASYMETRIE ET APLATISSEMENT ........................................................................................................... 7
4.1. L’ASYMETRIE. .......................................................................................................................................... 7
4.1.1. Le coefficient d'asymétrie de Pearson est : ..................................................................................... 7
4.1.2. Le coefficient d'asymétrie de Fisher ................................................................................................ 8
4.2. L’APLATISSEMENT. .................................................................................................................................. 8
4.2.1. Le coefficient d'aplatissement de Pearson....................................................................................... 8
4.2.2. Le coefficient d'aplatissement de Fisher est : ................................................................................. 8
POUVEZ-VOUS REPONDRE ? ............................................................................................................................ 9

QUESTIONS DE REFLEXION ............................................................................................................................. 9

SOLUTIONS ........................................................................................................................................................ 10

SOLUTION AUX TESTS .................................................................................................................................... 10

SOLUTION AUX QUESTIONS DE REFLEXION............................................................................................. 10

ENTRAINEMENT ............................................................................................................................................... 11
5.1. EXERCICE 1 - CAS NON PONDERE : .......................................................................................................... 11
5.2. EXERCICE 2 - CAS PONDERE : ................................................................................................................. 11
5.3. EXERCICE 2 - CAS PONDERE : ................................................................................................................. 12
2. SOLUTIONS COMMENTEES .................................................................................................................... 14
6.1. EXERCICE 1 - CAS NON PONDERE............................................................................................................ 14
6.2. EXERCICE 2 - CAS NON PONDERE............................................................................................................ 15

Jean-Louis MONINO - Jean-Michel KOSIANSKI - François LE CORNU 28


TRAVAUX DIRIGES
− STATISTIQUE DESCRIPTIVE −

6.3. EXERCICE 3 - CAS PONDERE CONTINUE .............................................................................................. 17


Classes d'Ages ............................................................................................................................................... 23
INSERER LES FORMULES ...................................................................................................................................... 24
INSERER LES FORMULES ...................................................................................................................................... 24
Classes d'Ages ............................................................................................................................................... 24
Classes d'Ages ............................................................................................................................................... 25

TABLE DES TABLEAUX - TD2


LES RESUMES NUMERIQUES DES DISTRIBUTIONS STATISTIQUES A UNE
VARIABLE QUANTITATIVE

TABLEAU 1 - DISTRIBUTION DES VENTES D'UN ENTREPRISE (EN JOURS) ................................................................. 11


TABLEAU 2 - ENQUETE SUR UN MUSEE - DISTRIBUTION DES VISITEURS ................................................................. 12
TABLEAU 3 - TABLEAU DE CALCULS DE L'EXERCICE 2 ........................................................................................... 15
TABLEAU 4 - TABLEAU DES CALCULS DE L'EXERCICE 3 ......................................................................................... 17
TABLEAU 5 - DETERMINATION GRAPHIQUE DES QUARTILES .................................................................................. 20
TABLEAU 6 - TABLEAU DES CALCULS POUR L'EXERCICE 3 ..................................................................................... 21
TABLEAU 7 - TABLEAU DES CALCULS POUR L'EXERCICE 3 (SUITE) ........................................................................ 21
TABLEAU 8 - TABLEAU DES CALCULS SUITE 2 ....................................................................................................... 23
TABLEAU 9 - TABLEAU DES CALCULS POUR LES MOMENTS .................................................................................... 24
TABLEAU 10 - TABLEAU DE LA NOUVELLE VARIABLE............................................................................................ 25

TABLE DES GRAPHIQUES - TD 2


LES RESUMES NUMERIQUES DES DISTRIBUTIONS STATISTIQUES A UNE
VARIABLE QUANTITATIVE

GRAPHIQUE 1 - REPRESENTATION DU DIAGRAMME EN BATONS DE L'EXERCICE 2 .................................................. 16


GRAPHIQUE 2 - HISTOGRAMME DE L'EXERCICE 3 .................................................................................................. 18
GRAPHIQUE 3 - COURBES CUMULATIVES CROISSANTES ET DECROISSANTE ............................................................ 18

Jean-Louis MONINO - Jean-Michel KOSIANSKI - François LE CORNU 29