Vous êtes sur la page 1sur 85

Statistique descriptive

Statistique univariée

Enseignant:
Pegdwindé Ousséni Fabrice OUEDRAOGO

Licence 1, Géologie
Institut Teng-Tuuma Géoscience de Ouagadougou (I.T.T.G.O)

2019-2020

P.O.Fabrice OUEDRAOGO Statistique descriptive 2019-2020 1 / 82


Sommaire

1 Variables, données statistiques, 2 Statistiques descriptives


tableaux, effectifs univariées

P.O.Fabrice OUEDRAOGO Statistique descriptive 2019-2020 2 / 82


Sommaire

1 Variables, données statistiques, 2 Statistiques descriptives


tableaux, effectifs univariées
Définitions fondamentales
Variables qualitatives
Variables quantitatives
Effectifs cumulés et
fréquences cumulées
Fonctions de répartitions
Représentation graphique
d’une variable

P.O.Fabrice OUEDRAOGO Statistique descriptive 2019-2020 3 / 82


Définitions fondamentales
Statistique descriptive et statistique inférentielle

Les méthodes de la statistique descriptive (statistique déductive)


permettent de mener des études à partir de données exhaustives,
c’est-à-dire concernant tous les individus de la population concernés
par l’étude. L’idée première de la statistique descriptive est celle du
dénombrement.

Quand les données ne concernent qu’un échantillon de la population,


comme dans le cas de sondages, on a recours à la statistique
inférentielle (statistique inductive), qui utilise la théorie des
probabilités.

P.O.Fabrice OUEDRAOGO Statistique descriptive 2019-2020 4 / 82


Définitions fondamentales
La population

La population statistique est l’ensemble des éléments sur lesquels


porte l’étude. Les éléments de la population sont appelés individus
statistiques ou unité statistiques.
Exemple : Les étudiants d’une classe, les caı̈lcedrats de la forêt classée, les
ménages de la ville de Dédougou, . . .

Si la population comporte N individus on notera


Ω = {ω1 , ω2 , . . . , ωN }, les ωi désignant les individus qui le
composent. Un échantillon de taille n est un sous ensemble formé de
n individus de la population (n ≤ N).

P.O.Fabrice OUEDRAOGO Statistique descriptive 2019-2020 5 / 82


Définitions fondamentales
Variable statistique

Une variable statistique (ou caractère statistique), notée X , est


une application définie sur une population statistique et à valeurs
dans un ensemble M appelé ensemble des modalités. Les modalités
(ou valeurs distinctes) correspondent aux valeurs possibles de la
variables statistique. Une variable statistique définit une partition sur
une population, chaque individu appartenant à une seule modalité.
Si le nombre de modalité est J, l’ensemble des modalités de la
variable X sera noté M = {x1 , x2 , . . . , xj , . . . , xJ }
Exemple : Les notes des étudiants à l’examen de statistique, les mentions
qu’ils ont obtenues à leur Bac, leur sexe, les couleurs de leurs yeux, le
nombre d’enfants par ménage, le chiffre d’affaire par PME.

P.O.Fabrice OUEDRAOGO Statistique descriptive 2019-2020 6 / 82


Définitions fondamentales
Effectif, fréquence

Tableau de données
Note à l’examen
Individu Couleur des yeux Sexe Mention au Bac de statistiques
Michel V H P 12
Jean B H AB 8
Stéphane N H P 13
Charles M H P 11
Agnès B F AB 10
Nadine V F P 9
Etienne N H B 16
Giles M H AB 14
Aurélie B F P 11
Stéphanie V F B 15
Marie-Claude N F P 4
Anne B F TB 18
Christophe V H AB 12
Pierre N H P 6
Bernadette M F P 2

P.O.Fabrice OUEDRAOGO Statistique descriptive 2019-2020 7 / 82


Définitions fondamentales
Effectif, fréquence

L’effectif aussi appelé fréquence absolue de la modalité xj est noté


nj et désigne le nombre d’individus de la population présentant la
modalité xj . L’effectif total n de la population est alors :

J
X
n = n1 + n2 + · · · + nJ soit n= nj
j=1

La fréquence (par défaut fréquence relative) de la modalité notée


fj est définie par
nj
fj = , j = 1, . . . , J
n
La fréquence exprime la proportion d’individus présentant une
modalité donnée. Elle peut s’exprimer sous forme d’un nombre
décimal (en général avec une précision d’ordre 4) ou sous la forme
d’un pourcentage.
P.O.Fabrice OUEDRAOGO Statistique descriptive 2019-2020 8 / 82
Définitions fondamentales
Effectif, fréquence

Si X est une variable à J modalités alors


J
X
0 ≤ fj ≤ 1, j = 1, . . . , J et fj = 1
j=1

ou en cas de pourcentage,
J
X
0 ≤ fj ≤ 100, j = 1, . . . , J et fj = 100
j=1

P.O.Fabrice OUEDRAOGO Statistique descriptive 2019-2020 9 / 82


Définitions fondamentales
Effectif, fréquence

Exemple : On s’intéresse à la variable ”état-civil” notée X et à la série


statistique des valeurs prises par X sur 20 personnes. La codification est :
C: Célibataire
M: Marié(e)
V: Veuf (ve)
D: Divorcé (e)
La série statistique des valeurs est la suivante

M M D C C M C C C M
C M V M V D C C C M

P.O.Fabrice OUEDRAOGO Statistique descriptive 2019-2020 10 / 82


Définitions fondamentales
Effectif, fréquence

Avec les valeurs de l’exemple on a le tableau statistique :

xj C M V D Total
nj 9 7 2 2 20
fj 0.45 0.35 0.10 0.10 1

P.O.Fabrice OUEDRAOGO Statistique descriptive 2019-2020 11 / 82


Variables qualitatives

Une variable statistique est dite de nature qualitative si ses modalités


ne sont pas mesurables. Les modalités d’une variable qualitative sont
les différentes catégories d’une nomenclature. Ces catégories doivent
être exhaustives (chaque individu est affecté à une modalité) et
incompatibles (un individu ne peut être affecté à plusieurs modalités)
de façon à créer une partition.
Exemple : Les modalités de la variable sexe sont : Masculin et Féminin,
celles de la variable couleur des yeux sont : Bleu, Marron, Noir et Vert. Pour
la variable mention au Bac, on a : TB, B, AB et P.

P.O.Fabrice OUEDRAOGO Statistique descriptive 2019-2020 12 / 82


Variables qualitatives

♠ Une variable qualitative est dite définie sur une échelle nomimale si
ses modalités ne sont pas naturellement ordonnées.
Exemple : La variable couleur des yeux , la variable sexe, . . ..

♠ Elle est dite définie sur une échelle ordinale si l’ensemble de ses
modalités peut être doté d’une relation d’ordre.
Exemple : La variable mention au Bac, . . .

P.O.Fabrice OUEDRAOGO Statistique descriptive 2019-2020 13 / 82


Variables quantitatives

Une variable statistique est dite de nature quantitative si ses


modalités sont mesurables. Les modalités d’une variable quantitative
sont des nombres liés à l’unité choisie, qui doit toujours être précisée.
Exemple : Les notes des étudiants à l’examen de statistique, le chiffre
d’affaire par PME, le nombre d’enfants par ménage, . . .

P.O.Fabrice OUEDRAOGO Statistique descriptive 2019-2020 14 / 82


Variables quantitatives

♠ Une variable quantitative est dite discrète si l’ensemble de ses


modalités est un ensemble fini ou dénombrable.
Par exemple le nombre d’enfants dans un ménage ne peut être que 0,
ou 1, ou 2, ou 3, . . .. Il ne peut jamais prendre une valeur strictement
comprise entre 0 et 1, ou 1 et 2, ou 2 et 3,. . ..

P.O.Fabrice OUEDRAOGO Statistique descriptive 2019-2020 15 / 82


Variables quantitatives

♠ Une variable quantitative est dite continue si l’ensemble de ses


modalités n’est pas dénombrable. Ainsi une variable continue peut
prendre toutes les valeurs d’un intervalle. Pour étudier une variable
statistique continue, on définit des classes ou intervalles de valeurs
possibles. On peut ainsi discrétiser une variable continue. Les classes
retenues constituent les modalités de la variable. Par exemple le
chiffre d’affaire par PME peut être 29000e, 29000,1e, . . .

Si [cj− , cj+ [ désigne la classe j, alors cj− est la borne inférieure de la


classe j, cj+ est la borne supérieure de j.
On note cj = (cj+ + cj− )/2 le centre de la classe j, aj = cj+ − cj− son
amplitude, nj son effectif et fj sa fréquence.

P.O.Fabrice OUEDRAOGO Statistique descriptive 2019-2020 16 / 82


Variables quantitatives

Pour répartir les données en classe, il est nécessaire à priori de définir


le nombre de classes J et donc l’amplitude de chaque classe. Les
formules permettant d’établir le nombre de classes et l’intervalle de
classe (l’amplitude) pour une série de n observations sont :
La règle de Sturge : J = 1√+ (3.3 log10 (n))
La règle de Yule : J = 2.5 4 n
L’intervalle de classe est obtenue de la manière suivante :

aj = (xmax − xmin )/J, j = 1, . . . , J

où xmax (resp. xmin ) désigne la plus grande (resp. la plus petite)
valeur observée.

Remarque : Il faut arrondir le nombre de classes J à l’entier le plus


proche. Par commodité, on peut aussi arrondir la valeur obtenue de
l’intervalle de classe.

P.O.Fabrice OUEDRAOGO Statistique descriptive 2019-2020 17 / 82


Variables quantitatives

Exemple : On mesure la taille en cm de 50 élèves d’une classe :

152 154 156 157 159 161 162 164 168 170
152 154 156 157 159 160 162 164 168 171
152 154 156 157 160 160 163 165 168 171
153 155 156 158 160 161 164 166 169 171
153 155 156 158 160 162 164 167 169 171

On a n = 50, donc J = 1 + (3.3 log10 (50)) ≈ 7.


Ensuite on a xmax = 171 et xmin = 152 et alors
aj = (171 − 152)/7 ≈ 3, j = 1, . . . , J

P.O.Fabrice OUEDRAOGO Statistique descriptive 2019-2020 18 / 82


Variables quantitatives

On peut définir les classes suivantes :

[151.5; 154.5[
[154.5; 157.5[
[157.5; 160.5[
[160.5; 163.5[
[163.5; 166.5[
[166.5; 169.5[
[169.5; 172.5[

P.O.Fabrice OUEDRAOGO Statistique descriptive 2019-2020 19 / 82


Variables quantitatives

On construit le tableau statistique

[cj− ; cj+ [ nj fj
[151.5; 154.5[ 8 0.16
[154.5; 157.5[ 10 0.2
[157.5; 160.5[ 9 0.18
[160.5; 163.5[ 6 0.12
[163.5; 166.5[ 6 0.12
[166.5; 169.5[ 6 0.12
[169.5; 172.5[ 5 0.1
50 1.0

P.O.Fabrice OUEDRAOGO Statistique descriptive 2019-2020 20 / 82


Effectif cumulé croissant et décroissant

♠ Si X désigne une variable, on appelle effectif cumulé croissant noté


nj cc le nombre d’individus statistiques pour lesquels X est inférieur
ou égal à xj . On a
X j
nj cc = nk
k=1

♠ L’effectif cumulé décroissant nj cd est le nombre d’individus pour


lesquels X est supérieur ou égal à xj . Et donc

J
X
nj cd = nk
k=j

J désignant le nombre de modalités.

P.O.Fabrice OUEDRAOGO Statistique descriptive 2019-2020 21 / 82


Fréquence cumulée croissante et décroissante

♠ La fréquence cumulée croissante notée fj cc, représente la portion


d’individus statistiques pour lesquels X est inférieur à xj :
j
X
fj cc = fk
k=1

♠ La fréquence cumulée croissante fj cd est la portion d’individus


statistiques pour lesquels X est supérieur à xj .

J
X
fj cd = fk
k=j

P.O.Fabrice OUEDRAOGO Statistique descriptive 2019-2020 22 / 82


Fréquence cumulée croissante et décroissante

Remarque : On ne peut calculer ni les effectifs cumulés, ni les fréquences


cumulées d’une variable qualitative nominale. Par contre, si elle est
ordinale ou si la variable est quantitative, les effectifs cumulés et les
fréquences cumulées sont calculables.

Exemple 1 : En considérant le tableau statistique de la variable ”état


civil” précédent, on a

xj C M V D
nj 9 7 2 2
fj 0.45 0.35 0.10 0.10
nj cc 9 16 18 20
fj cc 0.45 0.80 0.90 1.00

P.O.Fabrice OUEDRAOGO Statistique descriptive 2019-2020 23 / 82


Fréquence cumulée croissante et décroissante

Exemple 2 : En considérant le tableau statistique de la variable ”taille des


élève”, on a
[cj− ; cj+ [ nj nj cc fj fj cc
[151.5; 154.5[ 8 8 0.16 0.16
[154.5; 157.5[ 10 18 0.20 0.36
[157.5; 160.5[ 9 27 0.18 0.54
[160.5; 163.5[ 6 33 0.12 0.66
[163.5; 166.5[ 6 39 0.12 0.78
[166.5; 169.5[ 6 45 0.12 0.90
[169.5; 172.5[ 5 50 0.10 1.00
50 1.00

P.O.Fabrice OUEDRAOGO Statistique descriptive 2019-2020 24 / 82


Fonction de répartition d’une variable quantitative discrète
Les fréquences cumulées croissantes sont représentées au moyen de
fonctions de répartition. Dans le cas d’une variable quantitative discrète,
la fonction de répartition définie de R dans [0, 1] est donnée par

0
 si x < x1
F (x) = fj cc si xj ≤ x < xj+1

1 si xJ ≤ x

Exemple : Un cartier est composé de 50 ménages, et la variable Z


représente le nombre de personnes par ménage. Les valeurs de la variable
sont
1 1 1 1 1 2 2 2 2 2
2 2 2 2 3 3 3 3 3 3
3 3 3 3 3 3 3 3 3 4
4 4 4 4 4 4 4 4 4 5
5 5 5 5 5 6 6 6 8 8

P.O.Fabrice OUEDRAOGO Statistique descriptive 2019-2020 25 / 82


Fonction de répartition d’une variable quantitative discrète

On peut construire le tableau statistique

zj nj nj cc fj fj cc
1 5 5 0.10 0.10
2 9 14 0.18 0.28
3 15 29 0.30 0.58
4 10 39 0.20 0.78
5 6 45 0.12 0.90
6 3 48 0.06 0.96
8 2 50 0.04 1.00
50 1.0

P.O.Fabrice OUEDRAOGO Statistique descriptive 2019-2020 26 / 82


Fonction de répartition d’une variable quantitative discrète

Figure – Fonction de répartition de la variable quantitative discrète Z

P.O.Fabrice OUEDRAOGO Statistique descriptive 2019-2020 27 / 82


Fonction de répartition d’une variable quantitative continue

Dans le cas d’une variable quantitative continue, la fonction de répartition


définie de R dans [0, 1] est donnée par


 0 si x < c1−
fj



F (x) = fj−1 cc + + − (x − cj ) si cj− ≤ x < cj+

 cj − cj
si cJ+ ≤ x

1

P.O.Fabrice OUEDRAOGO Statistique descriptive 2019-2020 28 / 82


Fonction de répartition d’une variable quantitative continue
Exemple : En considérant l’exemple de la variable ”taille des élèves”, on a
la courbe de la fonction de répartition

Figure – Fonction de répartition d’une distribution groupée

P.O.Fabrice OUEDRAOGO Statistique descriptive 2019-2020 29 / 82


Représentation graphique d’une variable
Variable qualitative

Variables qualitatives (ordinales et nominales)

Le tableau statistique d’une variable qualitative peut être représenté par


deux types de graphiques. Les effectifs sont représentés par un diagramme
en barres et les fréquences par un diagramme en secteurs. Dans le cas
d’une variable qualitative ordinale, les effectifs cumulés sont représentés au
moyen d’un diagramme en barres.

Nous allons ici étudier les variables couleur des yeux (variable qualitative
nominale) et mention au Bac (variable qualitative ordinale).

P.O.Fabrice OUEDRAOGO Statistique descriptive 2019-2020 30 / 82


Représentation graphique d’une variable
Variable qualitative

Couleur Bleu Marron Noir Vert


nj 4 3 4 4
fj 0.267 0.2 0.267 0.267

P.O.Fabrice OUEDRAOGO Statistique descriptive 2019-2020 31 / 82


Représentation graphique d’une variable
Variable qualitative

P.O.Fabrice OUEDRAOGO Statistique descriptive 2019-2020 32 / 82


Représentation graphique d’une variable
Variable qualitative

Tableau de répartition de la variable mention au Bac

Mention au Bac nj nj cc fj fj cc
P 8 8 0.5333 0.5333
AB 4 12 0.2667 0.8000
B 2 14 0.1333 0.9333
TB 1 15 0.0667 1.0000
15 1.0000

P.O.Fabrice OUEDRAOGO Statistique descriptive 2019-2020 33 / 82


Représentation graphique d’une variable
Variable qualitative

P.O.Fabrice OUEDRAOGO Statistique descriptive 2019-2020 34 / 82


Représentation graphique d’une variable
Variable qualitative

P.O.Fabrice OUEDRAOGO Statistique descriptive 2019-2020 35 / 82


Représentation graphique d’une variable
Variable qualitative

P.O.Fabrice OUEDRAOGO Statistique descriptive 2019-2020 36 / 82


Représentation graphique d’une variable
Variable quantitative discrète

Variable quantitative discrète


Quand une variable est quantitative discrète, les effectifs sont représentés
par des bâtonnets.
Note à l’examen
de statistique Effectifs Fréquences
0 0 0
1 0 0
2 1 0.0667
3 0 0
4 1 0.0667
5 0 0
6 1 0.0667
7 0 0
8 1 0.0667
9 1 0.0667
10 1 0.0667
11 2 0.1333
12 2 0.1333
13 1 0.0667
14 1 0.0667
15 1 0.0667
16 1 0.0667
17 0 0
18 1 0.0667
19 0 0
20 0 0

P.O.Fabrice OUEDRAOGO Statistique descriptive 2019-2020 37 / 82


Représentation graphique d’une variable
Variable quantitative discrète

De façon générale, pour représenter le tableau ci-dessus en utilisant un


diagramme en bâtonnets (en bâtons)

P.O.Fabrice OUEDRAOGO Statistique descriptive 2019-2020 38 / 82


Représentation graphique d’une variable
Variable quantitative continue

Dans le cas des variables quantitatives continues, les effectifs aussi bien
que les fréquences sont représentés par des histogrammes. L’histogramme
consiste à représenter les effectifs (resp. fréquences) par des rectangles
dont la surface (et non la hauteur) représente l’effectif (resp. la fréquence).
X Pour un histogramme des effectifs, la hauteur du rectangle
correspondant à la classe j est donnée par :
nj
hj =
aj

hj est appelé densité d’effectif et l’aire total de l’histogramme est n


(c-à-d l’effectif total)

P.O.Fabrice OUEDRAOGO Statistique descriptive 2019-2020 39 / 82


Représentation graphique d’une variable
Variable quantitative continue

X Pour un histogramme de fréquences, on a


fj
dj =
aj

dj est appelé densité de fréquence et l’aire total de l’histogramme


est égal à 1.

P.O.Fabrice OUEDRAOGO Statistique descriptive 2019-2020 40 / 82


Représentation graphique d’une variable
Variable quantitative continue

Exemple : Considérons le tableau statistique de la taille des élèves

[cj− ; cj+ [ nj nj cc fj fj cc
[151.5; 154.5[ 8 8 0.16 0.16
[154.5; 157.5[ 10 18 0.20 0.36
[157.5; 160.5[ 9 27 0.18 0.54
[160.5; 163.5[ 6 33 0.12 0.66
[163.5; 166.5[ 6 39 0.12 0.78
[166.5; 169.5[ 6 45 0.12 0.90
[169.5; 172.5[ 5 50 0.10 1.00
50 1.00

On a ai = 3, j = 1, . . . , J avec J = 7.

P.O.Fabrice OUEDRAOGO Statistique descriptive 2019-2020 41 / 82


Représentation graphique d’une variable
Variable quantitative continue

Figure – Histogramme des effectifs de la variables taille ”des élèves”

P.O.Fabrice OUEDRAOGO Statistique descriptive 2019-2020 42 / 82


Sommaire

1 Variables, données statistiques, 2 Statistiques descriptives


tableaux, effectifs univariées
Paramètres de position
Paramètres de dispersion
Moments
Paramètres de forme
Paramètres d’aplatissement
Boı̂te à moustaches

P.O.Fabrice OUEDRAOGO Statistique descriptive 2019-2020 43 / 82


Paramètres de position
Le mode

Le mode est la valeur distincte correspondant à l’effectif le plus élevé, il


est noté xM .
Si on considère la variable ”mention au Bac”, dont le tableau statistique
est le suivant :
mention P AB B TB
effectif 8 4 2 1

le mode est P : Passable.

P.O.Fabrice OUEDRAOGO Statistique descriptive 2019-2020 44 / 82


Paramètres de position
Le mode

Remarque :
Le mode peut être calculé pour tout type de variable, quantitative et
qualitative.
Le mode n’est pas nécessairement unique. Par exemple dans le cas du
tableau statistique de la variable couleur des yeux, les modes sont :
”Bleu”, ”Noir” et ”Vert”.
Quand une variable continue est découpée en classes, on peut définir
une classe modale (classe correspondant à l’effectif le plus élevé).
Par exemple dans le tableau de répartition de la variable classée taille
des élève, la classe modale est [154.5; 157.5[ .

P.O.Fabrice OUEDRAOGO Statistique descriptive 2019-2020 45 / 82


Paramètres de position
La moyenne

La moyenne ne peut être définie que sur une variable quantitative.

La moyenne est la somme des valeurs observées divisée par leur nombre,
elle est notée x̄.
n
x1 + x2 + · · · + xi + · · · + xn 1X
x̄ = = xi
n n
i=1

La moyenne peut être calculée à partir des valeurs distinctes et des effectifs
J
1X
x̄ = nj xj
n
j=1

P.O.Fabrice OUEDRAOGO Statistique descriptive 2019-2020 46 / 82


Paramètres de position
La moyenne

Exemple : Les nombres d’enfants de 8 familles sont les suivants :


0, 0, 1, 1, 1, 2, 3, 4. La moyenne est
0+0+1+1+1+2+3+4 12
x̄ = = = 1.5
8 8
On peut aussi faire les calculs avec les valeurs distinctes et les effectifs. On
considère le tableau :
xj nj
0 2
1 3
2 1
3 1
4 1
8

P.O.Fabrice OUEDRAOGO Statistique descriptive 2019-2020 47 / 82


Paramètres de position
La moyenne

2×0+3×1+1×2+1×3+1×4
x̄ = = 1.5
8

P.O.Fabrice OUEDRAOGO Statistique descriptive 2019-2020 48 / 82


Paramètres de position
Moyenne géométrique

Si xi ≥ 0, on appelle moyenne géométrique la quantité

n
!1/n
Y
G= xi = (x1 × x2 × · · · × xn )1/n
i=1

On peut écrire la moyenne géométrique comme l’exponentielle de la


moyenne arithmétique des logarithmes des valeurs observées.
Qn 1/n 1 Qn Pn
G = e ln G = e ln( i=1 xi ) = e n ln( i=1 xi ) = e n1 i=1 ln(xi )

La moyenne géométrique s’utilise par exemple quand on veut calculer la


moyenne de taux d’intérêt.

P.O.Fabrice OUEDRAOGO Statistique descriptive 2019-2020 49 / 82


Paramètres de position
Moyenne géométrique

Exemple : Supposons que le taux d’intérêt pour 4 années consécutives


soient respectivement de 5, 10, 15 et 10%. Que va-t-on obtenir après 4
ans si je place 100 francs ?

P.O.Fabrice OUEDRAOGO Statistique descriptive 2019-2020 50 / 82


Paramètres de position
Moyenne géométrique

Exemple : Supposons que le taux d’intérêt pour 4 années consécutives


soient respectivement de 5, 10, 15 et 10%. Que va-t-on obtenir après 4
ans si je place 100 francs ?
- Après 1 an on a, 100 × 1.05 = 105Fr .
- Après 2 ans on a, 100 × 1.05 × 1.1 = 115.5Fr
- Après 3 ans on a, 100 × 1.05 × 1.1 × 1.15 = 132.825Fr
- Après 4 ans on a, 100 × 1.05 × 1.1 × 1.15 × 1.1 = 146.1075Fr

P.O.Fabrice OUEDRAOGO Statistique descriptive 2019-2020 50 / 82


Paramètres de position
Moyenne géométrique

Exemple : Supposons que le taux d’intérêt pour 4 années consécutives


soient respectivement de 5, 10, 15 et 10%. Que va-t-on obtenir après 4
ans si je place 100 francs ?
- Après 1 an on a, 100 × 1.05 = 105Fr .
- Après 2 ans on a, 100 × 1.05 × 1.1 = 115.5Fr
- Après 3 ans on a, 100 × 1.05 × 1.1 × 1.15 = 132.825Fr
- Après 4 ans on a, 100 × 1.05 × 1.1 × 1.15 × 1.1 = 146.1075Fr
Si on calcule la moyenne arithmétique des taux, on obtient
1.05 + 1.1 + 1.15 + 1.1
x̄ = = 1.10
4
Si on calcule la moyenne géométrique des taux, on obtient

G = (1.05 × 1.1 × 1.15 × 1.1)1/4 = 1.099431377

P.O.Fabrice OUEDRAOGO Statistique descriptive 2019-2020 50 / 82


Paramètres de position
Moyenne géométrique

Le bon taux moyen est G et non x̄, car si on applique 4 fois le taux moyen
G aux 100 francs, on obtient

100 Fr × G 4 = 100 × 1.0994313774 = 146.1075 Fr

P.O.Fabrice OUEDRAOGO Statistique descriptive 2019-2020 51 / 82


Paramètres de position
Moyenne harmonique

Si xi ≥ 0, on appelle moyenne harmonique la quantité


n
H = Pn
i=1 1/xi

Il est judicieux d’appliquer la moyenne harmonique sur des vitesses.

P.O.Fabrice OUEDRAOGO Statistique descriptive 2019-2020 52 / 82


Paramètres de position
Moyenne harmonique

Exemple : Un cycliste parcours 4 étapes de 100 km. Les vitesses


respectives pour ces étapes sont de 10 km/h, 30 km/h, 40 km/h,
20 km/h. Quelle a été sa vitesse moyenne ?

P.O.Fabrice OUEDRAOGO Statistique descriptive 2019-2020 53 / 82


Paramètres de position
Moyenne harmonique

Exemple : Un cycliste parcours 4 étapes de 100 km. Les vitesses


respectives pour ces étapes sont de 10 km/h, 30 km/h, 40 km/h,
20 km/h. Quelle a été sa vitesse moyenne ?
- Un raisonnement simple nous dit qu’il a parcouru la première étape en
10h, la deuxième en 3h20, la troisième en 2h30 et la quatrième en 5h.
Il a donc parcouru le total de 400 km en

10h + 3h20 + 2h30 + 5h = 20h50 = 20.8333h

Sa vitesse moyenne est donc


400
Moy = = 19.2 km/h
20.83333

P.O.Fabrice OUEDRAOGO Statistique descriptive 2019-2020 53 / 82


Paramètres de position
Moyenne harmonique

- Si on calcule la moyenne arithmétique des vitesses, on obtient


10 + 30 + 40 + 20
x̄ = = 25 km/h
4
- Si on calcule la moyenne harmonique des vitesses, on obtient
4
H= 1 1 1 1
= 19.2 km/h
10 + 30 + 40 + 20

La moyenne harmonique est donc la manière appropriée de calculer la


vitesse moyenne.

P.O.Fabrice OUEDRAOGO Statistique descriptive 2019-2020 54 / 82


Paramètres de position
Moyenne harmonique

Remarque : Il est possible de montrer que :

H ≤ G ≤ x̄

P.O.Fabrice OUEDRAOGO Statistique descriptive 2019-2020 55 / 82


Paramètres de position
Moyenne Pondérée

Dans certains cas, on n’accorde pas le même poids à toutes les


observations. Par exemple si on calcule la moyenne des notes pour un
programme d’étude, on peut pondérer les notes de l’étudiant par le
nombre de crédits ou par le nombre d’heures de chaque cours. Si
ωi > 0, i = 1, . . . , n sont les poids associés à chaque observation, alors la
moyenne pondérée par ωi est définie par :
Pn
ωi xi
x̄ω = Pi=1
n
i=1 ωi

P.O.Fabrice OUEDRAOGO Statistique descriptive 2019-2020 56 / 82


Paramètres de position
Moyenne Pondérée

Exemple : Supposons que les notes soient pondérées par le nombre de


crédits, et que les notes de l’étudiant soient les suivantes :

Note 5 4 3 6 5
Crédits 6 3 4 3 4

La moyenne pondérée des notes par les crédits est alors


6×5+3×4+4×3+3×6+4×5 92
x̄ω = = = 4.6
6+3+4+3+4 20

P.O.Fabrice OUEDRAOGO Statistique descriptive 2019-2020 57 / 82


Paramètres de position
Médiane

La médiane notée x1/2 , est la valeur centrale de la série statistique


obtenue de la manière suivante :
- On trie la série statistique par ordre croissant des valeurs observées.

Avec la série observée


3 2 1 0 0 1 2
on obtient
0 0 1 1 2 2 3
- La médiane x1/2 est la valeur qui se trouve au milieu de la série
ordonnée :
0 0 1 1 2 2 3

On note x1/2 = 1.

P.O.Fabrice OUEDRAOGO Statistique descriptive 2019-2020 58 / 82


Paramètres de position
Médiane

On distingue deux cas pour le calcul de la médiane


- Si n est impair, il n’y a pas de problème (ici avec n = 7) alors
x1/2 = 1 :
0 0 1 1 2 2 3

P.O.Fabrice OUEDRAOGO Statistique descriptive 2019-2020 59 / 82


Paramètres de position
Médiane

- Si n est pair deux valeurs se trouvent au milieu de la série (ici avec


n = 8)
0 0 1 1 2 2 3 4
↑ ↑
La médiane est alors la moyenne des deux valeurs :
1+2
x1/2 = = 1.5
2
La médiane peut toujours être définie comme l’inverse de la fonction
de répartition pour la valeur 1/2.

x1/2 = F −1 (0.5)

P.O.Fabrice OUEDRAOGO Statistique descriptive 2019-2020 60 / 82


Paramètres de position
Médiane

En général on note x(1) , x(2) , . . . , x(i) , . . . x(n) la série ordonnée par ordre
croissant. On appelle cette série ordonnée la statistique d’ordre. Cette
notation très usuelle en statistique permet de définir la médiane de
manière très synthétique.
- Si n est impair
x1/2 = x( n+1 )
2

- Si n est pair
1n o
x1/2 = x( n2 ) + x( n2 +1)
2
Remarque : La médiane peut être calculée sur des variables quantitatives
et sur des variables qualitatives ordinale

P.O.Fabrice OUEDRAOGO Statistique descriptive 2019-2020 61 / 82


Paramètres de position
Quantiles

La notion de quantile d’ordre p (où 0 < p < 1) généralise la médiane.


Formellement, une quantile est donnée par l’inverse de la fonction de
répartition :
xp = F −1 (p)
Il existe au moins 9 manières différentes de définir les quantiles selon que
l’on fasse ou non une interpolation de la fonction de répartition si cette
dernière est par palier. Nous présentons ici une de ces méthodes.

P.O.Fabrice OUEDRAOGO Statistique descriptive 2019-2020 62 / 82


Paramètres de position
Quantiles

- Si np est un nombre entier, alors


1
xp = x(np) + x(np+1)
2
- Si np n’est pas un nombre entier, alors

xp = x(dnpe) ,

où dnpe représente le plus petit nombre entier supérieur ou égal à np.

P.O.Fabrice OUEDRAOGO Statistique descriptive 2019-2020 63 / 82


Paramètres de position
Quantiles

Remarque :
- La médiane est le quantile d’ordre p = 1/2,
- On utilise souvent
x1/4 le premier quartile,
x3/4 le troisième quartile,
x1/10 le premier décile,
x1/5 le premier quintile,
x4/5 le quatrième quintile,
x9/10 le neuvième décile,
x0.05 le cinquième percentile,
x0.95 le nonante-cinquième percentile.
- Si F (x) est la fonction de répartition, alors F (xp ) ≥ p.

P.O.Fabrice OUEDRAOGO Statistique descriptive 2019-2020 64 / 82


Paramètres de position
Quantiles

Exemple : Soit la série statistique


12, 13, 15, 16, 18, 19, 22, 24, 25, 27, 28, 34 contenant 12
observations (n = 12).
- Le premier quartile : Comme np = 0.25 × 12 = 3 est un nombre
entier, on a
x(3) + x(4) 15 + 16
x1/4 = = = 15.5
2 2
- La médiane : Comme np = 0.5 × 12 = 6 est un nombre entier, on a
x(6) + x(7) 19 + 22
x1/2 = = = 20.5
2 2
- Le troisième quartile : Comme np = 0.75 × 12 = 9 est un nombre
entier, on a
x(9) + x(10) 25 + 27
x3/4 = = = 26
2 2
P.O.Fabrice OUEDRAOGO Statistique descriptive 2019-2020 65 / 82
Paramètres de position
Quantiles

Exemple : Soit la série statistique 12, 13, 15, 16, 18, 19, 22, 24, 25, 27
contenant 10 observations (n = 10).
- Le premier quartile : Comme np = 0.25 × 10 = 2.5 n’est pas un
nombre entier, on a

x1/4 = x(d2.5e) = x(3) = 15

- La médiane : Comme np = 0.5 × 10 = 5 est un nombre entier, on a


x(5) + x(6) 18 + 19
x1/2 = = = 18.5
2 2
- Le troisième quartile : Comme np = 0.75 × 10 = 7.5 n’est pas un
nombre entier, on a

x3/4 = x(d7.5e) = x(8) = 24

P.O.Fabrice OUEDRAOGO Statistique descriptive 2019-2020 66 / 82


Paramètres de dispersion
Étendue et distance interquartile

l’étendue est simplement la différence entre la plus grande et la plus


petite valeur observée.
E = x(n) − x(1)
La distance interquartile est la différence entre le troisième et le premier
quartile :
IQ = x(3/4) − x(1/4)

P.O.Fabrice OUEDRAOGO Statistique descriptive 2019-2020 67 / 82


Paramètres de dispersion
Variance

La variance est la somme des carrés des écarts à la moyenne divisée par le
nombre d’observations :
n
1X
sx2 = (xi − x̄)2
n
i=1

La variance peut aussi s’écrire


n
!
1X 2
sx2 = xi − x̄ 2
n
i=1

La variance peut également être définie à partir des effectifs et des valeurs
distinctes :

P.O.Fabrice OUEDRAOGO Statistique descriptive 2019-2020 68 / 82


Paramètres de dispersion
Variance

La variance peut également être définie à partir des effectifs et des valeurs
distinctes :
J
2 1X
sx = nj (xj − x̄)2
n
j=1
ou  
J
1X
sx2 =  nj xj2  − x̄ 2
n
j=1

P.O.Fabrice OUEDRAOGO Statistique descriptive 2019-2020 69 / 82


Paramètres de dispersion
Variance

Quand on veut estimer une variance d’une variable X à partir d’un


échantillon (une partie de la population sélectionnée au hasard) de taille n,
on utilise la variance ”corrigée”, divisée par n − 1.
n
1 X n 2
Sx2 = (xi − x̄)2 = s
n−1 n−1 x
i=1

P.O.Fabrice OUEDRAOGO Statistique descriptive 2019-2020 70 / 82


Paramètres de dispersion
Écart-type

L’écart-type est la racine carrée de la variance :


q
sx = sx2

Quand on veut estimer l’écart-type d’une variable X à partir d’un


échantillon de taille n, on utilise la variance ”corrigée” pour définir
l’écart-type. r
n
q
Sx = Sx = 2 Sx
n+1

P.O.Fabrice OUEDRAOGO Statistique descriptive 2019-2020 71 / 82


Paramètres de dispersion
Écart-type

Exemple : Soit la série statistique 2, 3, 4, 4, 5, 6, 7, 9 de taille 8. On a


2+3+4+4+5+6+7+9
x̄ = =5
8
n
1X
sx2 = (xi − x̄)2
n
i=1
1
= [(2 − 5)2 + (3 − 5)2 + (4 − 5)2 + (5 − 5)2 + (6 − 5)2
8
+ (7 − 5)2 + (9 − 5)2 ]
1
= [9 + 4 + 1 + 1 + 0 + 1 + 4 + 16]
8
36
=
8
sx2 = 4.5
P.O.Fabrice OUEDRAOGO Statistique descriptive 2019-2020 72 / 82
Paramètres de dispersion
Écart moyen absolu et écart médian absolu

L’écart moyen absolu est la somme des valeurs absolues des écarts à la
moyenne divisé par le nombre d’observations :
n
1X
emoy = |xi − x̄|
n
i=1

L’écart médian absolu est la somme des valeurs absolues des écarts à la
médiane divisé par le nombre d’observations :
n
1X
emed = |xi − x1/2 |
n
i=1

P.O.Fabrice OUEDRAOGO Statistique descriptive 2019-2020 73 / 82


Moments

On appelle moment à l’origine d’ordre r ∈ N le paramètre


n
1X r
mr0 = xi
n
i=1

On appelle moment centré d’ordre r ∈ N le paramètre


n
1X
mr = (xi − x̄)r
n
i=1

P.O.Fabrice OUEDRAOGO Statistique descriptive 2019-2020 74 / 82


Moments

Les moments généralisent la plupart des paramètres. On a en particulier

m10 = x̄

m1 = 0
n
1X 2
m20 = xi = sx2 − x̄
n
i=1

m2 = sx2

P.O.Fabrice OUEDRAOGO Statistique descriptive 2019-2020 75 / 82


Paramètres de forme
Coefficients d’asymétrie de Fisher (skewness)

Le moment centré d’ordre trois est défini par


n
1X
m3 = (xi − x̄)3
n
i=1

Il peut prendre des valeurs positives, négatives ou nulles.


L’asymétrie se mesure au moyen du coefficient d’asymétrie de Fisher.
m3
g1 =
sx3

où sx3 est le cube de l’écart-type.

P.O.Fabrice OUEDRAOGO Statistique descriptive 2019-2020 76 / 82


Paramètres de forme
Coefficients d’asymétrie de Yule

Le coefficient d’asymétrie de Yule est basé sur les positions des 3


quartiles (1er quartile, médiane et 3ème quartile), et est normalisé par la
distance interquartile :
x3/4 + x1/4 − 2x1/2
AY =
x3/4 − x1/4

P.O.Fabrice OUEDRAOGO Statistique descriptive 2019-2020 77 / 82


Paramètres de forme
Coefficients d’asymétrie de Pearson

Le coefficient d’asymétrie de Pearson est basé sur une comparaison de


la moyenne et du mode, et est standardisé par l’écart-type :
x̄ − xM
Ap =
sx

P.O.Fabrice OUEDRAOGO Statistique descriptive 2019-2020 78 / 82


Paramètres de forme
Coefficients d’asymétrie

Tous les coefficients d’asymétrie ont les mêmes propriétés, ils sont nuls si
la distribution est symétrique, négatifs si la distribution est allongée à
gauche (left asymetry), et positifs si la distribution est allongée à droite
(right asymetry)

Figure – Asymétrie d’une distribution

P.O.Fabrice OUEDRAOGO Statistique descriptive 2019-2020 79 / 82


Paramètres d’aplatissement

L’aplatissement est mesuré par le coefficient d’aplatissement de


Pearson
m4
β2 = 4
sx
ou le coefficient d’aplatissement de Fisher

g2 = β 2 − 3

où m4 est le moment centré d’ordre 4 et sx4 est le carré de la variance.


On a :
- Une courbe mésokurtique si g2 ≡ 0.
- Une courbe leptokurtique si g2 > 0. Elle est plus pointue et possède
des queues plus longues.
- Une courbe platykurtique si g2 < 0. Elle est plus arrondie et possède
des queues plus courtes.

P.O.Fabrice OUEDRAOGO Statistique descriptive 2019-2020 80 / 82


Paramètres d’aplatissement

Exemple de deux distributions de même moyenne et de même variance. La


distribution la plus pointue est leptokurtique et l’autre mésokurtique. La
distribution leptokurtique a une queue plus épaisse.

Figure – Distribution mésokurtique et leptokurtique

P.O.Fabrice OUEDRAOGO Statistique descriptive 2019-2020 81 / 82


Boı̂te à moustaches

La boı̂te à moustache ou diagramme à boite (boxplot) est un diagramme


simple qui permet de représenter la distribution d’une variable.
Un rectangle qui s’étend du premier au troisième quartile. Le
rectangle est divisé par une ligne correspondant à la médiane.
Le rectangle est complété par deux segments de droite.
Pour les dessiner, on calcule d’abord les bornes

b − = x1/4 − 1.5IQ et b + = x3/4 + 1.5IQ

où IQ est la distance interquartile.


On identifie ensuite la plus petite et la plus grande observation
comprise entre ces bornes. Ces observations sont appelées ”valeurs
adjacentes”.
On trace les segments de droite reliant ces observations au rectangle.
Les valeurs qui ne sont pas comprises entre les valeurs adjacentes sont
représentées par des points et sont appelées ”valeurs extrêmes”.

P.O.Fabrice OUEDRAOGO Statistique descriptive 2019-2020 82 / 82

Vous aimerez peut-être aussi