Vous êtes sur la page 1sur 55

Note de Cours de Statistiques Descriptives

Essiomle Kokou, Ph.D.

2022-10-17
Objectifs du cours

I Apprendre les principales techniques de statistiques descriptives


univariées et bivariées.
I Etre capable de mettre en oeuvre ces techniques de manière
appropriée dans un contexte donné.
I Etre capable d’utiliser les commandes de base du Language R.
Pouvoir appliquer les techniques de statistiques descriptives au
moyen du language R.
Variables, données statistiques, tableaux,
effectifs

Quelques définitions
I La statistique : est un ensemble de principes et de méthodes
scientifiques pour recueillir, classer et synthétiser des données
numériques en vue de leur utilisation pour en tirer des
conclusions et prendre des décisions.
I La population et les unités statistiques : la population est
un ensemble dont chaque élément est un individu ou une unité
statistique.
I Les caractères : pour décrire une population, on classe les
individus selon certains attributs que l’on appelle des caractères
(sexe, genre) ou des variables (âge).
Mesure et variable

I On s’intéresse à des unités statistiques ou unités


d’observation : par exemple des individus, des entreprises, des
ménages.
I Sur ces unités, on mesure un caractére ou une variable, le
chiffre d’affaires de l’entreprise, le revenu du ménage, l’âge de
la personne, la catégorie socioprofessionnelle d’une personne.
I Les valeurs possibles de la variable, sont appelées modalités.
I L’ensemble des valeurs possibles ou des modalités est appelé
le domaine de la variable
NB : Les variables sont désignées par simplicitée par une lettre
(X , Y , Z ).
Typologie des variables
I Variable qualitative : La variable est dite qualitative quand
les modalités sont des catégories.
I Variable qualitative nominale: La variable est dite
qualitative nominale quand les modalités ne peuvent pas être
ordonnées.
I Variable qualitative ordinale : La variable est dite qualitative
ordinale quand les modalités peuvent être ordonnées.
I Variable quantitative : Une variable est dite quantitative si
toute ses valeurs possibles sont numériques.
I Variable quantitative discrète : Une variable est dite
discrète, si l’ensemble des valeurs possibles est dénombrable.
I Variable quantitative continue : Une variable est dite
continue, si l’ensemble des valeurs possibles est continu.
Typologie des variables (suite)

Exemple 1. Les modalités de la variable sexe sont masculin (codé


M) et féminin (codé F). Le domaine de la variable est {M, F}
Exemple 2. Les modalités de la variable nombre d’enfants par
famille sont 0, 1, 2, 3, 4, · · ·. C’est une variable quantitative discrète.
Série statistique
On appelle série statistique la suite des valeurs prises par une
variable X sur les unités d’observation.
I Le nombre d’unités d’observation est noté n.
I Les valeurs de la variable X sont notées.

x1 , · · · , xi , · · · , xn

Exemple 3. On s’intèresse à la variable état-civil notée X et à la


série statistique des valeurs prises par X sur 50 personnes. La
codification est
Code Désignation
M: Marié
C: Celibataire
D: Divorcée
V: Veuf
Variable qualitative nominale

Effectifs et fréquences
Une variable qualitative nominale a des valeurs distinctes qui ne
peuvent pas être ordonnées.
On appelle effectif d’une modalité ou d’une valeur distincte, le
nombre de fois que cette modalité (ou valeur distincte) apparaît.
Si on note ni l’effectif de la modalité xi , la fréquence d’une modalité
est donc l’effectif divisé par le nombre d’unités (n) d’observation.
ni
fi =
n
Tableau statistique

L’exemple ci-dessous donne une idée de comment presenter un


tableau statistique.
Exemple 4. Avec la série de l’exemple précédent, on obtient le
tableau statistique :

xi ni fi
M: 15 0.30
C: 12 0.24
D: 11 0.22
V: 12 0.24
Total 50 1.00
Diagramme en secteurs et diagramme en barres

I Un diagramme en secteur montre les relations entre les parties


et le tout d’une variable.
I C’un cercle divisé en sections ou tranches. Chaque tranche
représente un dénombrement ou un pourcentage des
observations d’un niveau de la variable.
I Un diagramme en barres montre les dénombrements de valeurs
pour les niveaux d’une variable catégorielle ou nominale.
Diagramme en secteurs (suite)

Divorcée
Celibataire

Marié
Veuf

Diagramme en secteurs des fréquences


Diagramme en barres (suite)
15

10

Modalite
Celibataire
Effectif

Divorcée
Marié
Veuf

Celibataire Divorcée Marié Veuf


Modalite
Variable qualitative nominale
Le tableau statistique
Les valeurs distinctes d’une variable ordinale peuvent être ordonnées,
ce qu’on écrit

x1 < x2 < · · · < xj < · · · < xJ


La notation x1 < x2 se lit x1 précède x2 .
Si la variable est ordinale, on peut calculer les effectifs cumulés
j
X
Nj = nk , j = 1, · · · , J
k=1

On a N1 = n1 et NJ = n. On peut également calculer les fréquences


cumulées
j
Nj X
Fj = = fk , j = 1, · · · , J
n k=1
Le tableau statistique (suite)

Exemple 5. On interroge 100 personnes sur leur dernier diplôme


obtenu (variable Y ). La codification a été faite selon le tableau
ci-dessous qui réprésente la série statistique

Dernier diplôme obtenu xj nj Nj fj Fj


Sans diplôme Sd 8 8 0.08 0.08
Primaire P 22 30 0.22 0.30
Secondaire Se 28 58 0.28 0.58
Supérieur non-universitaire Su 18 76 0.18 0.76
Universitaire U 24 100 0.24 1.00
Diagramme en secteur et diagramme en barre (suite)

100
25

80
Sd

20
P

60
Se

15

40
10

Su

20
5
0

0
P Sd Se Su U P Sd Se Su U

Diagramme en secteurs des fréquences Diagramme en barres des effectifs Diagramme en barres des effectifs cumulés
Variable quantitative discrète
Le tableau statistique
On parle de variable quantitative discrète lorsque le domaine est
dénombrable
Exemple 6. Une entreprise est composé de 40 personnes reparti
en 8 département et chaque département est subdivisé en 5 sections
et la variable Z représente le nombre de personnes par section . Les
valeurs de la variable sont

dép1 dép2 dép3 dép4 dép5 dép6 dép7 dép8


section1 1 1 1 2 2 2 2 2
section2 2 2 2 3 3 3 3 3
section3 3 3 3 3 3 4 3 4
section4 4 4 4 4 4 4 4 5
section5 5 5 5 6 6 7 8 8
Tableau statistique (suite)

Comme pour les variables qualitatives ordinales, on peut calculer les


effectifs, les effectifs cumulés, les fréquences, les fréquences
cumulées. Le tableau statistique peut seprésenter comme suit

xj nj Nj fj Fj
1 3 3 0.075 0.075
2 8 11 0.200 0.275
3 11 22 0.275 0.550
4 9 31 0.225 0.775
5 4 35 0.100 0.875
6 2 37 0.050 0.925
7 1 38 0.025 0.950
8 2 40 0.050 1.000
Diagramme en bâtonnets des effectifs et Fonction de
répartition
Quand la variable est discrète, les effectifs sont représentés par des
bâtonnets. La fonction de répartition est donnée par

x < x1 0;


F (x ) = Fj ; xj ≤ x < xj+1


1; xJ < x

1.0
10

0.8
8

0.6
Effectif

0.4
4

0.2
2

0.0
0

1 2 3 4 5 6 7 8 0 2 4 6 8

Diagramme en bâtonnets des effectifs pour une variable quantitative discrète Fonction de répartition d’une variable quantitative discrète
Variable quantitative continue

Le tableau statistique
I Une variable quantitative continue peut prendre une infinité de
valeurs possibles. Le domaine de la variable est alors R ou un
intervalle de R. En pratique, une mesure est limitée en
précision.
I On peut alors traiter les variables continues comme des
variables discrètes.
I Pour la représentations graphiques et la construction le tableau
statistique, on procède aux regroupements en classes.
I Le tableau regroupé en classe est souvent appelé distribution
groupée.
I cj− ; cj+ designe la classe j, on note, de manière générale
 
Variable quantitative continue (suite)
I cj− la borne inférieure de la classe j,
I cj+ la borne supérieure de la classe j,
c + +c −
I cj = j 2 j le centre de la classe j,et
I aj = cj+ − cj− l’amplitude de la classe j.
Critère de selection du nombre de classe et longueur de
l’intervalle
I Règle de Sturge : J = 1 + (3.3 × log(n))
1
I Règle de Yule : J = 2.5 × n 4
I longueur de l’intervalle = xmax −xJ
min

Remarque. Il faut arrondir le nombre de classe J à l’entier le plus


proche. Par commodité, on peut aussi arrondir la valeur obtenue de
l’intervalle de classe.
I A partir de la plus petite valeur observée, on obtient les bornes
de classes en additionnant successivement l’intervalle de classe
Variable quantitative continue (suite)
Exemple 7. On mesure la taille en centimetres de 50 étudiants du
college de paris lomé et on obtient les résultats suivant

IT IT IT IT IT
152 152 152 153 153
154 154 154 155 155
156 156 156 156 156
157 157 157 158 158
159 159 160 160 160
161 160 160 161 162
162 162 163 164 164
164 164 165 166 167
168 168 168 169 169
170 171 171 171 171
Variable quantitative continue (suite)

On construit le tableau statistique comme suit

nj Nj fj Fj
(151,155] 10 10 0.20 0.20
(155,159] 12 22 0.24 0.44
(159,163] 11 33 0.22 0.66
(163,167] 7 40 0.14 0.80
(167,171] 10 50 0.20 1.00
Variable quantitative continue (suite)

Histogramme et densité
L’histogramme consiste à représenter les effectifs (resp. les
fréquences) des classes par des rectangles contigus dont la surface
(et non la hauteur) représente l’effectif (resp. la fréquence). Pour
un histogramme des effectifs, la hauteur du rectangle correspondant
à la classe j est donc donnée par :
nj
hj =
aj
I hj est appelé densité d’effectif.
I L’aire de l’histogramme est égale à l’effectif total n, puisque
l’aire de chaque rectangle est égale à l’effectif de la classe j :
aj × hj = nj .
Histogramme et densité (suite)

I Pour un histogramme des fréquences on a

fj
dj =
aj

I dj est appelé densité fréquences.


L’aire de l’histogramme est égale à l’effectif total 1, puisque l’aire de
chaque rectangle est égale ‘a l’effectif de la classe j : aj × dj = fj .
NB : On peut agréger deux classes en une seule pour construire
l’histogramme lorsque leur effectifs sont faibles
Histogramme (suite)
0.06

0.06
0.05

0.05
0.04

0.04
0.03

0.03
0.02

0.02
0.01

0.01
0.00

0.00

151.5 155.5 159.5 163.5 167.5 171.5 151.5 155.5 159.5 163.5 171.5

Histogramme des fréquences avec les deux dernières classes


Histogramme des fréquences agrégées
Variable quantitative continue (suite)
La fonction de répartition et densité
La fonction de répartition F (x ) est une fonction de R dans [0, 1],
qui est définie par



 0; x < c1−
fj −
; cj− ≤ x < cj+

F (x ) = Fj−1 + cj+ −cj−
x − cj


1; cJ+ < x

0.06

1.0
0.8
0.04

0.6
0.4
0.02

0.2
0.00

0.0

151.5 155.5 159.5 163.5 167.5 171.5

Fonction de densité d’une distribution groupée Fonction de répartition d’une distribution groupée
Statistique descriptive univariée
Paramètres de position C'est ce qui sera demande a l'exam!

Le mode
I Le mode est la valeur distincte correspondant à l’effectif le plus
élevé ; il est noté xM .
Considerons l’exemple ci-dessous,
C'est cela le mode!
xi ni fi
On trouve la mode avec!
M: 15 0.30
Qualitatif C: 12 0.24
non D: 11 0.22
ordonnee
V: 12 0.24
Total 50 1.00

Le mode est la modalité M et xM = 15


Mode (suite)

I Le mode peut être calculé pour tous les types de variable,


quantitative et qualitative.
I Le mode n’est pas nécessairement unique.
I Quand une variable continue est découpée en classes, on peut
définir une classe modale (classe correspondant à l’effectif le
plus élevé)
La moyenne
I définie uniquement que sur une variable quantitative.
I La moyenne (x̄ ) est la somme des valeurs observées divisée
par leur nombre.

n
x1 + · · · + xn 1X
x̄ = = xi
n n i=1

I Formule pour des valeurs distinctes et des effectifs

J
1X
x̄ = nj xj
n j=1

Exemple. Les nombres d’enfants de 6 familles sont les suivants 0,


1, 1, 2, 3, 5. La moyenne est

0+1+1+2+3+5
x̄ = =2
6
Moyenne (suite)
On peut aussi faire les calculs avec les valeurs distinctes et les
effectifs. On considère le tableau

xj nj
0 1
1 2
2 1
3 1
5 1

0×1+1×2+2×1+3×1+5×1
x̄ =
6
2+2+3+5
=
6
= 2
Moyenne géométrique

I Pour xi ≥ 0, on appelle moyenne géométrique la quantité

n
Y 1/n
1/n
G= xi = x1 × x2 × · · · × xn
i=1
n
1X
 
G = exp xi
n i=1

I Cas pratique de la moyenne géométrique: calcul du taux


d’intèrêt.
Moyenne géométrique (suite)

Exercice. Supposons que les taux d’intèrêt pour 4 années


consécutives soient respectivement de 5, 10, 15, et 10%. Que
va-t-on obtenir après 4 ans si on place 100 francs
Après 4 ans on a : 100 × 1, 05 × 1, 1 × 1, 15 × 1, 1 = 146, 1075F
I Moyenne arithvmtique 1,05+1,1+1,15+1,1
4 = 1, 1
I Moyenne géométrique
 1/4
1, 05 × 1, 1 × 1, 15 × 1, 1 = 1, 099431377

I Le bon taux moyen est bien G et non x̄

100 × G 4 = 100 × 1, 0994313774 = = 146, 1075F


Moyenne harmonique

Pour xi ≥ 0, on appelle moyenne harmonique la quantité

n
H = Pn 1
i=1 xi

Exercice.
Un cycliste parcourt 4 étapes de 100 km. Les vitesses respectives
pour ces étapes sont de 10 km/h, 30 km/h, 40 km/h, 20 km/h.
Quelle a été sa vitesse moyenne ?
I Temps écoulé après les 4 étapes est :
10h + 3h20 + 2h30 + 5h = 20h50 = 20, 8333h
I Vitesse moyen: 400
20,8333 = 19, 2 km/h
Moyenne harminque

I moyenne arithmétique des vitesses


x̄ = 10+30+40+20
4 = 25 km/h
I moyenne harmonique des vitesses
H = 1 + 1 +4 1 + 1 = 19, 2 km/h
10 30 40 20

I
H ≤ G ≤ x̄
Moyenne pondérée
Dans certains cas, on n’accorde pas le même poids à toutes les
observations. Par exemple, si on calcule la moyenne des notes pour
un programme d’étude, on peut pondérer les notes de l’étudiant par
le nombre de crédits ou par le nombre d’heures de chaque cours. Si
wi > 0, i = 1, · · · , n sont les poids associés à chaque observation,
alors la moyenne pondérée par wi est définie par :
Pn
wi xi
x̄w = Pi=1
n
i=1 wi
Exemple.

Note Crédits
12 6
14 3
8 4
16 3
5 4
Moyenne pondérée (suite)

I La moyenne pondérée des notes par les crédits est alors

12 × 6 + 14 × 3 + 8 × 4 + 16 × 3 + 5 × 4
x̄w =
6+3+4+3+4
72 + 42 + 32 + 48 + 20
=
20
= 10, 7
La médiane
La médiane, notée x1/2 ou Q0.5 , est une valeur centrale de la série
statistique obtenue de la manière suivante :
I On trie la série statistique par ordre croissant des valeurs
observées. Avec la série observée :
I la série observée :3 2 1 0 0 1 2,
I on obtient : 0 0 1 1 2 2 3,
I La médiane x1/2 est la valeur qui se trouve au milieu de la série
ordonnée.
I x1/2 = 1
I n est impair, il n’y a pas de problème
I n est pair deux valeurs se trouvent au milieu de la série
I La médiane x1/2 est la moyenne de ces deux valeurs
La médiane (suite)
## [1] 0 0 1 1 2 2 3
## [1] 0 0 1 1 2 2 3 4
1.00

1.00
0.75

0.75
0.50

0.50
0.25

0.25
0.00

0.00

−1 0 1 2 3 4 −1 0 1 2 3 4 5
La médiane (suite)

I la série ordonnée par ordre croissant x(1) , · · · , x(i) , · · · , x(n)


I n impair x1/2 = x n+1

2

1
 
I n pair x1/2 = x n + x n

2 2 2
+1

I Variable discrète
 : 
1
x1/2 = min xi | i ∈ {∈ 1, 2, · · · , n}, F (xi ) ≥ 2
 
I Variable continue : x1/2 = min x ∈ R | F (x ) = 1
2

I La médiane peut être calculée sur des variables quantitatives et


sur des variables qualitatives ordinales.
Quantiles
I Généralise la notion de médiane.
Pour 0 < r ≤ 1,
 
I n × r est un nombre entier : Qr = 1
2 x(n×r ) + x(n×r +1)

I n × r n’est pas un nombre entier : Qr = x(dn×r e)


 
I Variable discrète : Qr = min xi | F (xi ) ≥ r
 
I Variable continue : Qr = min x ∈ R | F (x ) = r

Exemple.
## [1] 12 13 15 16 18 19 22 24 25 27 28 34
## 25% 50% 75%
## 15 19 25
Paramètres de dispersion
Etendue
I différence entre la plus grande et la plus petite valeur observée

δe = xn − x1

Distance interquartile
I différence entre le troisième et le premier quartile

IQ = δq = x3/4 − x1/4 = Q0.75 − Q0.25

Variance
Définition.
Si X est discrète (respectivement continue), sa variance, notée
Var(X), est la moyenne des écarts quadratiques des valeurs
(respectivement des centres des classes) de X à sa moyenne :
Variance (suite)
I Varaince avec biais

n 2
1X

Var (X ) = xi − x̄
n i=1

J
1X
 
Var (X ) = nj x 2 − x̄ 2
n j=1 j

n
1X
 
Var (X ) = x 2 − x̄ 2
n i=1 i

I Variance sans biais

n 2
1 X

Var (X ) = xi − x̄
n − 1 i=1
Variance (suite)

I Variance est toujours positive


I s’annule si et seulement si toutes les observations effectuées
sont:
1. identiques si X est discrète ;
2. dans la même classe si X est continue.
Ecart-type
I L’écart-type de X , noté σX , est la racine carrée de la variance
q
σX = Var (X )
Ecart moyen absolu
Définition.
L’ écart moyen absolu est la somme des valeurs absolues des écarts
à la moyenne divisée par le nombre d’observations

n
1X
emoy = |xi − x̄ |
n i=1

Définition
L’ écart médian absolu est la somme des valeurs absolues des écarts
à la médiane divisée par le nombre d’observations :

n
1X
emed = |xi − x1/2 |
n i=1
Moments

I moment à l’origine d’ordre r ∈ N

n
1X
mr0 = xr
n i=1 i

I moment centré à l’origine d’ordre r ∈ N

n
1X r
mr = xi − x̄
n i=1

I
m10 = x̄ , m2 = Var (X )
Paramètres de forme

Coefficient d’asymétrie
Une distribution est parfaitement symétrique, si les valeurs qu’elle
prend sont également dispersées de part et d’autre de la moyenne.
Dans ce cas, son mode, sa moyenne et sa médiane sont confondues,
et son histogramme admet un axe de symétrie (symétrie par rapport
à la valeur de la moyenne)
I Coefficient d’asymétrie de Fisher (skewness)
m3
γ1 =
σX3
1. γ1 = 0 =⇒ distribution symétrique
2. γ1 < 0 =⇒ distribution allongée à gauche (les grandes
valeurs sont plus fréquentes que les petites)
3. γ1 > 0 =⇒ distribution allongée à droite (les petites valeurs
sont plus fréquentes que les grandes)
Coefficient d’asymétrie de Yule

Le coefficient d’asymétrie de Yule est basé sur les positions des 3


quartiles (1er quartile, médiane et troisi‘eme quartile), et est
normalisé par la distance interquartile

Q0.75 + Q0.25 − 2Q0.5


CAYule =
IQ

Coefficient d’asymétrie de Pearson


Le coefficient d’asymétrie de Pearson est basé sur une comparaison
de la moyenne et du mode, et est standardisé par l’écart-type
x̄ − xM
CAPearson =
σX
NB Les coefficient d’asymétrie de Yule et de Pearson possède les
mêmes propriétés que celui de Fisher
Coefficient d’aplatissement
I Le coefficient d’aplatissement de Pearson

m4
β2 =
σX4

I Le coefficient d’aplatissement de Fisher ou coefficient de Yule

γ2 = β2 − 3

I γ2 ≈ 0: la densité de la loi normale, ou courbe en cloche, est


mésokurtique
I γ2 > 2: histogramme est plus pointu et possède des queues
plus longues (leptokurtique)
I γ2 < 2: histogramme est plus arrondi et possède des queues
plus courtes (platykurtique)
Transformation dela base de donnée

Pour i = 1, 2, · · · , n on a
I changement d’origine : yi = a + xi
I changement d’unité : yi = b × xi
I changement d’origine et d’ ’unité : yi = a + b × xi
Remarque.
I Les paramètres de position sont tous affectés par un
changement d’origine et d’unité.
I Les paramètres de dispersion sont tous affectés par un
changement d’unité mais pas par un changement d’origine
I Les paramètres de forme et d’aplatissement ne sont affectés ni
par un changement d’unité ni par un changement d’origine.
Moyennes de deux groupes

Soit n observations soient réparties dans deux groupes GA et GB.


Les nA premières observations sont dans le groupe GA et les nB
dernières observations sont dans le groupe GB

nA + nB = n

1 PnA
I Moyenne du premier groupe : x̄A = nA i=1 xi
1 PnB
I Moyenne du deuxième groupe : x̄B = nB i=1 xi

I Moyenne générale : x̄ = 1
 
n nA x̄A + nB x̄B
Variance de deux groupes

1 PnA 2
I Variance du premier groupe : Var (XA ) = nA i=1 xi − x̄A
1 PnB 2
I Variancedu deuxième groupe :Var (XB ) = nB i=1 xi − x̄B
1 Pn 2
I Variance totale : Var (X ) = n i=1 xi − x̄
Théorème (de Huygens).
La variance totale se décompose de la manière suivante :

2 2
nA Var (XA ) + nB Var (XB ) nA x̄A − x̄ + nB x̄B − x̄
Var (X ) = +
n n

Démonstration : Exercice.
La boîte à moustaches

La boîte à moustaches ou encore boxplot en anglais, est un


diagramme simple qui permet de représenter la distribution d’une
variable. Ce diagramme est composé de :
I Un rectangle qui s’étend du premier au troisième quartile. Le
rectangle est divisé par une ligne correspondant à la médiane.
I Le rectangle est complété par deux segments de droites.
-Pour les dessiner, on calcule d’abord les bornes

b − = Q0.25 − 1, 5 × IQ et b + = Q0.75 + 1, 5 × IQ

I On identifie ensuite la plus petite et la plus grande observation


comprise entre ces bornes. Ces observations sont appelées
“valeurs adjacentes”.
La boîte à moustaches (suite)
I On trace les segments de droites reliant ces observations au
rectangle
I Les valeurs qui ne sont pas comprises entre les valeurs
adjacentes, sont représentées par des points et sont appelées
“valeurs extrêmes”

8
170

6
165

Effectif

4
160

2
155

0 155 160 165 170

boîte à moustaches Histogramme


Exercice.
Considérons l’exemple 7.
1. De quel type est cette variable
2. Calculez tous les paramètres (de position, de dispersion et de
forme) de cette série statistique.
Solution.
1. Variable continue
2.
valeur
moyenne 160.800000
médiane 160.000000
variance 34.040816
écart-type 5.834451
skewness 0.284740
kurtosis 1.941471

Vous aimerez peut-être aussi