Vous êtes sur la page 1sur 29

Statistique Descriptive

Vocabulaire
Population (d’intérêt) : ensemble de tous les individus
pris en considération

Variable (d’intérêt) : caractéristique de la population,


à laquelle on s’intéresse

Individu : objet/personne sur lequel on mesure la


variable

Observation : valeur prise par la mesure de la variable


sur un individu donné
Vocabulaire (suite)
Série statistique : ensemble d’observations d’une
variable sur un ensemble d’individus

Echantillon : sous-ensemble d’une population sur lequel


on détermine une série statistique
Classification des variables
(résumé)

Variables

Qualitatives Quantitatives

Nominales Ordinales Discrètes Continues

(groupe sanguin) (appréciation) (comptage) (appareil de


mesure)
Notations
X, Y, Z : noms symboliques des variables d’intérêt

N : nombre d’observations dans une série statistique

Xi : valeur de la variable X prise par l’individu “i”

(X1, X2, X3, ..., XN) : série statistique pour la variable X

xj : niveau “j” d’une variable X qualitative ou


quantitative discrète
Notations (suite)
 : symbole de sommation
30
 Xi = X1 + X2 + X3 + … + X30
i=1

30
 (Xi)2 = X12 + X22 + … + X302
i=1
Analyse descriptive d’une variable discrète
Relevé de températures (°C): 7, 8, 7, 8, 10, 10, 7, 8, 8, 8, 8,
10, 8, 10, 7, 8, 10, 10, 8, 8
Tableau de fréquences

xj nj fj Nj Fj
7 4 0.2 4 0.2
8 10 0.5 14 0.7
10 6 0.3 20 1
3
N=20  fj=1
j=1
Analyse descriptive d’une variable discrète
xj : niveau de la variable (j=1, …, J)

nj : effectif (nb d’observations) pour le niveau “j”


 nj = N
j

fj : fréquence relative pour le niveau “j”


fj = nj/N (pourcentage)

Nj : effectif cumulé pour le niveau “j”


Nj = n1 + n2 + … + nj
NJ =  nj = N
j
Analyse descriptive d’une variable discrète
Fj : fréquence cumulée pour le niveau “j”
Fj = f1 + f2 + … + fj
FJ =  fj = 1 (100%)
j

Effectifs et fréquences cumulés n’ont PAS


de sens pour les variables nominales
Analyse descriptive d’une variable discrète
Relevé de températures (°C): 7, 8, 7, 8, 10, 10, 7, 8, 8, 8, 8,
10, 8, 10, 7, 8, 10, 10, 8, 8

Représentations graphiques

Diagramme en barres pour les effectifs et fréquences


relatives

Fonction de répartition pour les fréquences cumulées


(PAS variables nominales)
F(x) = proportion d’observations dont la valeur est
inférieure à x
Relevé de températures (°C):

Relevé de températures

12
9
jours (f )

6
3
0
6 7 8 9 10 11
Température (°C)
Relevé de températures (°C):

Fonction de répartition
F 1,21
0,8
0,6
0,4
0,2
0
6 7 8 9 10 11
Température (°C)
Analyse descriptive d’une variable continue
xj : milieu de classe

nj : effectif (nb d’observations) dans la classe “j”

fj : fréquence relative pour la classe “j”

Nj : effectif cumulé pour la classe “j”

Fj : fréquence cumulée pour le niveau “j”


Analyse descriptive d’une variable continue
Tableau de fréquences
Cj xj nj fj Nj Fj
]700;730] 715 10 0.10 10 0.10
]730;760] 745 04 0.04 14 0.14
]760;790] 775 12 0.12 26 0.26
]790;820] 805 10 0.10 36 0.36
]820;850] 835 05 .05 41 0.41
]850;880] 865 12 0.12 53 0.53
]880;910] 895 24 0.24 77 0.77
]910;940] 925 21 0.21 98 0.98
]940;970] 955 02 0.02 100 1
9
N=100  fj=1
j=1
Analyse descriptive d’une variable continue
Représentations graphiques

Histogramme de densité : effectifs et fréquences relatives


surface = fréquence relative de la classe
densité dj = fj/lj = fréquence / longueur de la classe

Fonction de répartition : fréquences cumulées


Rupture d’un fil métallique
Histogramme des fréquences relatives

fi 0,3
0,25
0,2
0,15
0,1
0,05
0

Charge de rupture (g)


Rupture d’un fil métallique
Fonction de répartition

Fi 1

0,8

0,6

0,4

0,2

0
670 730 790 850 910 970
Charge de rupture (g)
Analyse descriptive d’une variable continue
Histogramme (esquisse)
unimodale bimodale

dissymétrique dissymétrique
à droite à gauche
Caractéristiques numériques
Résumer une série statistique quantitative

valeurs numériques

Tendance centrale : mode, médiane, moyenne

Quantiles : minimum, maximum,


premier quartile, troisième quartile
qp (0  p  1)

Variabilité (dispersion) : étendue, écart interquartile,


variance/écart-type,
coefficient de variation (CV)
Tendance centrale
Mode : niveau / classe (classe modale) avec
effectif maximum

Médiane (q0.5) : “milieu” de la série statistique


50% des observations  médiane

Variable non groupée en classes (discrète)


N impair observation (N+1)/2

N pair point milieu entre observation N/2 et


observation (N/2)+1
Tendance centrale
Médiane (q0.5)

Variable groupée en classes (continue)

1. Déterminer la classe ]a;b] qui contient la médiane

0.5 - F(a)
2. q0.5 = a + (b-a) (Interpolation linéaire)
F(b) - F(a)
Tendance centrale
Moyenne ( X ) : somme des observations divisée par le
nombre total d’observations

N
1
(X1, X2, ..., XN) X=
N
X
i =1
i
Tendance centrale : Synthèse
Mode : effectif maximum

Médiane : 50% des observations,


pas d’influence de données aberrantes

Moyenne : toutes les observations interviennent,


influence de données aberrantes
Quantiles
Quantile qp (0  p  1) :
valeur de la variable telle que (100*p)% des
observations sont inférieures à cette valeur
q0 : minimum (aucune valeur inférieure)

q0.25 : premier quartile (25% valeurs inférieures)

q0.50 : médiane (50% valeurs inférieures)

q0.75 : troisième quartile (75% valeurs inférieures)

q1 : maximum (toutes les valeurs sont inférieures)


Dispersion
Etendue : Maximum - Minimum
écart (distance) entre minimum et maximum

Ecart interquartile : q0.75 - q0.25


écart (distance) entre le 1er et le 3ième quartiles
longueur de l’intervalle contenant 50% des
observations, les plus centrées
Dispersion
Variance :

Pour un échantillon :

S =
2
X
1 N
 (
N − 1 i =1
Xi − X )2
=
1 k

N − 1 j =1
(
nj xj − X )
2

Ecart-type :
Variance unités au carré
Unités de base écart-type : S X = S X2
Dispersion
Coefficient de variation (CV) :

Variabilité relative ne dépendant pas des unités

SX
CVX =
X

Comparer la variabilité de plusieurs séries


avec des unités différentes ou des ordres de
grandeur différents !
Dispersion
Coefficient d’asymétrie (skewness) :

1
𝑚3 𝑁 σ 𝑋𝑖 − 𝑋ത
3
𝛾1 = 3 =
𝑠 𝑠3

γ1 > 0 γ1 < 0
Dispersion
Coefficient d’aplatissement (kurtosis) :

1
𝑚4 𝑁 σ 𝑋𝑖 − 𝑋ത
4
𝛾2 = 4 =
𝑠 𝑠4

Loi de Loi de
Gauss Laplace
γ2 = 3 γ2 = 6

Loi du γ2 = 2,4 Loi uniforme γ2 = 1,8


cosinus
surélevé

Vous aimerez peut-être aussi