Académique Documents
Professionnel Documents
Culture Documents
analyse du risque
Prof. A. Aldea
Elements de statistique descriptive
Les actions et les résistances sont considérées comme des variables aléatoires, auxquelles
sont associées des lois de probabilité.
On utilise des lettres majuscules (X, Y, U, etc.) pour définir et écrire une variable aléatoire.
Les valeurs de la variable aléatoire sont écrites avec des minuscules (x, y, u, etc.).
Lorsqu'on observe ou mesure n fois des valeurs de la variable aléatoire X, on identifie les
données par un indice i = 1÷n : x1, x2, ..., xi, ..., xn.
Il faut que toutes les n valeurs se retrouvent dans le domaine choisi de valeurs, de largeur
Δx · N.
Δx Δx Δx Δx
N · Δx
j=1÷N
Il n'existe pas une solution unique et parfaite pour le choix de la largeur Δx et du nombre N
d'intervalles de regroupement (classes de valeur) pour faire une bonne analyse statistique.
Comme d'habitude, il est bon d'éviter les extrêmes: trop d'intervalles peuvent cacher les
tendances générales du phénomène tout en offrant trop de détails; peu d'intervalles
peuvent produire un model grossier.
Le nombre d'intervalles peut être aussi choisi (toujours de façon subjective) en fonction
de l'effectif total n avec la formule de Sturges :
N 1 + 3,322 log n
Δx ≥ (xmax-xmin) / N
Étapes de l’analyse statistique descriptive élémentaire
1. Identification des effectifs des classes de valeurs (fréquence absolue d’apparition des
valeurs de la v.a. dans une classe de valeurs)
nj
fj =
n
N
N
n j
j =1 n
La somme des fréquences relatives est l'unité fj =
n
=
n
=1
j =1
Les fréquences relatives peuvent être interprétées comme des estimations des chances
d'apparition des valeurs du phénomène dans les différentes classes de valeurs.
3. Calcul de la fréquence relative normalisée
La fréquence relative normalisée (ou fréquence normalisée), fjn, est égale à la fréquence
relative divisée par la largeur des classes Δx (qui est une constante)
fj
f jn =
x
La fréquence relative cumulée Fj cumule toutes les fréquences relatives des classes
d'avant et avec celle considérée
j
F j = fl
l =1
N
FN = f l = f1 + f 2 + ... + f N = 1 (La somme des fréquences relatives est l'unité)
l =1
Δx ≥ 10 / 5 = 2
Intervalle Limite inférieure Limite supérieure Valeur centrale
de regroupement xj
j (ans) (ans) (ans)
1 32 34 33
2 34 36 35
3 36 38 37
4 38 40 39
5 40 42 41
Intervalle Limite Limite Valeur Effectif Fréquence Fréquence Fréquence
de inférieure supérieure centrale nj relative relative (relative)
regroupement xj (fréquence fj normalisée cumulée
j (ans) (ans) (ans) absolue) fjn (ans)-1 Fj
1 32 34 33 6 0,200 0,100 0,200
2 34 36 35 14 0,467 0,233 0,667
3 36 38 37 5 0,167 0,083 0,833
4 38 40 39 4 0,133 0,067 0,967
5 40 42 41 1 0,033 0,017 1,000
fj j
nj
fj =
n
fj = F j = fl
n x l =1
Compter le nombre
de valeurs dans N
xi valeur xi valeur xi valeur FN = f l = f1 + f 2 + ... + f N = 1
x1 34 x11 36 x21 34 chaque classe l =1
x2 35 x12 33 x22 35
x3 37 x13 39 x23 37
x4 32 x14 35 x24 36
x5 38 x15 36 x25 35
x6 42 x16 40 x26 35
x7 36 x17 33 x27 36
x8 36 x18 37 x28 35
x9 37 x19 40 x29 36 Les intervalles/classes sont ouvert(e)s à droite :
x10 34 x20 36 x30 39 par exemple les valeurs de 34 sont considérées
dans la première classe et la valeur de 42 dans
la dernière classe
Les représentations graphiques sont utiles pour indiquer les tendances générales du
phénomène et pour identifier les classes de valeurs avec plus de chances d'apparition
des valeurs de la v.a.
Chaque intervalle de regroupement (classe) est caractérisé(e) par une valeur unique
et on représente un rectangle d'hauteur égale à cette valeur ayant la base égale a Δx.
10
Effectif nj
8
2
0
33 35 37 39 41
Age (ans)
0.50
Histogramme des
fréquences
0.40
L’ordonnée (la Aire Aj = Δx · fj
hauteur du
Fréquence fj
0.30
rectangle) est une
estimation des 0.20
chances
0.10
0.00
33 35 37 39 41
Age (ans)
0.30
Histogramme des
L'aire d'un rectangle de l’histogramme est
-1
fréquences normalisées
Fréquence normalisée fj (ans)
n
0.20
Ajn = fjn Δx = fj (fréquence relative)
0.10
donc l'aire estime les chances d'avoir des
valeurs du phénomène dans l'intervalle
considéré.
0.00
33 35 37 39 41
Age (ans)
-1
fréquences normalisées
0.10
0.00
33 35 37 39 41
Age (ans)
Les histogrammes peuvent montrer une grande diversité d'apparences qu'on peut
qualifier comme pointue, plate, symétrique, concentrée d'un coté, etc.
Etalement à droite Etalement à gauche Dyssimétrie
non significative
La valeur F2 estime les chances cumulées
que la v.a. prends des valeurs dans les
premières deux classes de valeurs
1.00
Histogramme des
fréquences cumulées
0.80
Fréquence cumulée Fj
0.60
5. Calcul de la moyenne
Indicateur de position
La moyenne (arithmétique) est le nombre défini comme la somme des valeurs divisée
par l'effectif total :
n
xi La moyenne a l’unité
x = i =1 de mesure de la v.a.
n
En utilisant les fréquences relatives fj, l'espérance peut être approximée par la relation
(xj étant la valeur centrale) :
N
x x j f j
j =1
Avec la moyenne on obtient un « résumé numérique » de la variable aléatoire, mais ce
n'est pas suffisant pour la caractériser entièrement.
Si l’on compare les moyennes des notes d'étudiants de deux groupes différents on peut
avoir des valeurs proches mais ces valeurs peuvent cacher des réalités différentes: pour
un groupe d'étudiants les notes ont été entre 6 et 9 et pour l'autre entre 2 et 10.
Les écarts algébriques entre les valeurs et la moyenne n'offrent pas trop de possibilités
d'exploitation (les valeurs positives et négatives peuvent s’annuler), il est donc
raisonnable et utile d'utiliser les carrés des écarts.
6. Calcul de la variance
La variance (dispersion) 2 d'une variable aléatoire est définie comme la somme des carrés
des écarts entre les valeurs et leur moyenne, divisée par l'effectif total n moins 1 :
n
( xi − x )2
2 = i =1
n −1
En utilisant les fréquences relatives fj, la variance peut être approximée avec la relation :
N
2 ( x j − x )2 f j
j =1
= 2
Si l'écart-type est grand par rapport à la moyenne, alors les valeurs sont dispersées par
rapport à la moyenne, et on parle d'un phénomène à grande variabilité. Un tel
phénomène est dangereux, il peut produire des surprises (i.e., des valeurs éloignées par
rapport à la moyenne).
Si l'écart-type est petit par rapport à la moyenne, alors les valeurs sont regroupées autour
de la moyenne, et on parle d'un phénomène à faible variabilité. Un tel phénomène fait
confiance, il ne produit pas de surprises, il este stable, ses valeurs sont toujours dans le
voisinage de la moyenne.
L'utilisation des moyennes et des écarts-types n'est plus utile quand on veut comparer
deux variables aléatoires qui ont des unités de mesure différentes.
V = /x
Malheureusement, en réalité on n'a jamais accès à l'ensemble des valeurs possibles d'une
variable.
Les échantillons de valeurs disponibles sont toujours limités par des raisons économiques
et/ou de temps.
Comme en général pour les phénomènes d'intérêt on n'a pas accès à l'entière population
de valeurs possibles d'une variable, les paramètres qu'on calcule sont des approximations
des paramètres de la population de valeurs possibles.
Plus l'effectif de l'échantillon augmente plus l'approximation est meilleure.