Vous êtes sur la page 1sur 26

Fiabilité des structures et

analyse du risque

Prof. A. Aldea
Elements de statistique descriptive

La statistique s'occupe de la collecte, de l'analyse et de l'interprétation des données


observées ou mesurées. Elle est un outil pour étudier un phénomène par une
campagne de mesures.

Le résultat d’une observation/expérimentation (dénombrement, mesure, test) d'un


phénomène aléatoire peut se traduire par une grandeur représentée par un nombre
entier ou un nombre réel.

La notion mathématique qui représente efficacement ce genre de situation concrète


est celle de variable aléatoire (abréviée avec v.a.).

Les actions et les résistances sont considérées comme des variables aléatoires, auxquelles
sont associées des lois de probabilité.

Exemples de variables aléatoires dans le génie civil :


- Propriétés des matériaux de construction (résistance, module d’élasticité, etc.)
- Propriétés des sols/terrains (angle de frottement, indice de plasticité, etc.)
- Caractéristiques des actions naturelles : vitesse du vent, hauteur de la couche de
neige, température (min, max, différence journalière), séisme (accélération,
vitesse, déplacement, intensité, réapparition, etc.), niveau de l’eau, etc. ; charge
utile, etc.
Les valeurs d'une variable aléatoire sont obtenues suite à l'expérimentation et
elles sont inconnues à l'avance, leur variation est incontrôlable et imprédictible, elle
est...aléatoire.

Chaque observation génère une réalisation (une valeur) de la variable aléatoire.

Suite à l'observation d'un phénomène on obtient un échantillon de valeurs (de


réalisations).

On utilise des lettres majuscules (X, Y, U, etc.) pour définir et écrire une variable aléatoire.

Les valeurs de la variable aléatoire sont écrites avec des minuscules (x, y, u, etc.).

Lorsqu'on observe ou mesure n fois des valeurs de la variable aléatoire X, on identifie les
données par un indice i = 1÷n : x1, x2, ..., xi, ..., xn.

Les valeurs x1,..., xn représentent un échantillon des valeurs possibles de la variable


aléatoire X.

n est le nombre total de valeurs de l'échantillon de la variable X, il est souvent nommé


effectif total ou effectif
La première chose à regarder est le domaine de valeurs dans lequel la v.a. s’est manifestée,
en identifiant la valeur minimale et celle maximale: xmin et xmax.

La différence xmax-xmin s'appelle étendue.

On regroupe les n données en N intervalles (classes) successives de largeur Δx=constante,


intervalles identifiés par un indice j, j=1÷N, afin d'obtenir une partition de l'ensemble des
valeurs de l'échantillon.

N classes de valeurs (de largeurs égales Δx)

Il faut que toutes les n valeurs se retrouvent dans le domaine choisi de valeurs, de largeur
Δx · N.

Δx – même unité de mesure que la v.a.


Domaine des valeurs observées du phénomène (v.a)

xmin n valeurs xmax


Axe des valeurs du
1 2 j N phénomène (v.a.)

Δx Δx Δx Δx
N · Δx

Domaine choisi des valeurs

N intervalles (classes) de largeur égale à Δx

j=1÷N
Il n'existe pas une solution unique et parfaite pour le choix de la largeur Δx et du nombre N
d'intervalles de regroupement (classes de valeur) pour faire une bonne analyse statistique.

Comme d'habitude, il est bon d'éviter les extrêmes: trop d'intervalles peuvent cacher les
tendances générales du phénomène tout en offrant trop de détails; peu d'intervalles
peuvent produire un model grossier.

On obtient de bons résultats avec N entre 5÷10 et 20.

Le nombre d'intervalles peut être aussi choisi (toujours de façon subjective) en fonction
de l'effectif total n avec la formule de Sturges :

N  1 + 3,322 log n

La largeur des classes est approximativement égale au rapport entre l’étendue et le


nombre N d'intervalles.

Δx ≥ (xmax-xmin) / N
Étapes de l’analyse statistique descriptive élémentaire

1. Identification des effectifs des classes de valeurs (fréquence absolue d’apparition des
valeurs de la v.a. dans une classe de valeurs)

On doit compter combien de valeurs se retrouvent dans chaque classe (intervalle).

Ainsi on identifie l'effectif nj associé à l'intervalle j (la classe de valeurs j)

La somme des effectifs nj doit être égale à l'effectif total n.

Les intervalles/classes sont ouvert(e)s à droite ou à gauche, de façon homogène.


2. Calcul de la fréquence relative

La fréquence relative (ou fréquence) fj d'apparition des valeurs de la variable dans


l'intervalle (classe) j se calcule comme le rapport entre l'effectif nj et l'effectif total n

nj
fj =
n
N
N
n j
j =1 n
La somme des fréquences relatives est l'unité  fj =
n
=
n
=1
j =1

Les fréquences relatives peuvent être interprétées comme des estimations des chances
d'apparition des valeurs du phénomène dans les différentes classes de valeurs.
3. Calcul de la fréquence relative normalisée

La fréquence relative normalisée (ou fréquence normalisée), fjn, est égale à la fréquence
relative divisée par la largeur des classes Δx (qui est une constante)

fj
f jn =
x

La fréquence normalisée a comme unité de mesure l'inverse de l'unité de mesure


du phénomène.
4. Calcul de la fréquence relative cumulée

La fréquence relative cumulée Fj cumule toutes les fréquences relatives des classes
d'avant et avec celle considérée
j
F j =  fl
l =1

N
FN =  f l = f1 + f 2 + ... + f N = 1 (La somme des fréquences relatives est l'unité)
l =1

La fréquence cumulée estime les chances cumulées d'apparition des valeurs de la


variable, cumulées sur les intervalles de valeurs précédents et sur celui considéré.
Exemple

Échantillon de valeurs de l'âge des participants à un cours de formation postuniversitaire (ans)


xi valeur xi valeur xi valeur
x1 34 x11 36 x21 34
x2 35 x12 33 x22 35
x3 37 x13 39 x23 37
x4 32 x14 35 x24 36
x5 38 x15 36 x25 35
x6 42 x16 40 x26 35
x7 36 x17 33 x27 36
x8 36 x18 37 x28 35
x9 37 x19 40 x29 36
x10 34 x20 36 x30 39

xmin=32 ans, xmax=42 ans


Δx ≥ (xmax-xmin) / N

Δx ≥ 10 / 5 = 2
Intervalle Limite inférieure Limite supérieure Valeur centrale
de regroupement xj
j (ans) (ans) (ans)
1 32 34 33
2 34 36 35
3 36 38 37
4 38 40 39
5 40 42 41
Intervalle Limite Limite Valeur Effectif Fréquence Fréquence Fréquence
de inférieure supérieure centrale nj relative relative (relative)
regroupement xj (fréquence fj normalisée cumulée
j (ans) (ans) (ans) absolue) fjn (ans)-1 Fj
1 32 34 33 6 0,200 0,100 0,200
2 34 36 35 14 0,467 0,233 0,667
3 36 38 37 5 0,167 0,083 0,833
4 38 40 39 4 0,133 0,067 0,967
5 40 42 41 1 0,033 0,017 1,000
fj j
nj
fj =
n
fj = F j =  fl
n x l =1
Compter le nombre
de valeurs dans N
xi valeur xi valeur xi valeur FN =  f l = f1 + f 2 + ... + f N = 1
x1 34 x11 36 x21 34 chaque classe l =1
x2 35 x12 33 x22 35
x3 37 x13 39 x23 37
x4 32 x14 35 x24 36
x5 38 x15 36 x25 35
x6 42 x16 40 x26 35
x7 36 x17 33 x27 36
x8 36 x18 37 x28 35
x9 37 x19 40 x29 36 Les intervalles/classes sont ouvert(e)s à droite :
x10 34 x20 36 x30 39 par exemple les valeurs de 34 sont considérées
dans la première classe et la valeur de 42 dans
la dernière classe
Les représentations graphiques sont utiles pour indiquer les tendances générales du
phénomène et pour identifier les classes de valeurs avec plus de chances d'apparition
des valeurs de la v.a.

Une représentation graphique traditionnelle en statistique est l'histogramme.

L'histogramme caractérise le nombre d'observations (valeurs) qui se retrouvent dans


les classes de valeurs déterminées par la division en intervalles de même largeur Δx.

Chaque intervalle de regroupement (classe) est caractérisé(e) par une valeur unique
et on représente un rectangle d'hauteur égale à cette valeur ayant la base égale a Δx.

On peut représenter plusieurs types d'histogrammes, en fonction de la grandeur


considérée sur l'ordonnée.
16
Histogramme des effectifs
14
12

10

Effectif nj
8

2
0
33 35 37 39 41
Age (ans)

0.50
Histogramme des
fréquences
0.40
L’ordonnée (la Aire Aj = Δx · fj
hauteur du
Fréquence fj

0.30
rectangle) est une
estimation des 0.20
chances
0.10

0.00
33 35 37 39 41
Age (ans)
0.30
Histogramme des
L'aire d'un rectangle de l’histogramme est
-1

fréquences normalisées
Fréquence normalisée fj (ans)
n

0.20
Ajn = fjn Δx = fj (fréquence relative)

0.10
donc l'aire estime les chances d'avoir des
valeurs du phénomène dans l'intervalle
considéré.
0.00
33 35 37 39 41
Age (ans)

La surface totale de l'histogramme des fréquences relatives normalisées est l'unité :


N
N N N f
fj N
j =1
  f jn   x = x   f j =1
j
AN
j = = x =
j =1 j =1 j =1 x x j =1
0.30
Histogramme des

-1
fréquences normalisées

Fréquence normalisée fj (ans)


n
0.20

0.10

0.00
33 35 37 39 41
Age (ans)

Les histogrammes montrent la tendance de regroupement des valeurs de la variable


étudiée dans l'intervalle 34-36 ans.

Les histogrammes peuvent montrer une grande diversité d'apparences qu'on peut
qualifier comme pointue, plate, symétrique, concentrée d'un coté, etc.
Etalement à droite Etalement à gauche Dyssimétrie
non significative
La valeur F2 estime les chances cumulées
que la v.a. prends des valeurs dans les
premières deux classes de valeurs

1.00
Histogramme des
fréquences cumulées
0.80

Fréquence cumulée Fj
0.60

l’ordonnée estime les chances


0.40
cumulées La
0.20 deuxième
classe de
0.00
2 valeurs
33 35 37 39 41
Age (ans)
Indicateurs statistiques

Il y a quatre catégories d’indicateurs statistiques : de position (de regroupement des


données), de dispersion (des données par rapport à leur tendance de regroupement), de
concentration et de forme (de l’histogramme).

5. Calcul de la moyenne

Indicateur de position
La moyenne (arithmétique) est le nombre défini comme la somme des valeurs divisée
par l'effectif total :
n
 xi La moyenne a l’unité
x = i =1 de mesure de la v.a.
n

En utilisant les fréquences relatives fj, l'espérance peut être approximée par la relation
(xj étant la valeur centrale) :
N
x x j f j
j =1
Avec la moyenne on obtient un « résumé numérique » de la variable aléatoire, mais ce
n'est pas suffisant pour la caractériser entièrement.

La comparaison des deux moyennes d'échantillons différents de montre les limites de la


moyenne.

Si l’on compare les moyennes des notes d'étudiants de deux groupes différents on peut
avoir des valeurs proches mais ces valeurs peuvent cacher des réalités différentes: pour
un groupe d'étudiants les notes ont été entre 6 et 9 et pour l'autre entre 2 et 10.

Il faut donc associer la moyenne avec un autre indicateur statistique pour


résumer/caracteriser la dispersion des valeurs, c'est à dire les écarts entre les valeurs de
la variable.

Il en convient de se rapporter à l’indicateur de position (la moyenne) pour évaluer les


écarts.

Les écarts algébriques entre les valeurs et la moyenne n'offrent pas trop de possibilités
d'exploitation (les valeurs positives et négatives peuvent s’annuler), il est donc
raisonnable et utile d'utiliser les carrés des écarts.
6. Calcul de la variance

La variance (dispersion) 2 d'une variable aléatoire est définie comme la somme des carrés
des écarts entre les valeurs et leur moyenne, divisée par l'effectif total n moins 1 :
n
( xi − x )2
 2 = i =1
n −1

En utilisant les fréquences relatives fj, la variance peut être approximée avec la relation :

N
2   ( x j − x )2  f j
j =1

La variance a comme unité de mesure le carré de l'unité de mesure de la variable


aléatoire.

La variance est indicateur statistique de dispersion des valeurs.


7. Calcul de l’écart-type

A cause de l'unité de mesure de la variance il convient d'utiliser sa racine carrée, appelée


écart quadratique moyen ou écart-type (indicateur statistique de dispersion des valeurs),

 = 2

L’écart-type a la même unité de mesure que la variable.

L'écart-type doit toujours être interprété par rapport à la moyenne.

Si l'écart-type est grand par rapport à la moyenne, alors les valeurs sont dispersées par
rapport à la moyenne, et on parle d'un phénomène à grande variabilité. Un tel
phénomène est dangereux, il peut produire des surprises (i.e., des valeurs éloignées par
rapport à la moyenne).

Si l'écart-type est petit par rapport à la moyenne, alors les valeurs sont regroupées autour
de la moyenne, et on parle d'un phénomène à faible variabilité. Un tel phénomène fait
confiance, il ne produit pas de surprises, il este stable, ses valeurs sont toujours dans le
voisinage de la moyenne.
L'utilisation des moyennes et des écarts-types n'est plus utile quand on veut comparer
deux variables aléatoires qui ont des unités de mesure différentes.

8. Calcul du coefficient de variation

On introduit un indicateur statistique de dispersion, adimensionnel, le coefficient de


variation V qui, par définition, est le rapport entre l'écart-type et la moyenne.

V =  /x

Ainsi on compare directement les deux paramètres écart-type et moyenne et on élimine


l'unité de mesure tout en permettant la comparaison de phénomènes différents.

On exprime souvent les coefficients de variation en pourcentage (%).

V grand = grande variabilité = valeurs éloignées de la moyenne = surprises = danger !

V petit = faible variabilité = valeurs proches de la moyenne = pas de surprises = sécurité !


Harr, 1987
Valeurs de coefficients de
variation de différentes propriétés
des sols (Magnan, 1982)
Exemple

Échantillon de valeurs de l'âge des participants à un cours de formation postuniversitaire (ans)


xi valeur xi valeur xi valeur
x1 34 x11 36 x21 34
x2 35 x12 33 x22 35
x3 37 x13 39 x23 37
x4 32 x14 35 x24 36
x5 38 x15 36 x25 35
x6 42 x16 40 x26 35
x7 36 x17 33 x27 36
x8 36 x18 37 x28 35
x9 37 x19 40 x29 36
x10 34 x20 36 x30 39

x =36,1 ans x  35,7 ans

2 = 5 (ans)2  2  4,4 (ans)2

 = 2,2 ans   2,1 ans

V = 2,2/36,1 = 0,062 (6,2%)


2,1/35,7 = 0,058 (5,8%)
Note : il faut toujours se rappeler que la caractérisation que l'on fait d'un phénomène est
basée sur un échantillon limité de valeurs disponibles suite aux observations / mesures.

Malheureusement, en réalité on n'a jamais accès à l'ensemble des valeurs possibles d'une
variable.

Les échantillons de valeurs disponibles sont toujours limités par des raisons économiques
et/ou de temps.

Comme en général pour les phénomènes d'intérêt on n'a pas accès à l'entière population
de valeurs possibles d'une variable, les paramètres qu'on calcule sont des approximations
des paramètres de la population de valeurs possibles.
Plus l'effectif de l'échantillon augmente plus l'approximation est meilleure.

A l'aide des analyses statistiques et des modèles de probabilités associés on caractérise et


on modélise les phénomènes sur la base des informations disponibles, on fait des choix et
on prend des décisions.

Vous aimerez peut-être aussi