Vous êtes sur la page 1sur 31

Introduction aux statistiques descriptives, cours 3

Florence Yerly

Haute école d’ingénierie et d’architecture de Fribourg

Semestre de printemps 2023


Mesures statistiques

On souhaite résumer une série de données par des nombres clés :


▶ Mesure de la tendance centrale
▶ Mesure de la dispersion
▶ Etendue des données
Présentation des données
Données in extenso quand on a peu de données ou quand on a
accès aux données brutes
Ex : taille des bébés à la naissance (en cm) :
43 38 54 45 56 39 43 46 52 55
Données condensées quand il y a peu de modalité
Ex : Nombre d’enfants par ménage
Nbr d’enfants 0 1 2 3 4 5 6
Nbr de ménages 9 12 15 11 7 4 2
Données groupées en classe quand les modalités sont très
nombreuses
Ex : délai d’expédition (en jours)
i classe effectif ni
1 [0 - 3[ 1
2 [3 - 6[ 0
3 [6 - 9[ 13
4 [9 - 12] 5
Tendance centrale

On peut envisager le centre d’une distribution de plusieurs manière.


On va mesurer la tendance centrale grâce à trois grandeurs.
Moyenne c’est l’équilibre où l’on tient compte de la grandeur de
toutes les données.
Mode c’est la plus haute fréquence.
Médiane c’est le partage en deux parties égales.
La moyenne pour des données brutes

Soit xi la modalité d’une variable statistique pour l’unité statistique i


(ou l’individu i) d’un échantillon comprenant n unités statistiques. La
moyenne est
1 n
x̄ = ∑ xi
n i =1

Ex : taille des bébés à la naissance (en cm) :

43 38 54 45 56 39 43 46 52 55

Moyenne
43 + 38 + 54 + 45 + 56 + 39 + 43 + 46 + 52 + 55
x̄ = = 47.1 cm
10

La moyenne est sensible aux valeurs extrêmes.


La moyenne pour des données condensées

Dans un échantillon de n unités statistiques, chaque observation xi a


été observé ni fois.
n
1
Sa moyenne pondérée est x̄ = ∑ ni xi
∑ni=1 ni i =1

Ex : Nombre d’enfants par ménage


Nbr d’enfants 0 1 2 3 4 5 6
Nbr de ménages 9 12 15 11 7 4 2

0 · 9 + 1 · 12 + 2 · 15 + 3 · 11 + 4 · 7 + 5 · 4 + 6 · 2
Moyenne x̄ = = 2.25
9 + 12 + 15 + 11 + 7 + 4 + 2
Moyenne pour des données groupées en classe

On calcule la moyenne comme si les données étaient situées au


centre de la classe.

Exemple : délai d’expédition


i classe centre x̃i effectif ni
1 [0 - 3[ 1.5 1
2 [3 - 6[ 4.5 0
3 [6 - 9[ 7.5 13
4 [9 - 12] 10.5 5

1 · 1.5 + 0 · 4.5 + 6 · 6.75 + 7 · 8.25 + 5 · 10.5


Moyenne x̄ = = 8.01
19
jours.
Le mode pour les données brutes ou les données
condensées

Le mode est la modalité de la valeur dominante, c’est la valeur qui


présente le plus grand effectif ou la plus grande fréquence.

Exemple. Liste des pays dans lesquels les sociétés concurrentes de


Sun4all ont leur siège :
Allemagne, USA, USA, Taïwan, Japon, USA, Corée du Sud,
Allemagne, Allemagne, USA, Japon, Japon, Japon, Taïwan, Corée du
Sud, Allemagne, USA, Corée du Sud
▶ Les USA correspondent au mode.

Remarque : Il peut y avoir plusieurs modes.


Classe modale pour des données groupées en classe

La classe modale est la classe ayant l’effectif le plus grand.

classe effectif
i ni
1 [0 - 3[ 1
2 [3 - 6[ 0
3 [6 - 9[ 13
4 [9 - 12] 5

La classe modale est la classe [6, 9[.


Les statistiques d’ordre

Les statistiques d’ordre d’une série de données quantitatives, notés


x[i ] , sont simplement les observations classées dans l’ordre
numérique croissant.
i est appelé le rang de la donnée x[i ] .
Exemple :
Taille de 10 bébés à la naissance

x1 x2 x3 x4 x5 x6 x7 x8 x9 x10
43 38 54 45 56 49 43 46 39 51

Statistiques d’ordre

x[1] x[2] x[3] x[4] x[5] x[6] x[7] x[8] x[9] x[10]
38 39 43 43 45 46 49 51 54 56
La médiane pour des données brutes

On considère que les données ont été classées dans l’ordre croissant
(statistiques d’ordre).
La médiane est l’observation ou la valeur qui sépare les données en
deux groupes de même taille.
Notation : med(x ).

Si n est impaire, la médiane est la donnée de rang n+


2
1
.
n
Si n est paire, la médiane est la moyenne des données de rang 2
et
n
2
+ 1.

La médiane n’est pas sensible aux valeurs extrêmes.


Médiane : exemple 1

Reprenons l’exemple de la taille des bébés à la naissance.


Statistiques d’ordre

x[1] x[2] x[3] x[4] x[5] x[6] x[7] x[8] x[9] x[10]
38 39 43 43 45 46 49 51 54 56

Il y a 10 observations (nbr pair). La médiane partage les données en


deux groupes de 5 observations, c’est-à-dire la médiane est entre 45
et 46.

45 + 46
⇒ med(x ) = = 45.5
2
Médiane : exemple 2

Voici les notes obtenues par les élèves d’une classe à un examen de
math :

3.2, 3.6, 3.9, 4.0, 4.0, 4.2, 4.5, 4.6, 4.6, 4.9, 5.1, 5.4, 5.9

13+1
Il y a 13 élèves, la médiane est la données de rang 2
= 7.
Donc med(x ) = 4.5.
La médiane pour des données condensées

La médiane est la première modalité dont la fréquence relative


cumulée dépasse 50%.

Exemple : Nombre d’enfants par ménage


Nbr d’enfants Nbr de ménages fréquence fréquence cumulée
0 9 0.15 0.15
1 12 0.2 0.35
2 15 0.25 0.6
3 11 0.18 0.78
4 7 0.12 0.9
5 4 0.07 0.97
6 2 0.03 1

La médiane vaut 2.
La médiane pour des données groupées en classe

La classe médiane est la première classe où la fréquence relative


cumulée atteint ou dépasse 0.5.
La médiane est calculée par interpolation (+ Thalès) de la courbe des
fréquence cumulée croissante.
Ex : délai d’expédition (en jours)
i classe effectif fréquence fréquence cumulée
1 [0 - 3[ 1 0.05 0.05
2 [3 - 6[ 0 0 0.05
3 [6 - 9[ 13 0.69 0.74
4 [9 - 12] 5 0.26 1

Ici elle vaut 7.96 jours. (voir calcul au tableau).


Indicateurs de dispersion

Ils indiquent dans quelle mesure les observations sont groupées


autour du centre, ou, au contraire, s’en écartent.
Écarts à la moyenne

L’erreur (ou écart) à la moyenne d’une variable statistique x associée à


un individu i est définie par :

xi − x̄

L’erreur absolue est définie par :

|xi − x̄ |

L’erreur quadratique est définie par :

(xi − x̄ )2

Intuitivement, l’écart absolu moyen constituerait un bon indicateur de


la dispersion. Une meilleure solution, pour des raisons essentiellement
théoriques, consiste à utiliser la moyenne corrigée des erreurs
quadratiques.
La variance et l’écart-type (pour des données brutes)
Soit xi la modalité d’une variable statistique pour l’unité statistique i
(ou l’individu i) d’un échantillon comprenant n unités statistiques. La
variance est
n n
1 1
s2 = ∑ (xi − x̄ )2 = n − 1 ∑ xi2 − nx̄ 2 .
n−1 i =1 i =1

On utilise souvent l’écart-type :


s
√ 1 n
s= s2 = ∑ (xi − x̄ )2
n−1 i =1

Remarques :
• Les calculatrices utilisent parfois la formule pour une population
(division par n au lieu de n − 1). À vérifier sur la vôtre !
• La variance, contrairement à l’écart-type, n’est pas dans la même unité
que les données. Par exemple, si la variable considérée est la taille en
centimètres, la variance sera elle exprimée en cm2 (comme une
surface !).
Exemple

La taille, en cm, de bébés à leur naissance a été recueillie pour 10


bébés :

43 38 54 45 56 39 43 46 52 55

La taille moyenne d’un bébé dans cet échantillon est alors de

43 + 38 + 54 + 45 + 56 + 39 + 43 + 46 + 52 + 55
x̄ = = 47.1
10
La variance de cet échantillon de taille 10 est donc
1
s2 = (43 − 47.1)2 + (38 − 47.1)2 + . . . + (55 − 47.1)2 = 44.5444

9
et son écart-type est

s= 44.5444 = 6.674162
Calcul avec un tableur

Construire un tableau avec les colonnes i, xi , (xi − x̄ ), et (xi − x̄ )2 .

i xi (xi − x̄ ) (xi − x̄ )2
1 43 -4.1 16.81
2 38 -9.1 82.81
3 54 6.9 47.61
4 45 -2.1 4.41
5 56 8.9 79.21
6 39 -8.1 65.61
7 43 -4.1 16.81
8 46 -1.1 1.21
9 52 4.9 24.01
10 55 7.9 62.41
Moyenne 47.1 Variance 44.54444
Interprétation de la dispersion

Si les données xi sont distribuées selon une loi normale (càd


l’histogramme ressemble à une courbe en cloche), alors :
▶ l’intervalle [x̄ − s, x̄ + s] contient environ 68 % des données.
▶ l’intervalle [x̄ − 2s, x̄ + 2s] contient environ 94 % des données.
Interprétation
Dans le cas d’une distribution en cloche, on peut interpréter
l’écart-type comme suit.
• Environ 68% des bébés ont une taille à la naissance qui se situe
à plus ou moins un écart-type de la moyenne

[ x̄ − s ; x̄ + s ] = [ 40.42584 ; 53.77416 ]

• Environ 95% des bébés ont une taille qui se situe à plus ou moins
2 écarts-type de la moyenne

[ x̄ − 2s ; x̄ + 2s ] = [ 33.75168 ; 60.44832 ]

• Environ 99.7% des bébés (presque tous) ont une taille qui se
situe à plus ou moins 3 écarts-type de la moyenne

[ x̄ − 3s ; x̄ + 3s ] = [ 27.07751 ; 67.12249 ]
Illustration
Illustration pour une population suivant une courbe normale (courbe en
cloche) : le test du QI suivant l’échelle de Wechsler. La valeur moyenne est
établie à 100, avec un écart-type de 15. Ce test est utilisé au niveau mondial.
Mesures de la position : les quartiles

Ce sont des valeurs de positions, qui se calculent sur les mêmes


principes que la médiane.
Les quartiles divisent les statistiques d’ordre en quatre groupes de
même taille.
Le premier quartile est noté q1 : 25% des données se trouvent
en-dessous, 75% au-dessus.
Le deuxième quartile, q2 , est aussi la médiane : 50% - 50%.
Le troisième quartile est noté q3 : 75% en-dessous, 25% au-dessus.
L’écart interquartile (EIQ) est la différence entre les premier et
troisième quartiles :
EIQ = q3 − q1 .
Calcul des quartiles

1) On calcule d’abord la médiane sur l’échantillon en entier.


2) Puis on calcule la médiane des deux groupes de données
obtenus au point 1).
Exemple : Notes de math :

3.2, 3.6, 3.9, 4.0, 4.0, 4.2, 4.5, 4.6, 4.6, 4.9, 5.1, 5.4, 5.9

Médiane : donnée de rang 7 → q2 = 4.5.


1er quartile : entre les données de rangs 3 et 4
→ q1 = 3.9+2 4.0 = 3.95.
3e quartile : entre les données de rangs 10 et 11
→ q3 = 4.9+2 5.1 = 5.0.
Ecart interquartile : EIQ= q3 − q1 = 1.05.
Représentation graphique : la boîte à moustache ou le
boxplot.

Le boxplot (ou boîte à moustaches) est une représentation graphique


d’une distribution de données quantitatives utilisant les quartiles.
La boîte est prolongée de chaque côté par deux « moustaches »allant
jusqu’à l’observation la plus éloignée, mais au plus à une distance de
1.5 écart interquartile.
Données extrêmes
Les données extrêmes (ou atypiques) sont les observations situés à
plus de 1.5 écart interquartile d’un des bords de la boîte, (ces
données sont au-delà des moustaches théoriques maximales). On les
représentent souvent avec des petits ronds ou étoiles.
Exemple

Nombre de tasses de cafés bues en une journée à la terrasse d’un


bistro. Statistiques d’ordre de la distribution :

11, 13, 18, 20, 21, 23, 25, 25, 27, 28, 31, 34, 35, 41, 42, 43, 44, 46, 54, 93

Calcul des quartiles ?


q2 = med(x ) = 28+ 2
31
= 29.5
21+23
q1 = 2
= 22
42+43
q3 = 2
= 42.5
Ecart interquartile et longueur maximale des moustaches ?
EIQ = 42.5 − 22 = 20.5 ⇒ Lmax = 1.5 · EIQ = 30.75
Une valeur est extrême si elle est plus grande que
42.5 + 30.75 = 73.25. Donc 93 cafés est une valeur extrême.
Exemple - boxplot
Comparaison histogramme et boxplot
70

70
60

60
50

50
40

40
30

30
20

20
10

10
0

0
−2 0 2 4 −4 −2 0 2 4

−2 −1 0 1 2 3 4 −4 −2 0 2 4
Comparaison histogramme et boxplot
120

50
100

40
80

30
60

20
40

10
20
0

0
0.0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0 5 10 15 20

0.0 0.1 0.2 0.3 0.4 0.5 0.6 0 5 10 15 20

Vous aimerez peut-être aussi