Vous êtes sur la page 1sur 26

Analyse statistique de données et

mathématiques

D.Moreaux

17 novembre 2015
Table des matières

1 Type de données 1
1.1 recensement ou échantillon . . . . . . . . . . . . . . . . . . . . 1
1.2 donnée qualitative, discrète ou continue . . . . . . . . . . . . . 2
1.3 quelques définitions . . . . . . . . . . . . . . . . . . . . . . . . 2

2 Données qualitatives 5
2.1 description . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5
2.2 représentation en table . . . . . . . . . . . . . . . . . . . . . . 5
2.3 diagramme en bâtons . . . . . . . . . . . . . . . . . . . . . . . 6
2.4 diagramme en barres . . . . . . . . . . . . . . . . . . . . . . . 7
2.5 diagramme circulaire . . . . . . . . . . . . . . . . . . . . . . . 7
2.6 paramètres statistiques . . . . . . . . . . . . . . . . . . . . . . 7

3 Données quantitatives discrètes 9


3.1 description . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9
3.2 tri . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9
3.3 nombres et fréquences cumulées . . . . . . . . . . . . . . . . . 10
3.4 médiane, quartile, décile . . . . . . . . . . . . . . . . . . . . . 10
3.5 moyenne . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11
3.6 représentations en table . . . . . . . . . . . . . . . . . . . . . 11
3.7 diagrammes en bâtons, barres ou circulaire . . . . . . . . . . . 11
3.8 diagramme des valeurs cumulées . . . . . . . . . . . . . . . . . 12

4 Données quantitatives continues 13


4.1 descripion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13
4.2 classes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13
4.3 fréquences, nombres et fréquences cumulés . . . . . . . . . . . 14
4.4 moyenne . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14
4.5 représentation en table . . . . . . . . . . . . . . . . . . . . . . 14
4.6 diagramme en barre . . . . . . . . . . . . . . . . . . . . . . . . 15
4.7 diagramme en courbe . . . . . . . . . . . . . . . . . . . . . . . 15

i
4.8 valeurs statistiques et classes . . . . . . . . . . . . . . . . . . . 15
4.8.1 moyenne . . . . . . . . . . . . . . . . . . . . . . . . . . 16
4.8.2 médiane et quartile . . . . . . . . . . . . . . . . . . . . 16

5 Paramètres de dispersion 19
5.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19
5.2 Etendue . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19
5.3 Intervalle interquartile . . . . . . . . . . . . . . . . . . . . . . 19
5.4 La variance . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20
5.5 Ecart-type . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20
5.6 Coefficient de Variation . . . . . . . . . . . . . . . . . . . . . . 21

ii
Introduction

Les nombres sont souvent utilisés de nos jours pour décrire une situation.
Qu’il s’agisse de statistiques servant à décrire un ensemble de mesures au-
trement qu’en en faisant une liste exhaustive ou de probabilités, servant à
prévoir ce que l’avenir pourrait être, ils font partie du quotidien.
Lorsque l’on a un ensemble de données brutes, la seule représentation
possible est une énumération de ces dernières, volumineuse et dont il est
souvent difficile de tirer un quelconque enseignement. On sera donc amené
à les résumer en un nombre d’informations plus restreint qui pourront être
soit communiquées directement, soit au travers d’un graphique.

iii
iv
Chapitre 1

Type de données

1.1 recensement ou échantillon


Dans certains cas, on collectera des information sur tous les éléments
concernés. Dans le cas des élections, on interroge tout Belge majeur (et qui
n’a pas été déchu de ses droits), dans le cas d’une chaîne de production, on
peut examiner la totalité des pièces produites, . . .
Il s’agit d’un ensemble exhaustif, complet, dans lequel aucun doute ne
persiste. On parlera parfois de recensement.
Dans d’autres situations par contre, on n’aura pas moyen de collecter les
informations de manière exhaustive. C’est par exemple le cas des sondage
en entrée (ou sortie) de bureau de vote, des tests destructifs sur les pièces
produites, . . .
On parlera dans ce cas d’échantillon. Le principal problème lorsque l’on
crée un échantillon est de s’assurer qu’il représente le mieux possible l’en-
semble complet.
Par exemple, dans une chaîne de montage où plusieurs machines pro-
duisent toutes la même pièce, si on ne prend en compte dans l’échantillon
que les pièces sortant d’une de ces machines, l’échantillon collecté ne repré-
sentera pas l’ensemble des pièces produites mais uniquement celles produites
par la machine en question.
De nombreux facteurs peuvent influencer les éléments de l’échantillon.
L’idéal est de soit s’assurer que ces facteurs n’interviennent pas dans les
valeurs mesurées, soit d’explicitement restreindre les données à certaines va-
leurs annoncées de ces facteurs 1 , soit encore de reproduire dans l’échan-
tillon les proportions pour ces facteurs présentes dans l’ensemble complet (par

1. par exemple, ne s’intéresser qu’aux femmes qui visitent un magasin afin de mettre
de côté l’influence du sexe sur le résultat

1
2 CHAPITRE 1. TYPE DE DONNÉES

exemple, la proportion homme-femme en Belgique est de 49, 12% - 50, 88%


il faudra donc par exemple interroger 4912 hommes et 5088 femmes pour
respecter cette proportion)

1.2 donnée qualitative, discrète ou continue


Il est possible de mesurer plusieurs types de grandeurs différentes sur des
éléments. La manière de traiter ces données dépendra de leur nature
donnée qualitative Il s’agit d’une donnée généralement exprimée de ma-
nière textuelle, pour laquelle aucune notion d’ordre n’existe 2 . On trou-
vera par exemple le sexe, la couleur de cheveux, le fait qu’un objet
soit réussi ou raté, . . .
données discrètes Il s’agit ici de données numériques où les valeurs pos-
sibles sont en nombre réduit et où les valeurs intermédiaires n’existent
pas. On trouvera par exemple le nombre d’enfants, le nombre d’années
nécessaires pour réussir un bachelier, le nombre de voitures possédées
par un ménage,. . .
données continues Il s’agit ici de données numériques où soit le nombre
de valeurs possible est très élevé, soit de grandeurs où les valeurs
intermédiaires sont possibles. On y trouvera par exemple les grandeurs
physiques (taille, poids, vitesse, durée,. . .)
A noter qu’il est possible de ranger les données continues dans un en-
semble fini de classes qui correspondent à des intervalles de valeurs.

1.3 quelques définitions


Population Il s’agit de l’ensemble des éléments (unités statistiques, indivi-
dus) sur lesquels on désire mesurer des données. Le terme de population
est également utilisé lorsque l’on mesure des grandeurs sur des objets.
Le nombre d’individus dans la population sera représenté par N .
Unité Statistique (Ou individu) il s’agit d’un élément pris dans la popu-
lation sur lequel on mesurera les données reprises dans les statistiques
Echantillon Il s’agit de l’ensemble des individus pris dans une population
sur lesquels les données seront effectivement mesurées. Le nombre d’in-
dividu présents dans l’échantillon sera représenté par n.
2. on peut cependant décider de les trier selon un ordre arbitraire tel que l’ordre al-
phabétique
1.3. QUELQUES DÉFINITIONS 3

Caractère (Ou critère) mesure qui sert de base pour trier, classer des unités
statistiques.
4 CHAPITRE 1. TYPE DE DONNÉES
Chapitre 2

Données qualitatives

2.1 description
Dans de nombreuses situations, les critères mesurés ne retournent pas une
valeur numérique mais une valeur textuelle.
On représentera les différentes valeurs possibles par x1 , x2 ,. . .,xk . Pour
chaque valeur possible, on déterminera le nombre de fois où cette valeur
apparaît dans l’échantillon examiné. Ces nombres seront n1 , n2 ,. . .,nk . On
parlera parfois de couples de valeurs (xi , ni ).
La somme des ni sera égale au nombre total d’individus concernés (taille
de l’échantillon) et s’écrira n
X
n= ni
i

La fréquence de la valeur est la proportion de l’échantillon ayant cette


valeur. Cette fréquence est située entre 0 et 1. La fréquence se représente par
fi et on a
ni
fi =
n
La somme des fréquence sera toujours égale à 1.

2.2 représentation en table


La représentation la plus simple est une simple table qui reprend dans
une première colonne les xi et dans une seconde colonne les ni . On ajoutera
une ligne en fin qui contiendra la somme des ni (en d’autres termes la taille
de l’échantillon n)

5
6 CHAPITRE 2. DONNÉES QUALITATIVES

On pourra ajouter une troisième colonne contenant les fréquences et, éven-
tuellement, une quatrième reprenant ces fréquences multipliées par 100 (et
donnant la proportion en pourcent)

Valeur nombre fréquence fréquence en %


Blanc 4 0.0333 3.33%
Bleu 13 0.1083 20.83%
Noir 28 0.2333 23.33%
Rouge 42 0.3500 35.00%
Vert 33 0.2750 27.50%
Total 120

Table 2.1 – Représentation par table

2.3 diagramme en bâtons


A chaque valeur xi on peut faire correspondre un bâton (une ligne) dont la
longueur sera proportionnelle au nombre d ?occurrences ni ou à la fréquence
fi .
Les bâtons peuvent être représentés verticalement ou horizontalement.
L’échelle verticale (ou horizontale) sera graduée soit en nombre d’éléments
soit selon la fréquence (en valeur normal ou en pourcentage).
En dessous de chaque bâton on placera une légende précisant la valeur
concernée.

40

20

Blanc Bleu Noir Rouge Vert

Figure 2.1 – Diagramme en batons


2.4. DIAGRAMME EN BARRES 7

2.4 diagramme en barres


A chaque valeur xi on peut faire correspondre une barre (un rectangle).
La hauteur des barres sera proportionnelle au nombre d’occurrences ou à la
fréquence et, tout comme pour le diagramme en bâton, on peut placer ces
barres horizontalement ou verticalement.
Les différentes barres seront séparées (afin de bien montrer qu’il s’agit de
données disctinctes)

40

20

Blanc Bleu Noir Rouge Vert

Figure 2.2 – Diagramme en barres

2.5 diagramme circulaire


Aussi appelé camembert ou secteurs, on se base sur un cercle divisé en
secteurs dont les proportions correspondent aux proportions des différentes
valeurs.
Les angles des différents secteurs sont proportionnels aux fréquences :

αi = fi .360

Le diagramme circulaire devra soit être accompagné d’une légende qui


associe une couleur à la valeur correspondante, soit les noms des valeurs
devront être repris au niveau du graphique (à l’extérieur de ce dernier ou en
lieu et place des nombres situés dans les secteurs).

2.6 paramètres statistiques


Pour les données qualitatives, le seul paramètre que l’on puisse définir est
la mode.
8 CHAPITRE 2. DONNÉES QUALITATIVES

28
13
4
42
33

Figure 2.3 – Diagramme circulaire

la mode (et la valeur modale) désigne la valeur xi qui apparaît le plus.


On recherchera donc la valeur ni la plus élevée et on donnera comme valeur
modale la valeur xi qui y correspond.
Par exemple, dans les données précédente, la valeur modale est Rouge.
Chapitre 3

Données quantitatives discrètes

3.1 description
On parlera de données quantitatives discrètes lorsque
— On aura un nombre fini et limité de valeurs
— Les valeurs intermédiaires n’existent pas (par exemple, des valeurs 1,
2, 3, . . .ou 1.0, 1.1, 1.2, 1.3, . . .) 1
On utilisera les mêmes notations que dans le cas des données qualitatives
(xi , ni , fi ).
Les représentations utilisées dans le cas des données qualitatives pourront
également être utilisées ici.
Par contre, l’aspect numérique des valeurs amènera quelques éléments
supplémentaires.

3.2 tri
Dans le cas des données quantitatives, on pourra trier les valeurs par
ordre de valeur croissante.
Si les valeurs suivent une progression logique, on n’hésitera pas à ajouter
les valeurs qui manqueraient. Par exemple, si on a les valeurs 1, 2, 4, 5, on
ajoutera la valeur 3 avec un nombre de 0.

1. J’utiliserai la notation anglaise pour les nombres, le séparateur entre les unités et
les dixièmes étant le point et non la virgule, dans la mesure où la virgule servira à séparer
des nombres dans une énumération

9
10 CHAPITRE 3. DONNÉES QUANTITATIVES DISCRÈTES

3.3 nombres et fréquences cumulées


Le nombre cumulé (ascendant) est le nombre cumulé de la valeur précé-
dente auquel on a ajouté le nombre de la valeur courante :

Cni = Cni−1 + ni

On trouvera ainsi n1 , n1 + n2 , n1 + n2 + n3 ,. . .
Ces nombres cumulés permettent de répondre à la question
“Combien de . . . auront une valeur de xi ou moins ?”
Le nombre cumulé descendant se calcule de la même manière mais en
commençant par la dernière valeur et en remontant ligne par ligne. Ils per-
mettront de répondre à la question
“Combien de . . . auront une valeur de xi ou plus ?”
Les fréquences cumulées peuvent être calculées en faisant les sommes des
fréquences comme on calcule les nombres cumulés mais cela peut amener des
problèmes d’arrondis.
Une méthode plus correcte serait de diviser les nombres cumulés par le
nombre total 2
Les fréquences cumulées permettront de répondre aux questions
“Quelle proportion de . . . auront une valeur de xi ou moins/plus ?”

3.4 médiane, quartile, décile


Pour calculer la médiane, on recherchera la valeur de l’élément milieu.
Pour ce faire, on calcule n /2 et on cherchera cette valeur dans la table des
nombres cumulés ascendants (ou on cherchera 50% dans la table des fré-
quences cumulées)
Si on trouve exactement la valeur recherchée, la médiane sera la moyenne
entre la valeur trouvée et la suivante. Par exemple, si la fréquence cumulée
de xi vaut 0.5, on calculera la moyenne xi +x2 i+1
Si par contre la valeur cumulée ne se trouve pas, on prendra le xi tel que

Cni−1 <n /2 < Cni

En d’autres termes, la valeur correspondant au premier nombre cumulé


qui dépasse n /2 .
2. tout comme la fréquence est le nombre divisé par le nombre total
3.5. MOYENNE 11

Pour déterminer les quartiles, on divisera le nombre d’éléments par 4 et


on recherchera Q1 au premier quart, Q2 au deuxième (également la médiane)
et Q3 au troisième.
Pour déterminer les déciles, on divisera par 10 et on numérotera les déciles
de 1 à 9. Les déciles sont nettement moins souvent utilisés.

3.5 moyenne
La moyenne de l’échantillon sera calculée en faisant la somme de toutes
les réponses données divisées par le nombre de réponses. Si une même réponse
apparaît plusieurs fois, on l’incluera autant de fois dans la somme.
Comme le nombre de réponse peut être très élevé, on utilisera plus souvent
les données réduites (valeur xi et nombre de fois où cette valeur apparaît ni )
et on calculera P
ni .xi
x= i
n
A noter que l’on peut également utiliser les fréquences
X
x= fi .xi
i

3.6 représentations en table


La représentation en table contiendra obligatoirement les colonnes des xi
et des ni comme c’était le cas pour les données qualitatives. De même, on
pourra ajouter les fréquences.
A ces colonnes, on pourra ajouter celles correspondant aux valeurs cumu-
lées (nombre et/ou fréquences).
Toujours préciser les unités utilisées pour les valeurs (mètres, kilogrammes,
litres,. . .) si il s’agit de données mesurées (et non de nombres de)

3.7 diagrammes en bâtons, barres ou circulaire


Ces diagrammes seront tracés de la même façon que pour des données
qualitatives.
A noter cependant que l’on utilisera les valeurs numériques triées et que
si une valeur manque, il faudra impérativement l’insérer avec un nombre de
03
3. Il ne faut clairement faire cela que si le nombre de colonnes à ajouter est réduit
12 CHAPITRE 3. DONNÉES QUANTITATIVES DISCRÈTES

Valeur Nombre Fréquence Nombre cumulé Fréquence cumulée


1 10 0.050 10 0.050
2 20 0.100 30 0.150
3 30 0.150 60 0.300
4 25 0.125 85 0.425
5 20 0.100 105 0.525
6 30 0.150 135 0.675
7 20 0.100 155 0.775
8 20 0.100 175 0.875
9 15 0.075 190 0.950
10 10 0.050 200 1.000

Table 3.1 – Table de données quantitatives discrètes

3.8 diagramme des valeurs cumulées


Ce diagramme représente en abscisse (l’axe horizontal) les valeurs et en
ordonnée les nombres (ou fréquences) cumulés (qu’ils soient ascendants ou
descendants).
On tracera ensuite des segments horizontaux partant de la valeur et son
nombre cumulé jusqu’à la valeur suivante, formant ainsi un diagramme en
escalier.

200

150

100

50

0
0 2 4 6 8 10

Figure 3.1 – Données discrètes : nombres cumulés


Chapitre 4

Données quantitatives continues

4.1 descripion
Les données continues sont des données ou
— le nombre de valeurs possibles est très grand (trop que pour les repré-
senter comme des valeurs discrètes)
— entre deux valeurs possibles, une infinité d’autres valeurs existent
Ce sera généralement le cas pour des valeurs assorties d’unités telles que
les mètres, les secondes, les kilogrammes,. . .ou leurs dérivés (mètres carrés,
kilomètres/heure,. . .)
Dans le cas des valeurs continues, une valeur donnée précise (sans arrondi)
n’apparaîtra généralement qu’une seule fois (même si on peut voir des valeurs
proches, par exemple, trouver 14.999, 15 et 15.001). Il n’est donc pas possible
de représenter chaque valeur individuellement.

4.2 classes
Lorsque l’on prend les données brutes, on peut trouver la plus petite
valeur xmin et la plus grande valeur xmax .
L’étendue des données est la différence entre le maximum et le minimum :

E = xmax − xmin

Les données seront rangées dans des intervalles disjoints que l’on appellera
classes. Le nombre de classes que l’on utilisera sera un compromis entre peu
de classes mais beaucoup d’informations perdues ou de nombreuses classes
et plus de travail pour réaliser le graphique.

13
14 CHAPITRE 4. DONNÉES QUANTITATIVES CONTINUES

On choisira donc un nombre minimum de 5 classes et un maximum de


20 classes. Pour calculer la largeur d’une classe, on divisera l’étendue par le
nombre de classes désiré.
Afin de garder des données faciles à manipuler, on arrondira la largeur
de classe, vers le bas si le nombre de classes est faible 1 ou vers le haut si le
nombre de classes est élevé.
On prendra la plus petite valeur (xmin ) que l’on arrondira vers le bas et
on utilisera cette valeur comme borne inférieure pour la première classe.
On ajoutera à cette borne inférieure la largeur de classe (arrondie) pour
obtenir la borne supérieure de la classe qui sera également la borne inférieure
de la classe suivante. On continue ainsi de suite jusqu’à avoir dépassé la valeur
la plus grande (xmax ).
Pour terminer, chacune des valeurs des données brutes sera reprise dans
une classe. Si la valeur tombe sur la limite entre deux classes, on la placera
dans la classe supérieure (par exemple, si on a des classes 100-200 et 200-
300, on placera la valeur 200 dans la seconde classe). On saura donc ainsi le
nombre de valeurs présentes dans chaque classe.

4.3 fréquences, nombres et fréquences cumulés


Une fois les classes triées par ordre croissant, on pourra calculer la taille
de la population, la fréquence, les nombres cumulés et les fréquences cumulées
comme on l’aurait fait pour des données discrètes.
Ces valeurs seront relatives aux classes et non aux valeurs mesurées indi-
viduelles.

4.4 moyenne
A priori, la moyenne est calculée en faisant la somme de toutes les valeurs
mesurées et en divisant cette somme par le nombre de valeurs. Cette méthode
n’est évidemment possible que si on dispose des données brutes.
Il est également possible de calculer une moyenne approchée à partir des
classes et du nombre d’individus par classe.

4.5 représentation en table


Lorsque l’on représentera les données dans une table, on signalera les
classes d’une des manières suivantes :
1. Cela amènera à un nombre de classes final plus grand
4.6. DIAGRAMME EN BARRE 15

— [a, b[ (les crochets carrés indiquent que l’on inclus la première valeur
mais pas la seconde)
— de a à b (sous forme textuelle)
— a − b (on utilise un tiret pour séparer les deux valeurs)
— ...
Il est important de signaler les deux bornes de la classe. Les classes vides
seront indiquées avec un nombre d’individus de 0.

4.6 diagramme en barre


Tout comme pour les autres données, on peut représenter à l’aide d’un
diagramme en barres. Par contre, on s’assurera que les barres sont collées
les unes aux autres (contrairement aux cas précédents où les barres devaient
être séparées).
Les barres sont placées entre les deux valeurs correspondant aux bornes
de la classe et on indiquera les dites bornes au niveau de l’axe.

4.7 diagramme en courbe


Si on prend les milieux des dessus des barres et qu’on les relie, on obtient
un diagramme sous la forme d’une courbe (composée de segments de droite)
qui se rapprochera d’autant plus de la vraie distribution des données que le
nombre de classe augmentera (si on augmente le nombre de classe infiniment,
on trouvera une courbe précise).
La surface en dessous de cette courbe est la même que la surface repré-
sentée par l’ensemble des barres du diagramme en barre.
Cette courbe a l’avantage sur le diagramme en barre de faire apparaître
le fait que si on a deux classes adjacentes, la transition au niveau des données
est régulière. Par exemple, si on a 10 individus dans la classe 100-200 et 100
dans la classe 200-300, on peut s’attendre à ce qu’il y ait plus d’individus
dans la seconde moitié de la classe 100-200 que dans la première moitié et
moins dans la première partie de la classe 200-300 que dans la seconde.

4.8 valeurs statistiques et classes


Si on peut calculer les valeurs exactes pour la médiane, les quartiles et
la moyenne à partir de l’ensemble complet des données, il arrive souvent que
l’on ne dispose pas de ces données brutes (parce que trop nombreuses).
16 CHAPITRE 4. DONNÉES QUANTITATIVES CONTINUES

On devra donc se contenter des données ventilées en classes pour calculer


une valeur approchée de ces grandeurs.

4.8.1 moyenne
Pour calculer la moyenne, on utilisera pour chaque classe une valeur égale
au centre de classe où xmin et xmax sont les bornes inférieures et supérieures
de la classe

xmax − xmin
ci =
2
Le calcul de la moyenne se fera donc en utilisant la formule ci-dessous
P
ci .ni X
x̄ = = ci .fi
n

4.8.2 médiane et quartile


Pour calculer la médiane ou les quartiles, il faut diviser l’ensemble des
valeurs en deux ou quatre morceaux contenant chacun le même nombre d’élé-
ments.
Pour ce faire, on considérera que les valeurs sont réparties uniformément
dans la classe. Par exemple, si on a une classe contenant des valeurs de 100
à 200, on considérera qu’il y aura autant de valeurs avant 150 que après 150.
Si on divise la classe en 4, on pourra dire qu’il y aura autant de valeurs entre
100 et 125 que entre 125 et 150, entre 150 et 175 et entre 175 et 200, et ainsi
de suite.
On commencera donc par calculer n2 (pour la médiane 2 ) et par déterminer
dans quelle classe se trouvera cette valeur (en comparant avec les nombres
cumulés comme on aurait fait pour des données discrètes).
Deux cas de figure peuvent se produire : soit la valeur arrive exactement
sur un des nombres cumulés, la médiane sera la borne de fin de classe.
Soit la valeur arrive à l’intérieur d’une classe. Il faudra alors effectuer une
interpolation pour calculer la valeur (approchée) de la médiane
La formule d’interpolation est la suivante (xmin et xmax sont les bornes
de la classe dans laquelle se trouve la médiane, nmin le nombre cumulé de
la classe précédente et nmax le nombre cumulé de la classe concernée et n2 la
position de la médiane) :
n 3.n
2. Pour les quartiles, on procédera de même en prenant 4 et 4
4.8. VALEURS STATISTIQUES ET CLASSES 17

(xmax − xmin ) n
x = xmin + .( − nmin )
(nmax − nmin ) 2
Si le nombre cumulé de la classe 100-200 est de 42, le nombre cumulé
de la classe 200-300 est de 98 et le nombre total est de 128, la médiane se
trouvera à la position 64, qui se trouve dans 200-300 et on pourra calculer la
valeur de cette médiane par

300 − 200 100


mediane = 200 + .(64 − 42) = 200 + .(22) = 239, 29
98 − 42 56
Le même raisonnement sera utilisé pour calculer les quartiles.
18 CHAPITRE 4. DONNÉES QUANTITATIVES CONTINUES
Chapitre 5

Paramètres de dispersion

5.1 Introduction
Lorsque l’on travaille sur des données quantitatives, les différentes valeurs
mesurées peuvent être regroupées autour de la moyenne ou au contraire être
particulièrement étalées.
Il est intéressant de pouvoir quantifier cette dispersion. Différentes valeurs
permettent de le faire.

5.2 Etendue
L’étendue des données statistique est la différence entre la plus grande
valeur et la plus petite valeur.
Toutes les valeurs se trouvent dans l’intervalle défini par l’étendue. Par
contre, l’étendue ne donne aucune information sur la manière dont les don-
nées sont réparties dans cet intervalle. Elles peuvent être regroupées au niveau
de la moyenne ou au contraire, apparaître sous la forme de deux pics proches
des valeurs extrêmes.

5.3 Intervalle interquartile


Comme les quartiles divisent les données en trois groupes contenant cha-
cun 25% des valeurs, si on prend l’intervalle entre le premier quartile et le
troisième, cet intervalle couvre la moitié des échantillons.
L’intervalle interquartile est donc la différence entre la valeur du troisième
quartile et celle du premier quartile. L’information fournie est plus précise
que celle fournie par l’étendue.

19
20 CHAPITRE 5. PARAMÈTRES DE DISPERSION

5.4 La variance
Pour avoir une mesure plus précise de l’étalement, on va s’intéresser à
l’écart entre les valeurs et la moyenne.
La moyenne de ces écarts sera égale à 0 car certains d’entre eux seront
positifs et les autres seront négatifs et qu’au final, ils s’annuleront.
Afin de faire disparaître les signes, on élèvera ces différences au carré. On
aura dès lors
P
(xi − x̄)2
Variance =
n
Lorsque les valeurs sont associées à un nombre d’apparition, la formule
deviendra
P
ni (xi − x̄)2 ]
Variance =
n
Dans le cas des données continues, on utilisera les centres de classe comme
valeurs.
Le théorème de König permet d’exprimer cette variance d’une autre ma-
nière :
P
ni x2i
Variance = − x̄2
n
En d’autres termes, si on dispose déjà de la moyenne, il suffit de calculer
la moyenne du carré des valeurs 1

5.5 Ecart-type
Lorsque l’on calcule une variance, les valeurs et la moyenne sont élevés au
carré. S’il s’agit de grandeurs avec une unité (mètres, jours, . . .), cette unité
est également élevée au carré.
Pour obtenir une grandeur qui soit plus représentative, on calculera dès
lors l’écart-type qui est la racine carrée de la variance. Cet écart-type aura
la même unité que les données de départ et que la moyenne.
1. C’est d’ailleurs ce que font généralement les calculatrices : elles conservent la somme
des xi , la somme des x2i et le nombre de valeurs entrées, chaque fois qu’on entre une
nouvelle valeur, elle est ajoutée à la première somme, son carré est ajouté à la seconde et
1 est ajouté au nombre d’entrées
5.6. COEFFICIENT DE VARIATION 21


σ= Variance
Plus l’écart type est faible, plus les valeurs seront regroupées autour de
la moyenne.
Si l’échantillon suit la courbe normale (aussi appelée courbe de Gauss),
on peut dire que 68,2% des valeurs se retrouvent dant l’intervalle [x̄−σ, x̄+σ]
et que 95% des valeurs se retrouvent dans l’intervalle [x̄ − 1, 96σ, x̄ + 1, 96σ].
Cette courbe normale correspond très souvent à la réalité 2 .

5.6 Coefficient de Variation


Si on prend deux sacs contenant, l’un des liasses de 5e et l’autre des
liasses identiques de 500e, les nombres de billets par liasse se correspondent,
les distributions de données seront identiques.
La moyenne et l’écart type des nombres de billets par liasse seront les
mêmes, mais la moyenne et l’écart type des montants seront multipliés par
100 entre les deux sacs.
Si l’on désire une grandeur qui soit indépendante de l’unité de grandeur
utilisée pour qualifier la dispersion des valeurs, on divisera l’écart-type par
la moyenne. Ainsi, le facteur unité de grandeur disparaîtra et on trouvera la
même grandeur dans les deux cas.

σ
CV =

Ce coefficient de variation sera d’autant plus petit que les données seront
proches de la moyenne et plus grand si au contraire les données sont dispersée.
Si on veut comparer deux distribution afin de déterminer laquelle est la
plus dispersée, on utilisera le coefficient de variation.

2. Quand le nombre d’échantillons augmente, de nombreuses distributions tendent vers


la courbe de Gauss