Vous êtes sur la page 1sur 8

La Statistique

La statistique a pour objet de collecter, analyser et interpréter des obser-


vations relatives à un même phénomène. Sur base d’un (très large) ensemble
de données numériques amassées dans le temps, l’idée est de structurer et
représenter ces données à des fins de recenssements et de prévisions.

1 Terminologie
• Une population est un ensemble soumis à une étude statistique.
• Une série statistique est un ensemble de valeurs collectées (sur une
population) portées sur une liste comme la taille des joueurs d’une
équipe, le nombre de voix obtenues par l’ensemble des personnes sur
une liste électorale...
• Un échantillon est un sous-ensemble de la population.
• Un caractère statistique est une propriété étudiée sur la population. Il
peut être qualitatif ou quantitatif comme la taille, le QI ou le revenu
d’une personne...
• Un effectif est le nombre de répétitions d’une des valeurs associée à
un caractère. Par exemple, le nombre d’élèves mesurant 152 cm dans
une école de 1000 élèves. L’effectif total ou cumulé est la taille de la
population.

Un caractère est qualitatif s’il est non mesurable comme la marque d’une
voiture, l’activité professionnelle, la nationalité. Un caractère est quantitatif
s’il peut se mesurer, c’est-à-dire si on peut lui attribuer une valeur numérique
comme l’âge, le poids, le revenu annuel.
Nous nous limiterons à l’étude de séries statistiques quantitatives. Un
caractère quantitatif peut être discret ou continu. Il est discret si le carac-
tère ne peut prendre que des valeurs isolées comme, par exemple, le nombre
d’enfants d’une famille, le nombre de voitures que possède une famille. Il
est continu si le caractère peut prendre toutes les valeurs dans un intervalle
donné partagé en classes comme par exemple la taille d’un être humain.

Friob · Math 4 · Statistique Page 1


2 Valeurs centrales
Une première question qui se pose dans le classement croissant des (très
nombreuses) données est tout simplement de savoir où se situe le milieu de
cette série de nombres. Cela n’est pas forcément évident car le nombre de
données peut dépasser le milliard et l’écart entre les valeurs du caractère de
deux éléments voisins n’est pas, généralement, le même tout au long de la
liste.

Il existe plusieures manière de définir cette position centrale et chaque


manière livrera des informations, bien que complémentaires, différentes sur
la série statistique.

Nous allons définir, et calculer sur base des deux exemples ci-dessous,
trois valeurs centrales distinctes.

Table 1 – Poids de naissance de 20 nouveaux nés

Poids (kg) 1,8 2,6 2,7 2,9 3,0 3,1 3,3 3,5 3,9 4,0 4,1 4,3

Effectif 2 4 1 1 1 3 2 1 1 1 2 1

Table 2 – Temps passé devant les écrans

Durée (min) [0 ;30[ [30 ;60[ [60 ;90[ [90 ;120[ [120 ;150[ [150 ;180[

Effectif 37 80 220 218 130 74

Durée (min) [180 ;210[ [210 ;240[ [240 ;270[ [300 ;330[ [330 ;360[

Effectif 182 46 7 5 1

Friob · Math 4 · Statistique Page 2


2.1 Le mode et la classe modale
Le mode d’une série statistique est la valeur du caractère observé dont
la fréquence est la plus grande. Dans le cas où les données sont groupées,
on appelle classe modale, si elle existe, la classe dont l’effectif est le plus
élevé. Souvent on attribue au mode la valeur centrale de la classe modale.
La détermination du mode permet de déceler et souligner les répétitions de
valeurs identiques.

Dans l’exemple de la table 1 le mode est de 2,6 kg. C’est la valeur de la


liste qui apparaît le plus fréquemment. Pour ce qui est de la table 2 la classe
modale est l’intervalle [60 ;90[, la durée de 75 minutes, centre de cette classe,
est le mode.

2.2 La moyenne arithmétique


La moyenne arithmétique x̄ est la somme de toutes les valeurs du carac-
tère observé, divisée par le nombre de données (effectif cumulé total).
n
X xi
x̄ = (1)
n
i=1

Dans le cas où les données sont groupées en classes, on considère que


toutes les valeurs sont représentées par le centre de la classe.

Dans l’exemple de la table 1 la moyenne des poids est 3,12 kg.

1, 8 ∗ 2 + 2, 64 ∗ 4 + 2, 7 + 2, 9 + 3, 0 + 3, 1 ∗ 3
x̄ =
20
3, 3 ∗ 2 + 3, 5 + 3, 9 + 4, 0 + 4, 1 ∗ 2 + 4, 3
+ = 3, 12 kg
20
Pour la table 2 la moyenne des durées est 122 minutes et 40 secondes.

15 ∗ 37 + 45 ∗ 80 + 75 ∗ 220 + 105 ∗ 218 + 135 ∗ 130


x̄ =
1000
165 ∗ 74 + 195 ∗ 182 + 225 ∗ 46 + 255 ∗ 7 + 285 ∗ 5 + 315
+ = 122, 67 min
1000

Il existe d’autres moyennes telle la moyenne géométrique.

Friob · Math 4 · Statistique Page 3


2.3 La médiane
La médiane d’une série statistique est la valeur du caractère telle que
la moitié de l’effectif total est inférieur ou égal à cette valeur. Dans le cas
d’un tableau non groupé (ou du cas discret), si l’effectif est impair, il existe
un élément qui tient le milieu de cette liste : c’est la médiane. Si l’effectif
est pair, on convient d’appeler médiane la demi-somme des deux éléments
milieux de la liste. La médiane a une fréquence cumulée de 50 %. Autrement
dit, la médiane est l’abscisse du point dont l’ordonnée est la moitié de l’ef-
fectif (point d’ordonnée 50% dans un diagramme des fréquences cumulées).

Dans l’exemple de la table 1 la médiane est le poids compris entre la 10e


et 11e donnée : comme les poids sont égaux, la médiane est 3,1 kg. Si ces
poids n’étaient pas égaux, on calculerait la moyenne entre les deux.

On peut déterminer graphiquement la médiane à partir du diagramme


des effectifs (ou des fréquences) cumulé(e)s. C’est la méthode que l’on utilise
si les données sont groupées ou si le caractère observé est continu. Dans
l’exemple de la table 2 la classe médiane des durées est [90 ;120[ et la médiane
est 105 minutes.

2.4 Limitation des valeurs centrales


Chacune des trois positions/valeurs centrales que nous venons de présen-
ter possède ses point forts et ses points faibles. En statistique il est aisé de
tirer de fausses conclusions à partir de calculs corrects. Aussi bien dans le
cas de sondages politiques que dans celui d’algorithmes guidant les investis-
sements boursiers la démonstration est (régulièrement) magistrale...

Valeur
Avantages Inconvénients
centrale
Influencée par des valeurs extrêmes.
Moyenne Très largement utilisée.
Peut ne correspondre à aucune valeur
arithmétique Utilise toutes les données.
de la liste.
Est souvent une valeur donnée.
Médiane Utile lorsque des valeurs extrêmes Cible une seule valeur.
peuvent peser sur la moyenne.
Très facile à déterminer.
N’inclut pas toutes les valeurs.
Mode Représente une valeur typique.
Surtout descriptif.
Est toujours une valeur de la liste.

Friob · Math 4 · Statistique Page 4


3 Indices de dispersion
Dans l’étude des séries statistiques il est, non seulement, utile de déter-
miner la position centrale, mais encore, d’avoir une idée de l’écart (moyen)
d’un élement de la liste à la moyenne arithmétique.

3.1 L’étendue
Dans une série statistique, l’étendue est la différence entre les deux valeurs
extrêmes du caractère observé. Ce paramètre ne tient compte que de deux
valeurs, qui pourraient induire en erreur quant à la distribution des données.

3.2 Intervalle et écart interquartile


Les quartiles d’une série d’observations sont les valeurs Q1, Q2, Q3 du
caractère observé telles que, les observations étant rangées par ordre crois-
sant :
• un quart des observation soient inférieures à Q1
• un quart des observation soient comprises entre Q1 et Q2
• un quart des observation soient comprises entre Q2 et Q3
• un quart des observation soient supérieures à Q3

100% 100% 100%

75% 75% 75%

50% 50% 50%

25% 25% 25%

Q1 Q2 Q3 Q1 Q2 Q3 Q1 Q2 Q3

Les quartiles peuvent être déterminés à partir du diagramme des fré-


quences cumulées. Le diagramme en boîte permet de situer la médiane dans
l’intervalle entre Q1 et Q3, appelé intervalle interquartile.

3.3 La variance et l’écart type


La variance σ 2 d’une série de n observations x1 , x2 , x3 , ..., xn est la moyenne
arithmétique des carrés des écarts de ces observations à leur moyenne arith-

Friob · Math 4 · Statistique Page 5


métique. C’est le carré des écarts qui est utilisé afin de n’avoir que des contri-
butions positives (elles ne peuvent s’annuler entres elles) et d’accorder une
plas grande importance aux valeurs les plus éloignées de la moyenne. L’écart
type σ est la racine carrée de la variance et s’exprime dans les mêmes unités
que la moyenne.
n
X (xi − x̄)2
σ̄ 2 = (2)
n
i=1

Friob · Math 4 · Statistique Page 6


4 Ressources
Khan Academy [5] en version française
Alloprof [1] est un site scolaire québecois
Micmaths [6] c’est la chaine YouTube de Mikaël Launay
L’office national de statistique [10] de Belgique
Desmos [2] alternative (moins développée) à Geogebra
Wikipedia [11] toujours utile pour démarrer
Le Lycée Michel-Rodange [7] met à disposition un grand nombre
d’exercices corrigés
Le Lycée d’adultes [8, 9] de la Ville de Paris, ressources en libre accès
Manuel approuvé par la Ville de Bruxelles [4]
Clipedia [3] sur une initiative de l’ULB un ensemble de clips dédiés à
l’enseignement des sciences

Friob · Math 4 · Statistique Page 7


Références
[1] Alloprof. url : http://www.alloprof.qc.ca/bv/pages/m1298.aspx.
[2] Desmos. url : https://www.desmos.com/calculator.
[3] Marc Haelterman et Olivier Decroly. Clipedia. ULB. url : https:
//www.youtube.com/channel/UCNwWU1hqK3q-DclufllWCfg.
[4] Van In. CQFD Math. Livre de référence. 2017. url : http://www.
vanin.be/fr/enseignement-secondaire/mathematiques/cqfd.
[5] Khan Academy. url : https://fr.khanacademy.org/math/linear-
algebra/vectors-and-spaces.
[6] Mickaël Launay. Chaine YouTube. url : https://www.youtube.com/
user/Micmaths.
[7] Gérard Lorang. Lycée Michel Rodange. url : http://mathematiques.
lmrl.lu/.
[8] Paul Milan. Lycée d’adultes de la Ville de Paris. url : https://www.
lyceedadultes.fr/sitepedagogique/pages/math2S.html.
[9] Paul Milan. Lycée d’adultes de la Ville de Paris. url : https://www.
lyceedadultes.fr/sitepedagogique/pages/math1S.html.
[10] Statistics Belgium. Statistiques nationales officielles de la Belgique.
url : http://statbel.fgov.be/fr/statistiques/chiffres/.
[11] Wikipedia. url : https://fr.wikipedia.org/wiki/Vecteur.

Friob · Math 4 · Statistique Page 8

Vous aimerez peut-être aussi