Vous êtes sur la page 1sur 5

Cours et Exercices de Statistique

Descriptive

Auteur: Rassaa Eya

La Licence Créative Commons associée à ce cours est :


Statistique Descriptive pour une variable
Définition

Les méthodes d’étude statistique ont aujourd’hui envahi bien d’autres domaines d’étude, en
sciences humaines comme en sciences dures, avec de nombreuses applications scientifiques et
technologiques (infrastructures, médecine, organisation militaire, commerce…) L’exportation de
données (data mining) représente même un enjeu économique majeur du début du XXIe siècle,
avec le succès des réseaux sociaux.

Variables et séries statistiques


Une série statistique est une liste finie de données dont les valeurs appartenant à un même
ensemble. Ces valeurs peuvent être simples (à une variable) ou composées (à plusieurs variables),
comme par exemple la donnée simultanée du nom, du genre, de la date de naissance et de la taille
pour une liste d’individus. On distingue en général les variables quantitatives et qualitatives.
Une variable quantitative a des valeurs numériques, dans un ensemble d’entiers(variable discrète) ou
dans un intervalle réel (variable continue). Les variables discrètes proviennent essentiellement de
dénombrement, tandis que les variables continues représentent des grandeurs physiques ou
économiques exprimées avec une unité, ou de positions calculées dans un repère. On exclut des
variables quantitatives celles dont les valeurs s’expriment en chiffres mais ne représentent pas des
grandeurs significatives (code postal, numéro de salle, identifiant INSEE).
On appelle variable qualitative toute autre variable. Une telle variable est dite ordinale si son
ensemble de valeurs est muni d’un ordre total significatif (date de naissance, rang, mention au bac,
niveau d’étude) et nominale dans le cas contraire (nom, genre, couleur des yeux, groupe sanguin,
orientation politique…)
Les valeurs sont aussi appelées modalités et peuvent éventuellement regroupées
en classes disjointes. Cependant, la pertinence du regroupement pour une variable qualitative doit
s’appuyer sur une analyse qui sort du cadre des mathématiques.

Indicateurs statistiques
On définit quelques indicateurs qui permettent de produire des diagrammes actifs

Effectifs, fréquences et mode


Pour une série statistique fixée, l’effectif d’une valeur ou d’une classe est le nombre de termes
associés dans la série. On note souvent (x1, …, xq) la liste des valeurs ou des classes et (n1, …, nq) la
liste des effectifs associés.
L’effectif total est le nombre de termes de la série, c’est-à-dire la somme des effectifs : N = ∑i=1q ni.
La fréquence d’une valeur ou d’une classe est le quotient de l’effectif associé par l’effectif
total fi = ni/N.
En particulier, toute fréquence appartient à l’intervalle [0 ; 1] et on trouve ∑i=1q fi = 1.
Les fréquences sont souvent données sous forme de pourcentage, avec pour tout p ∈ [0 ; 100], p %
= p/100
La donnée des seules fréquences associées aux différentes valeurs est appelée répartition statistique.
On dit qu’une valeur est un mode si l’effectif associé est maximal (c’est-à-dire si la fréquence
associée est maximale). Il peut y avoir plusieurs modes si plusieurs valeurs sont associés à la
fréquence maximale. On parle plutôt de classe modale si les valeurs ont été regroupées en classes.
On définit alors la valeur médiane Me comme étant la première valeur pour laquelle la fréquence
cumulée dépasse 0,5.
Plus généralement, on définit le quantile associé à une proportion p comme la plus
petite valeur associée à une fréquence cumulée supérieure ou égale à p. En particulier, le premier
quartile Q1 et le troisième ou dernier quartile Q3 sont les quantiles associés aux proportions
0,25 et 0,75. Les déciles Di sont les quantiles associés aux dixièmes et les centiles Ci sont les quantiles
associés aux centièmes.
Le minimum et le maximum sont les quantiles associés aux proportions 0 et 1.

Pour une variable quantitative discrète


La moyenne d’une variable quantitative discrète s’écrit 𝑋 = 𝑥𝑖 𝑓𝑖
La variance de la série est la moyenne des carrés des écarts à la moyenne, autrement dit 𝑉 =
𝑥𝑖2 𝑓𝑖 − 𝑋 2
On modifie aussi légèrement la définition des quantiles dans le cas où une fréquence cumulée est
exactement de la proportion p voulue : on relève la première valeur associée à une fréquence
cumulée de p et la première valeur associée à une fréquence cumulée strictement supérieure à p et
on définit le quantile comme la moyenne de ces deux valeurs.

Pour une variable quantitative continue


Lorsque les valeurs sont classées dans des intervalles réels, on calcule la densité d’un
intervalle [a, b[ associée à un effectif n en posant d = n/b−a. La classe modale est alors redéfinie
comme la classe qui a la plus forte densité.
La moyenne se calcule comme pour une série statistique discrète en remplaçant chaque
intervalle [a, b[ par sa valeur centrale d = a+b/2.
Les quantiles se calculent au prorata à l’intérieur de chaque intervalle. Si un intervalle [a, b[ a pour
fréquence f et pour fréquence cumulée fc avec fc − f < t < fc, alors le quantile associé à la
proportion t s’écrit qt = b − fc−t/f (b − a).
Exercices
DESCRIPTIVE STATISTICS
Class Time:

Names:

Student Learning Outcomes

 The student will construct a histogram and a box plot.


 The student will calculate univariate statistics.
 The student will examine the graphs to interpret what the data implies.
Collect the DataRecord the number of pairs of shoes you own.
1. Randomly survey 30 classmates about the number of pairs of shoes they own. Record their
values.
2. Construct a histogram. Make five to six intervals. Sketch the graph using a ruler and pencil and
scale the axes.

3. Calculate the following values.


1. \displaystyle \overline{x}
2. s = _____
4. Are the data discrete or continuous? How do you know?
5. In complete sentences, describe the shape of the histogram.
6. Are there any potential outliers? List the value(s) that could be outliers. Use a formula to
check the end values to determine if they are potential outliers.
Analyze the Data

1. Determine the following values.


1. Min = _____
2. M = _____
3. Max = _____
4. Q1 = _____
5. Q3 = _____
6. IQR = _____
2. Construct a box plot of data
3. What does the shape of the box plot imply about the concentration of data? Use complete
sentences.
4. Using the box plot, how can you determine if there are potential outliers?
5. How does the standard deviation help you to determine concentration of the data and
whether or not there are potential outliers?
6. What does the IQR represent in this problem?
7. Show your work to find the value that is 1.5 standard deviations:
1. above the mean.
2. below the mean.
Ce document est composée deux REL combinées:

 La première consiste en un cours de statistique descriptive.


Lien de la ressource: http://boilley.ovh/cours/statistique-descriptive.html
Auteur: C. Boilley, lycée Châtelet de Douai, 24 novembre 2016

Licence Créative Commons associée:


http://creativecommons.org/licenses/by-sa/3.0/deed.fr

 La seconde consiste en des exercices d'application de statistique descriptive


Lien de la ressource: https://www.oercommons.org/courses/introduction-to-
statistics-3/view
Auteur: Lumen Learning, OpenStax

Licence Créative Commons associée:

http://creativecommons.org/licenses/by/4.0/