Académique Documents
Professionnel Documents
Culture Documents
Boumahdi Abderrazak
2022 / 2023
0 / 16
Introduction Série statistique associée à un échantillon Représentation graphique Indicateurs de position Indicateurs de dispersion
Introduction
La statistique descriptive regroupe les méthodes dont l’objectif principal est la description
des données étudiées (résumer, ordonner, présenter et analyser de façon claire). Cette
description se fait à travers la présentation, la représentation graphique et le calcul de
résumés numériques.
1 / 16
Rappel
Population : Ensemble des personnes, objets ou éléments sur lesquels on veut effectuer
l’étude.
Individu : Chacun des éléments de la population (unité statistique).
Échantillon : Groupe restreint d’individus prélevés dans la population définie au
préalable.
Exemple :
On veut étudier le poids de 100 enfants âgés de 1 à 5 ans.
Population : les enfants âgés de 1 à 5 ans.
Individu : chaque enfant âgés de 1 à 5 ans.
Échantillon : les 100 enfants âgés de 1 à 5 ans.
Caractère (ou variable) : Caractéristique relative à chacun. des individus. Il est soit
observé soit mesuré. On le note souvent par X, Y, ...
Exemple : Le poids des enfants âgés de 1 à 5 ans, Le revenu mensuel des salariés d’une
entreprise , ..
2 / 16
Série statistique : On appelle série statistique la suite des valeurs prises par une variable
X sur les unités d’observations.
Le nombre d’unités d’observation est noté n.
Les valeurs de la variable X sont notées : x1 , x2 , .., xn .
Effectif : L’effectif d’une modalité xi , noté ni , est le nombre d’individus présentant cette
modalité.
L’effectif total, noté N, est le nombre total des individus de la population (appelé aussi
taille de la population). N = ∑ki=1 ni .
Effectif cumulé : L’effectif cumulé d’une modalité xi , noté Ni , est le nombre d’individus
de la population pour lesquels la valeur du caractère est inférieure ou égale à xi :
Ni = ∑ij=1 nj .
4 / 16
En général, on peut considérer une série statistiques comme une liste ou un tableau de
données, par exemple :
1 s = [1 ,4 ,4 ,2 ,5 ,5 ,5 ,6 ,1 ,0 ,1 ,2 ,1 ,2]
Le module Pandas de Python permet de créer et étudier plusieurs types de séries
statistiques à partir de plusieurs sources.
Importation :
1 import pandas as pd
Création d’une série statistique :
1 s = pd . Series ( s )
5 / 16
Représentation graphique
6 / 16
Travail à faire
Soit les observations suivantes concernant le nombre d’enfants par famille Dans un
quartier composé de 50 familles :
1 0 5 2 2 1 2 1 2 4
4 7 1 3 2 5 4 6 3 1
1 6 1 3 8 1 3 5 2 3
3 0 3 4 6 4 1 7 2 0
2 0 1 2 2 3 2 5 6 2
Indicateurs de position
Le mode : Le mode est la valeur distincte correspondant à l’effectif le plus élevé ; on
peut la noter xM .
Par exemple, dans l’exercice précédent sur le nombre d’enfants par famille, le mode
de cette série est : xM = 2
Remarques :
Le mode n’est pas nécessairement unique.
Pour une variable continue, on parle de la classe modale (classe correspondant à l’effectif
le plus élevé).
On peut calculer le mode avec Pandas :
1 p = [1 , 0 , 5 , 2 , 2 , 1 , 2 , 1 , 2 , 4 , 4 , 7 , 1 , 3 , 2 , 5 , 4 , 6 ,
3, 1, 1, 6, 1, 3, 8, 1, 3, 5, 2, 3, 3, 0,
2 3 , 4 , 6 , 4 , 1 , 7 , 2 , 0 , 2 , 0 , 1 , 2 , 2 , 3 , 2 , 5 , 6 , 2]
3 p = pd . Series ( p )
4 p . mode ()
2 8 / 16
Indicateurs de position
La moyenne : La moyenne est la somme des valeurs observées divisée par leur
nombre, elle est généralement notée x.
x1 + x2 + .. + xn 1 n
x= = ∑ xi
n n i=1
Ou bien à l’aide des valeurs des effectifs :
1 J
n j∑
x= nj xj
=1
Indicateurs de position
La médiane : La médiane, notée x1/2 , est une valeur centrale de la série statistique
(divise la série en deux). Elle est obtenue de la manière suivante :
Trier la série statistique par ordre croissant.
La médiane x1/2 est la valeur qui se trouve au milieu de la série ordonnée.
Exemple 1 : Soit la série statistiques : 3 2 2 0 0 1 2
On a : 0 0 1 2 2 2 3. Donc la médiane est x1/2 = 2.
Exemple 2 : Soit la série statistiques : 4 0 1 1 0 2 2 3
On a : 0 0 1 1 2 2 3 4. Donc la médiane est x1/2 = 1+2 2 = 1.5.
1 p = pd . Series ([4 ,0 ,1 ,1 ,0 ,2 ,2 ,3])
2 p . median ()
1.5
10 / 16
Indicateurs de position
Les quantiles : La notion de quantile d’ordre p généralise la médiane. La médiane est
d’ordre 1/2 puisqu’elle divise la série en deux parties. On d’autres quantiles :
Quartiles : d’ordre 1/4
Déciles : d’ordre 1/10
Percentile : d’ordre 1/100
..
Exemple : Soit la série : 12, 13, 15, 16, 18, 19, 22, 24, 25, 27, 28, 34.
Le premier quartile est x1/4 = 15+2 16 = 15.5
Le deuxième quartile (la médiane) est x2/4 = x1/2 = 19+2 22 = 20.5
Le troisième quartile est x3/4 = 25+2 27 = 26
1 p = pd . Series ([12 ,13 ,15 ,16 ,18 ,19 ,22 ,24 ,25 ,27 ,28 ,34])
2 p . quantile (0.25)
3 p . quantile (0.5)
4 p . quantile (0.75)
11 / 16
Indicateurs de position
Remarque : On peut voir graphiquement les quartiles avec les positions des observations
en traçant le boxplot.
1 import pandas as pd
2 import matplotlib . pyplot as plt
3 p = pd . Series ([12 ,13 ,15 ,16 ,18 ,19 ,22 ,24 ,25 ,27 ,28 ,34])
4 plt . boxplot ( p )
12 / 16
Indicateurs de dispersion
L’étendue : L’étendue est la différence entre la plus grande et la plus petite valeur
observée.
E = max(xi ) − min(xi )
La distance interquartile : est la différence entre le troisième et le premier quartile.
IQ = x3/4 − x1/4
Exemple : Soit la série S : 12, 13, 15, 16, 18, 19, 22, 24, 25, 27, 28, 34.
L’étendue : E = max(S) − min(S) = 34 − 12 = 24
La distance interquartile : IQ = x3/4 − x1/4 = 26 − 15.5 = 10.5
13 / 16
Indicateurs de dispersion
La variance : La variance est la somme des carrés des écarts à la moyenne divisée par
le nombre d’observations (la moyenne des carrés des écarts).
1 n
n i∑
V (X ) = (xi − x)2
=1
Remarque : La variance peut aussi s’écrire sous la forme (la moyenne des carrés
moins le carré de la moyenne) :
1 n 2
n i∑
V (X ) = xi − x2
=1
Indicateurs de dispersion
15 / 16
Travail pratique
On reprend l’exercice sur le nombre d’enfants par famille :
1 0 5 2 2 1 2 1 2 4
4 7 1 3 2 5 4 6 3 1
1 6 1 3 8 1 3 5 2 3
3 0 3 4 6 4 1 7 2 0
2 0 1 2 2 3 2 5 6 2
Donner le mode, la médiane et les quartiles.
Créer cette série avec Pandas.
Tracer l’histogramme et le boxplot.
Écrire une fonction moyenne(S) qui calcule la moyenne de la série S.
Écrire deux fonctions etendue(S) et IQ(S) qui donnent l’étendue et la distance
interquartile de la série S.
Écrire une fonction variance(S) qui calcule la variance de la série S. Comparer le
résultat avec celui de la fonction prédéfinie pd.var(). Que remarquez vous ?
16 / 16