Vous êtes sur la page 1sur 17

Statistiques descriptives et analyse de données

Boumahdi Abderrazak

CPGE Omar Al-khayam


Rabat

Première année ECT

2022 / 2023

0 / 16
Introduction Série statistique associée à un échantillon Représentation graphique Indicateurs de position Indicateurs de dispersion

Introduction

La statistique est l’ensemble des méthodes permettant d’analyser des ensembles


d’observations (de données).

La statistique s’applique à la plupart des disciplines : agronomie, biologie, démographie,


économie, sociologie, linguistique, psychologie, ..

La statistique descriptive regroupe les méthodes dont l’objectif principal est la description
des données étudiées (résumer, ordonner, présenter et analyser de façon claire). Cette
description se fait à travers la présentation, la représentation graphique et le calcul de
résumés numériques.

Comment peut-on appliquer les notions de bases de statistiques descriptives en utilisant


les outils de programmation ? Comment peut-on présenter, visualiser et interpréter des
études statistiques ?

1 / 16

CPGE Omar Al-khayam


Statistiques descriptives et analyse de données
Introduction Série statistique associée à un échantillon Représentation graphique Indicateurs de position Indicateurs de dispersion

Rappel
Population : Ensemble des personnes, objets ou éléments sur lesquels on veut effectuer
l’étude.
Individu : Chacun des éléments de la population (unité statistique).
Échantillon : Groupe restreint d’individus prélevés dans la population définie au
préalable.
Exemple :
On veut étudier le poids de 100 enfants âgés de 1 à 5 ans.
Population : les enfants âgés de 1 à 5 ans.
Individu : chaque enfant âgés de 1 à 5 ans.
Échantillon : les 100 enfants âgés de 1 à 5 ans.

Caractère (ou variable) : Caractéristique relative à chacun. des individus. Il est soit
observé soit mesuré. On le note souvent par X, Y, ...
Exemple : Le poids des enfants âgés de 1 à 5 ans, Le revenu mensuel des salariés d’une
entreprise , ..
2 / 16

CPGE Omar Al-khayam


Statistiques descriptives et analyse de données
Introduction Série statistique associée à un échantillon Représentation graphique Indicateurs de position Indicateurs de dispersion

Série statistique : On appelle série statistique la suite des valeurs prises par une variable
X sur les unités d’observations.
Le nombre d’unités d’observation est noté n.
Les valeurs de la variable X sont notées : x1 , x2 , .., xn .

Modalités : Ce sont les différentes valeurs distinctes prises par le caractère.

On distingue deux types de caractère :


Caractère qualitatif : C’est un caractère non mesurable. Les modalités ne sont pas des
valeurs numériques.
Ordinal : les modalités peuvent être ordonnées (niveau, mention,..).
Nominal : les modalités ne peuvent pas être ordonnées (nationalité, groupe sanguin,..)
Caractère quantitatif : C’est un caractère mesurable. Les modalités sont toutes des
valeurs numériques.
Discret : L’ensemble des valeurs possibles est dénombrable (nombre d’enfants, .. )
Continu : L’ensemble des valeurs possibles est continu (taille, poids, salaire,..)
3 / 16

CPGE Omar Al-khayam


Statistiques descriptives et analyse de données
Introduction Série statistique associée à un échantillon Représentation graphique Indicateurs de position Indicateurs de dispersion

Effectif : L’effectif d’une modalité xi , noté ni , est le nombre d’individus présentant cette
modalité.
L’effectif total, noté N, est le nombre total des individus de la population (appelé aussi
taille de la population). N = ∑ki=1 ni .

fréquence (ou proportion) : La fréquence d’une modalité xi , notée fi , est le rapport


fi = nNi . La fréquence fi appartient à l’intervalle [0, 1]. Parfois, on note les fréquences en
pourcentage (avec le symbole %) en les multipliant par 100.

Effectif cumulé : L’effectif cumulé d’une modalité xi , noté Ni , est le nombre d’individus
de la population pour lesquels la valeur du caractère est inférieure ou égale à xi :
Ni = ∑ij=1 nj .

Fréquence cumulée : La fréquence cumulée d’une modalité xi , notée Fi , est la proportion


d’individus pour lesquels la valeur du caractère est inférieure ou égale à xi : Fi = ∑ij=1 fj .

4 / 16

CPGE Omar Al-khayam


Statistiques descriptives et analyse de données
Introduction Série statistique associée à un échantillon Représentation graphique Indicateurs de position Indicateurs de dispersion

Création d’une série statistiques avec Python

En général, on peut considérer une série statistiques comme une liste ou un tableau de
données, par exemple :
1 s = [1 ,4 ,4 ,2 ,5 ,5 ,5 ,6 ,1 ,0 ,1 ,2 ,1 ,2]
Le module Pandas de Python permet de créer et étudier plusieurs types de séries
statistiques à partir de plusieurs sources.
Importation :
1 import pandas as pd
Création d’une série statistique :
1 s = pd . Series ( s )

5 / 16

CPGE Omar Al-khayam


Statistiques descriptives et analyse de données
Introduction Série statistique associée à un échantillon Représentation graphique Indicateurs de position Indicateurs de dispersion

Représentation graphique

A l’aide du module matplotlib, on peut représenter graphiquement une série statistique


(diagramme en batons, histogramme ) avec les méthodes :
1 plt . hist ( s )
2 plt . boxplot ( s )
3 plt . bar ( modalite , effectif )

6 / 16

CPGE Omar Al-khayam


Statistiques descriptives et analyse de données
Introduction Série statistique associée à un échantillon Représentation graphique Indicateurs de position Indicateurs de dispersion

Travail à faire
Soit les observations suivantes concernant le nombre d’enfants par famille Dans un
quartier composé de 50 familles :
1 0 5 2 2 1 2 1 2 4
4 7 1 3 2 5 4 6 3 1
1 6 1 3 8 1 3 5 2 3
3 0 3 4 6 4 1 7 2 0
2 0 1 2 2 3 2 5 6 2

Indiquer la population, individu, caractère, modalité, ..


Calculer l’effectif, effectif cumulé, fréquence, fréquence cumulé ,..
Représenter cette série sous forme d’un tableau.
Créer cette série statistiques avec Pandas.
Recalculer les mesures précédentes avec Python.
Représenter graphiquement cette série.
7 / 16

CPGE Omar Al-khayam


Statistiques descriptives et analyse de données
Introduction Série statistique associée à un échantillon Représentation graphique Indicateurs de position Indicateurs de dispersion

Indicateurs de position
Le mode : Le mode est la valeur distincte correspondant à l’effectif le plus élevé ; on
peut la noter xM .
Par exemple, dans l’exercice précédent sur le nombre d’enfants par famille, le mode
de cette série est : xM = 2
Remarques :
Le mode n’est pas nécessairement unique.
Pour une variable continue, on parle de la classe modale (classe correspondant à l’effectif
le plus élevé).
On peut calculer le mode avec Pandas :
1 p = [1 , 0 , 5 , 2 , 2 , 1 , 2 , 1 , 2 , 4 , 4 , 7 , 1 , 3 , 2 , 5 , 4 , 6 ,
3, 1, 1, 6, 1, 3, 8, 1, 3, 5, 2, 3, 3, 0,
2 3 , 4 , 6 , 4 , 1 , 7 , 2 , 0 , 2 , 0 , 1 , 2 , 2 , 3 , 2 , 5 , 6 , 2]
3 p = pd . Series ( p )
4 p . mode ()
2 8 / 16

CPGE Omar Al-khayam


Statistiques descriptives et analyse de données
Introduction Série statistique associée à un échantillon Représentation graphique Indicateurs de position Indicateurs de dispersion

Indicateurs de position
La moyenne : La moyenne est la somme des valeurs observées divisée par leur
nombre, elle est généralement notée x.
x1 + x2 + .. + xn 1 n
x= = ∑ xi
n n i=1
Ou bien à l’aide des valeurs des effectifs :
1 J
n j∑
x= nj xj
=1

Avec J est le nombre de modalités, nj est l’effectif de la modalité xj .


Exemple : Pour l’exercice précédent, on a :
0 × 4 + 1 × 10 + 2 × 12 + 3 × 8 + 4 × 12 + 5 × 5 + 6 × 4 + 7 × 2 + 8 × 1
x= = 2.88
50
1 p . mean ()
9 / 16

2.88 CPGE Omar Al-khayam


Statistiques descriptives et analyse de données
Introduction Série statistique associée à un échantillon Représentation graphique Indicateurs de position Indicateurs de dispersion

Indicateurs de position

La médiane : La médiane, notée x1/2 , est une valeur centrale de la série statistique
(divise la série en deux). Elle est obtenue de la manière suivante :
Trier la série statistique par ordre croissant.
La médiane x1/2 est la valeur qui se trouve au milieu de la série ordonnée.
Exemple 1 : Soit la série statistiques : 3 2 2 0 0 1 2
On a : 0 0 1 2 2 2 3. Donc la médiane est x1/2 = 2.
Exemple 2 : Soit la série statistiques : 4 0 1 1 0 2 2 3
On a : 0 0 1 1 2 2 3 4. Donc la médiane est x1/2 = 1+2 2 = 1.5.
1 p = pd . Series ([4 ,0 ,1 ,1 ,0 ,2 ,2 ,3])
2 p . median ()
1.5

10 / 16

CPGE Omar Al-khayam


Statistiques descriptives et analyse de données
Introduction Série statistique associée à un échantillon Représentation graphique Indicateurs de position Indicateurs de dispersion

Indicateurs de position
Les quantiles : La notion de quantile d’ordre p généralise la médiane. La médiane est
d’ordre 1/2 puisqu’elle divise la série en deux parties. On d’autres quantiles :
Quartiles : d’ordre 1/4
Déciles : d’ordre 1/10
Percentile : d’ordre 1/100
..
Exemple : Soit la série : 12, 13, 15, 16, 18, 19, 22, 24, 25, 27, 28, 34.
Le premier quartile est x1/4 = 15+2 16 = 15.5
Le deuxième quartile (la médiane) est x2/4 = x1/2 = 19+2 22 = 20.5
Le troisième quartile est x3/4 = 25+2 27 = 26
1 p = pd . Series ([12 ,13 ,15 ,16 ,18 ,19 ,22 ,24 ,25 ,27 ,28 ,34])
2 p . quantile (0.25)
3 p . quantile (0.5)
4 p . quantile (0.75)
11 / 16

CPGE Omar Al-khayam


Statistiques descriptives et analyse de données
Introduction Série statistique associée à un échantillon Représentation graphique Indicateurs de position Indicateurs de dispersion

Indicateurs de position
Remarque : On peut voir graphiquement les quartiles avec les positions des observations
en traçant le boxplot.
1 import pandas as pd
2 import matplotlib . pyplot as plt
3 p = pd . Series ([12 ,13 ,15 ,16 ,18 ,19 ,22 ,24 ,25 ,27 ,28 ,34])
4 plt . boxplot ( p )

12 / 16

CPGE Omar Al-khayam


Statistiques descriptives et analyse de données
Introduction Série statistique associée à un échantillon Représentation graphique Indicateurs de position Indicateurs de dispersion

Indicateurs de dispersion

L’étendue : L’étendue est la différence entre la plus grande et la plus petite valeur
observée.

E = max(xi ) − min(xi )
La distance interquartile : est la différence entre le troisième et le premier quartile.

IQ = x3/4 − x1/4

Exemple : Soit la série S : 12, 13, 15, 16, 18, 19, 22, 24, 25, 27, 28, 34.
L’étendue : E = max(S) − min(S) = 34 − 12 = 24
La distance interquartile : IQ = x3/4 − x1/4 = 26 − 15.5 = 10.5

13 / 16

CPGE Omar Al-khayam


Statistiques descriptives et analyse de données
Introduction Série statistique associée à un échantillon Représentation graphique Indicateurs de position Indicateurs de dispersion

Indicateurs de dispersion
La variance : La variance est la somme des carrés des écarts à la moyenne divisée par
le nombre d’observations (la moyenne des carrés des écarts).

1 n
n i∑
V (X ) = (xi − x)2
=1

Remarque : La variance peut aussi s’écrire sous la forme (la moyenne des carrés
moins le carré de la moyenne) :

1 n 2
n i∑
V (X ) = xi − x2
=1

Écart-type : L’écart-type est la racine carrée de la variance.


q
σ (X ) = V (X )
14 / 16

CPGE Omar Al-khayam


Statistiques descriptives et analyse de données
Introduction Série statistique associée à un échantillon Représentation graphique Indicateurs de position Indicateurs de dispersion

Indicateurs de dispersion

Exemple : Soit la série statistique suivante : 2 3 4 4 5 6 7 9.


Calculer la variance par deux méthodes, puis l’écart-type.
2+3+4+4+5+6+7+9
x= =5
8
1 n
n i∑
V (X ) = (xi − x)2
=1
1
= [(2 − 5)2 + (3 − 5)2 + (4 − 5)2 + (4 − 5)2 + (5 − 5)2 + (6 − 5)2 + (7 − 5)2 + (9 − 5)2 ] = 4.5
8
1 n 2 1
V (X ) = ∑
n i=1
xi − x2 = (22 + 32 + 42 + 42 + 52 + 62 + 72 + 92 ) − 52 = 4.5
8

15 / 16

CPGE Omar Al-khayam


Statistiques descriptives et analyse de données
Introduction Série statistique associée à un échantillon Représentation graphique Indicateurs de position Indicateurs de dispersion

Travail pratique
On reprend l’exercice sur le nombre d’enfants par famille :
1 0 5 2 2 1 2 1 2 4
4 7 1 3 2 5 4 6 3 1
1 6 1 3 8 1 3 5 2 3
3 0 3 4 6 4 1 7 2 0
2 0 1 2 2 3 2 5 6 2
Donner le mode, la médiane et les quartiles.
Créer cette série avec Pandas.
Tracer l’histogramme et le boxplot.
Écrire une fonction moyenne(S) qui calcule la moyenne de la série S.
Écrire deux fonctions etendue(S) et IQ(S) qui donnent l’étendue et la distance
interquartile de la série S.
Écrire une fonction variance(S) qui calcule la variance de la série S. Comparer le
résultat avec celui de la fonction prédéfinie pd.var(). Que remarquez vous ?
16 / 16

CPGE Omar Al-khayam


Statistiques descriptives et analyse de données

Vous aimerez peut-être aussi