Vous êtes sur la page 1sur 61

Statistiques descriptives

Fabien Feschet

Université d’Auvergne

2014-2015

Certaines représentations graphiques sont tirées de wikipédia

Fabien Feschet (Université d’Auvergne) Statistiques descriptives 2014-2015 1 / 61


Contexte

Module M1205 - Objectifs


Acquérir les compétences nécessaires pour collecter, organiser,
représenter, résumer, interpréter des données ;
Modéliser et traduire en langage mathématique une situation
économique et de gestion ;
Savoir choisir et mettre en oeuvre les outils mathématiques adaptés.

Module M1205 - Compétences


Choisir et réaliser une représentation graphique des données
statistiques ;
Déterminer les paramètres statistiques d’une distribution à une
variable et commenter leur signification ;
Choisir et réaliser un ajustement entre deux variables statistiques.

Fabien Feschet (Université d’Auvergne) Statistiques descriptives 2014-2015 2 / 61


Contexte

Module M1205 - Contenus


Séries statistiques à une variable (représentation, caractéristiques de
position et de dispersion) ;
Séries statistiques à deux variables (représentation, ajustement
linéaire, exponentiel, logarithmique, puissance) ;
Séries chronologiques.

Module M1205 - Mise en oeuvre


L’utilisation d’un tableur ou de logiciels statistiques est recommandée
quand elle est possible ;
Modélisation de situations concrètes.

Fabien Feschet (Université d’Auvergne) Statistiques descriptives 2014-2015 3 / 61


Contexte

Module M1205 - Répartition


Cours : 2h ;
Travaux dirigés : 3 fois 2h ;
Travaux pratiques : 3 fois 2h.

Module M1205 - Evaluation


Pas d’examen en amphi ;
Les travaux dirigés préparent les travaux pratiques ;
les travaux pratiques sont rendus et notés.

Fabien Feschet (Université d’Auvergne) Statistiques descriptives 2014-2015 4 / 61


Introduction

Statistiques
L’objet de la statistique descriptive est de décrire des faits constatés à
partir de mesures.
La statistique inférentielle basée sur le calcul des probabilités étudie le
comportement à l’infini des expériences.
La théorie des tests permet de vérifier que la probabilité d’hypothèses
exprimées est suffisamment élevée pour les considérer comme crédibles.

Fabien Feschet (Université d’Auvergne) Statistiques descriptives 2014-2015 5 / 61


Vocabulaire

Usuellement..
Population (ou Univers) : tous les éléments ou objets possibles
d’une étude statistique ;
Echantillon : ensemble des éléments ou objets présents dans l’étude
statistique – sous-ensemble de la population ;
Individu : l’individu statistique est un des éléments ou objets de
l’étude statistique ;

Fabien Feschet (Université d’Auvergne) Statistiques descriptives 2014-2015 6 / 61


Vocabulaire

...Usuellement
Variable (ou Caractère) : toute propriété constatée ou mesurée sur
la population d’étude est appelée une variable statistique ; Un
caractère est soit quantitatif, soit qualitatif, soit ordinal ;
Modalité : toutes les valeurs possibles d’une variable sont appelées
modalités du caractère ;
Domaine : pour une variable donnée, l’ensemble de toutes ses
modalités est appelé domaine de la variable ;
Effectif : l’effectif de la population (ou de l’échantillon) est le nombre
d’individu qu’elle (il) contient.

Fabien Feschet (Université d’Auvergne) Statistiques descriptives 2014-2015 7 / 61


Principe

Usage...
Les données d’une étude statistique sont toujours représentées par un
tableau de données ayant deux dimensions.
En ligne, on trouve les individus.
En colonne, on trouve les variables.

Fabien Feschet (Université d’Auvergne) Statistiques descriptives 2014-2015 8 / 61


Principe

Fabien Feschet (Université d’Auvergne) Statistiques descriptives 2014-2015 9 / 61


Description des données

Principe
Un échantillon sera représenté par des indicateurs statistiques quantitatifs
ayant pour objectif de décrire (résumer) la structure de l’échantillon étudié.

Indicateurs pertinents
On distingue usuellement deux indicateurs statistiques : ceux de tendance
centrale / position et ceux de dispersion.

Fabien Feschet (Université d’Auvergne) Statistiques descriptives 2014-2015 10 / 61


Résumés statistiques

Fabien Feschet (Université d’Auvergne) Statistiques descriptives 2014-2015 11 / 61


Descriptions des données

Echantillon
La fréquence d’apparition de chaque modalité est le nombre d’individus
qui comportent la modalité.

Classes
Si la variable a été découpé en classes (intervalles de valeur), on procède
de la même manière mais le centre de classe est usuellement choisi comme
représentant de la classe.

Fabien Feschet (Université d’Auvergne) Statistiques descriptives 2014-2015 12 / 61


Formulation

Fréquence empirique
Nombre d’occurences de l’individu
fréquence =
Nombres d’individu dans l’échantillon
Si xi sont les modalités de la variable X , on notera la fréquence
usuellement fi .

Fabien Feschet (Université d’Auvergne) Statistiques descriptives 2014-2015 13 / 61


Représentation graphique

Variable Qualitative

Fabien Feschet (Université d’Auvergne) Statistiques descriptives 2014-2015 14 / 61


Représentation graphique

Variable Quantitative discrète

Fabien Feschet (Université d’Auvergne) Statistiques descriptives 2014-2015 15 / 61


Représentation graphique

Variable Quantitative continue


On ne représente que très rarement une variable quantitative continue.
Usuellement : représentation d’un découpage en classes, l’histogramme.

Fabien Feschet (Université d’Auvergne) Statistiques descriptives 2014-2015 16 / 61


Histogramme

Définitions
l’amplitude d’une classe : étendue des valeurs couvertes par la classe,
notée ai pour la classe i.
On appelle fréquence moyenne par unité d’amplitude, le rapport afii où fi
est la fréquence de la classe i.

Fabien Feschet (Université d’Auvergne) Statistiques descriptives 2014-2015 17 / 61


Représentation graphique

Histogramme

Fabien Feschet (Université d’Auvergne) Statistiques descriptives 2014-2015 18 / 61


Représentation graphique

Cumul
Lorsque l’on possède une variable continue, on définit la fonction
cumulative F (x) comme étant la proportion des individus de la population
dont le caractère est inférieur à x.
La fonction cumulative est une fonction monotone croissante.

Fabien Feschet (Université d’Auvergne) Statistiques descriptives 2014-2015 19 / 61


Tendance centrale

Médiane
La médiane d’une variable statistique est la modalité de cette variable qui
partage les individus de l’échantillon, supposés classés par ordre croissant,
en deux parties d’effectifs égaux.
Elle peut aussi se définir comme la modalité pour laquelle la courbe
cumulée atteint 21 .

Fabien Feschet (Université d’Auvergne) Statistiques descriptives 2014-2015 20 / 61


Tendance centrale

Mode
Mode : toute modalité d’une variable statistique telle que sa fréquence (ou
de manière équivalente son effectif) est un maximum local de
l’histogramme ou du diagramme en bâtons.

Fabien Feschet (Université d’Auvergne) Statistiques descriptives 2014-2015 21 / 61


Tendance centrale
Mode
En faisant l’hypothèse d’équi-répartition, on peut définir le mode à l’aide
de l’histogramme.

f k/ a k classe k

e e
k−1 k

Fabien Feschet (Université d’Auvergne) Statistiques descriptives


mode 2014-2015 22 / 61
Moyenne (arithmétique)

Définition
Soit une variable quantitative discrète dont les modalités sont notées xi
pour 1 ≤ i ≤ k et soient fi les fréquences associées. La moyenne
arithmétique de la variable est
k
X
x̄ = fi xi
i=1

Fabien Feschet (Université d’Auvergne) Statistiques descriptives 2014-2015 23 / 61


Moyenne (arithmétique)

Définition
Dans le cas où une variable quantitative continue est au préalable
décomposée en classes, on utilise les centres de chaque classe [ei−1 , ei [
ei + ei−1
c=
2

Fabien Feschet (Université d’Auvergne) Statistiques descriptives 2014-2015 24 / 61


Moyenne (arithmétique)

Propriété
Si l’on remplace les valeurs xi des modalités par les valeurs recentrées et
mises à l’échelle xi0 = xi −b
a alors les moyennes arithmétiques respectives
sont liées par la même relation.

Fabien Feschet (Université d’Auvergne) Statistiques descriptives 2014-2015 25 / 61


Dispersion

Ecarts absolus
On définit donc (mx désigne la médiane) :
k
X
l’écart absolu moyen = fi |xi − x̄| ou
i=1

k
X
l’écart absolu médian = fi |xi − mx |
i=1

La seconde moyenne est toujours plus faible que la première.

Fabien Feschet (Université d’Auvergne) Statistiques descriptives 2014-2015 26 / 61


Dispersion

Variance
On appelle variance des observations xi ,
k
X
σx2 = fi (xi − x̄)2
i=1

Fabien Feschet (Université d’Auvergne) Statistiques descriptives 2014-2015 27 / 61


Dispersion

Théorème de König
k
!
X
σx2 = fi xi2 − x̄ 2
i=1

Fabien Feschet (Université d’Auvergne) Statistiques descriptives 2014-2015 28 / 61


Dispersion

Ecart-type
On appelle écart-type la racine carrée de la variance
v
u k
uX
σx = t fi (xi − x̄)2
i=1

Centrée-réduite
X −b
Si l’on remplace la variable X par la variable centrée réduire a alors σx
est divisé par a et insensible à la valeur de b.

Fabien Feschet (Université d’Auvergne) Statistiques descriptives 2014-2015 29 / 61


Dispersion

Coefficient de variation
On définit le coefficient de variation ainsi
σx
CV =

Il s’agit d’une grandeur sans dimension qui est indépendante des
changements d’échelle.

Fabien Feschet (Université d’Auvergne) Statistiques descriptives 2014-2015 30 / 61


Dispersion

Quantile
Soit 0 ≤ α ≤ 1. On note F (.) la fonction de cumul de la variable étudiée.
On appelle quantile d’ordre α, la valeur xα définie par

F (xα ) = α

Usuellement...
On utilise souvent les quartiles : Q1 = x 1 , Q2 = x 1 , Q3 = x 3 . Les quartiles
4 2 4
partagent l’effectif en quatre partie égales.

Fabien Feschet (Université d’Auvergne) Statistiques descriptives 2014-2015 31 / 61


Dispersion

...iles
i
On appelle déciles les quantiles d’ordre 10 , les centiles pour les quantiles
i
d’ordre 100 , ...

Intervalle inter-quartiles
On définit l’intervalle inter-quartiles comme étant la différence : Q3 − Q1 .
Il correspond à 50 % des individus et est peu sensible aux valeurs extrêmes.

Fabien Feschet (Université d’Auvergne) Statistiques descriptives 2014-2015 32 / 61


Dispersion

Box-Plot
Le diagramme en boı̂te ou box-plot introduit par J.W. Tukey essaye de
résumer la distribution de la variable à l’aide des quartiles.
adjacence
max

Q
3

Q
2

Q
1

adjacence
min

Fabien Feschet (Université d’Auvergne) Statistiques descriptives 2014-2015 33 / 61


Dispersion

Box-Plot
Les valeurs adjacentes sont usuellement
adjacence supérieure : plus grande valeur inférieure à
Q3 + 23 (Q3 − Q1 ),
adjacence inférieure : plus petite valeur supérieure à
Q1 − 23 (Q3 − Q1 ).
et parfois
adjacence supérieure : le 9e décile,
adjacence inférieure : le 1er décile.

Fabien Feschet (Université d’Auvergne) Statistiques descriptives 2014-2015 34 / 61


Loi de Laplace-Gauss (densité)

1.0
μ = 0, σ 2 = 0.2,
μ = 0, σ 2 = 1.0,
0.8 μ = 0, σ 2 = 5.0,
μ = −2, σ 2 = 0.5,
0.6
φμ,σ (x)
2

0.4 -3 -2 -1

0.2

0.0
−5 −4 −3 −2 −1 0 1 2 3 4 5
x

Fabien Feschet (Université d’Auvergne) Statistiques descriptives 2014-2015 35 / 61


Un exemple : comportement de la moyenne

Mesures expérimentales
On a généré 200 échantillons de taille 9 suivant une loi LG (600, 100). Pour
chaque échantillon, on a pu calculer la moyenne de l’échantillon.
On a soustrait ensuite l’espérance de 600 au résultat.
Théoriquement, la moyenne observée devrait être autour de 0 !

Fabien Feschet (Université d’Auvergne) Statistiques descriptives 2014-2015 36 / 61


Un exemple : comportement de la moyenne

Résultats des simulations

Fabien Feschet (Université d’Auvergne) Statistiques descriptives 2014-2015 37 / 61


Régression

Représentation
On suppose que l’on observe pour n individus, deux variables X et Y . On
peut donc considérer que l’on possède n couples (xi , yi ) ou de manière
équivalente deux vecteurs de Rn .
On souhaite déterminer un modèle qui utilisant X , permet d’améliorer la
prédiction de Y . Pour cela, on peut procéder à une représentation
graphique. On détermine un diagramme dit diagramme en xy en
représentant le nuage des point (xi , yi ).

Fabien Feschet (Université d’Auvergne) Statistiques descriptives 2014-2015 38 / 61


Régression

Fabien Feschet (Université d’Auvergne) Statistiques descriptives 2014-2015 39 / 61


Régression

Modèle
Connaissant juste Y , la meilleure prédiction possible est ȳ .
On souhaite déterminer un modèle qui utilisant X , permet d’améliorer
cette prédiction de Y . Le modèle plus simple est le modèle linéaire.

Fabien Feschet (Université d’Auvergne) Statistiques descriptives 2014-2015 40 / 61


Régression

Fabien Feschet (Université d’Auvergne) Statistiques descriptives 2014-2015 41 / 61


Régression

Modélisation sur la population


Considérons la population entière et les deux variables X et Y .
On cherche un ajustement linéaire entre X et la moyenne de Y à X = x
fixée.

Fabien Feschet (Université d’Auvergne) Statistiques descriptives 2014-2015 42 / 61


Régression

En pratique
Il n’existe jamais une droite qui permet de manière parfaite de prédire la
valeur de Y (sa moyenne) à partir de X ... le modèle sera acceptable si
l’erreur autour de la prédiction est une variable aléatoire suit une loi
normale de moyenne nulle et de faible variance.

Fabien Feschet (Université d’Auvergne) Statistiques descriptives 2014-2015 43 / 61


Régression

Construction
La droite de régression minimise les carrés des écarts verticaux entre yi et
axi + b, on l’appelle donc la droite des moindres carrés.
Cette droite peut toujours se calculer que X et Y soient ou non reliées par
un modèle linéaire. On peut également supposer que X n’est pas une
variable aléatoire, le modèle n’étant pas symétrique.

Fabien Feschet (Université d’Auvergne) Statistiques descriptives 2014-2015 44 / 61


Régression - modèle mathématique

Modélisation
On suppose que l’on observe pour n individus, deux variables X et Y . On
peut donc considérer que l’on possède n couples (xi , yi ).
En minimisant les erreurs verticales aux carrés, on construit une droite dite
droite de régression linéaire de x en y . La droite de régression linéaire est
la droite qui minimise la quantité
n
X
∆(a, b) = (yi − axi − b)2
i=1

avec a le coefficient directeur ou pente de la droite et b son ordonnée à


l’origine.

Fabien Feschet (Université d’Auvergne) Statistiques descriptives 2014-2015 45 / 61


Régression

Modélisation sur l’échantillon


En notant e 2 = (yi − axi − b)2 , on appelle e les résidus.

Caractérisation
La méthode des moindres carrés trouve une droite qui minimise la somme
des carrés des résidus.

Fabien Feschet (Université d’Auvergne) Statistiques descriptives 2014-2015 46 / 61


Régression - modèle mathématique

Obtention de a et b
Minimiser la quantité
n
X
∆(a, b) = (yi − axi − b)2
i=1

revient à trouver un extremum de la fonction ∆(a, b).

Fabien Feschet (Université d’Auvergne) Statistiques descriptives 2014-2015 47 / 61


Régression - modèle mathématique

Obtention de a et b
En résumé,
cov (X , Y )
a=
σx2
b = ȳ − ax̄

avec
n
1X
cov (X , Y ) = xi yi − x̄ ȳ
n
i=1

Centre de gravité
Le point G = (x̄, ȳ ), appelé centre de gravité du nuage est sur la droite de
régression...

Fabien Feschet (Université d’Auvergne) Statistiques descriptives 2014-2015 48 / 61


Régression - symétrie

On peut changer les rôles joués par X et Y ...


On peut aussi chercher la droite de régression de Y en X en minimisant la
quantité
n
X 2
xi − a0 yi − b 0
i=1

avec le coefficient directeur ou pente de la droite et b 0 son ordonnée à


a0
l’origine. Dans ce cas,
cov(x, y )
a0 =
σy2
et cette droite passe encore par le point moyen G .

Fabien Feschet (Université d’Auvergne) Statistiques descriptives 2014-2015 49 / 61


Corrélation

Définition
On considère deux variables X et Y . On dit que X et Y sont corrélées s’il
existe un lien entre leurs valeurs. Cette relation est symétrique, les deux
variables sont donc aléatoires.

Usage
On dit qu’il y a corrélation s’il y a dépendance en moyenne : à X = x fixé,
la moyenne Ȳ est fonction de x. Si cette liaison est approximativement
linéaire, on se trouve dans le cas de la corrélation linéaire.

Contre-sens
la non corrélation ne signifie pas l’indépendance...
Ne pas confondre corrélation et causalité.

Fabien Feschet (Université d’Auvergne) Statistiques descriptives 2014-2015 50 / 61


Coefficient de corrélation linéaire

Bravais-Pearson
Le coefficient de corrélation linéaire (dit de Bravais-Pearson) mesure
exclusivement le caractère plus ou moins linéaire d’un nuage de points.

cov(x, y )
r=
σx σy

Fabien Feschet (Université d’Auvergne) Statistiques descriptives 2014-2015 51 / 61


Coefficient de corrélation linéaire

Propriétés
1 −1 ≤ r ≤ 1,
2 r = ±1 sont les cas de corrélation linéaire (positive ou négative)
parfaits,
3 r = 0 correspond au cas d’absence totale de corrélation entre X et Y
(ce n’est pas l’indépendance !)

Fabien Feschet (Université d’Auvergne) Statistiques descriptives 2014-2015 52 / 61


Coefficient de corrélation linéaire

Fabien Feschet (Université d’Auvergne) Statistiques descriptives 2014-2015 53 / 61


Sensibilité du coefficient de corrélation linéaire

Fabien Feschet (Université d’Auvergne) Statistiques descriptives 2014-2015 54 / 61


Séries chronologiques

Définition
L’ensemble des observations des valeurs d’un caractère à des époques
successives, au cours du temps, constitue une série chronologique.
On traite toujours une série chronologique suivant l’ordre du temps.

Fabien Feschet (Université d’Auvergne) Statistiques descriptives 2014-2015 55 / 61


Séries chronologiques

Fabien Feschet (Université d’Auvergne) Statistiques descriptives 2014-2015 56 / 61


Séries chronologiques

Décomposition
1 trend : évolution de longue durée ;
2 les variations saisonnières : phénomène périodique ;
3 la composante cyclique : parfois cachée dans le trend ;
4 les variations aléatoires : ce que le modèle n’explique pas.

Fabien Feschet (Université d’Auvergne) Statistiques descriptives 2014-2015 57 / 61


Séries chronologiques

Modèles
modèle additif : série = saison + trend + cyclique + aléa ;
modèle multiplicatif : saison proportionnelle au trend.

Fabien Feschet (Université d’Auvergne) Statistiques descriptives 2014-2015 58 / 61


Séries chronologiques

Détermination pratique du trend


La régression linéaire permet de déterminer une tendance générale (hausse
et baisse), sous réserve que le trend soit effectivement linéaire.
Les moyennes mobiles (moyenne des valeurs dans une fenêtre temporelle
entourant chaque point de la série) permettent d’approcher le trend et la
forme de sa variation.

Fabien Feschet (Université d’Auvergne) Statistiques descriptives 2014-2015 59 / 61


Séries chronologiques

Fabien Feschet (Université d’Auvergne) Statistiques descriptives 2014-2015 60 / 61


Séries chronologiques

Variations saisonnières
On détermine les variations saisonnières à partir des variations moyennes
des écarts sur une saison donnée.

L’objet de la détermination des variations saisonnières est de construire la


série chronologique corrigées des variations saisonnières
(désaisonnalisation).

Fabien Feschet (Université d’Auvergne) Statistiques descriptives 2014-2015 61 / 61

Vous aimerez peut-être aussi