Stats 1

Statistiques descriptives
Fabien Feschet
Université d’Auvergne
2014-2015
Certaines représentations graphiques sont tirées de wikipédia
Fabien Feschet (Université d’Auvergne) Statistiques descriptives 2014-2015 1 / 61

Contexte
Module M1205 - Objectifs

Acquérir les compétences nécessaires pour collecter, organiser,
représenter, résumer, interpréter des données ;
Modéliser et traduire en langage mathématique une situation
économique et de gestion ;
Savoir choisir et mettre en oeuvre les outils mathématiques adaptés.
Module M1205 - Compétences

Choisir et réaliser une représentation graphique des données
statistiques ;
Déterminer les paramètres statistiques d’une distribution à une
variable et commenter leur signification ;
Choisir et réaliser un ajustement entre deux variables statistiques.

Contexte
Module M1205 - Contenus

Séries statistiques à une variable (représentation, caractéristiques de
position et de dispersion) ;
Séries statistiques à deux variables (représentation, ajustement
linéaire, exponentiel, logarithmique, puissance) ;
Séries chronologiques.
Module M1205 - Mise en oeuvre

L’utilisation d’un tableur ou de logiciels statistiques est recommandée
quand elle est possible ;
Modélisation de situations concrètes.

Contexte
Module M1205 - Répartition

Cours : 2h ;
Travaux dirigés : 3 fois 2h ;
Travaux pratiques : 3 fois 2h.
Module M1205 - Evaluation

Pas d’examen en amphi ;
Les travaux dirigés préparent les travaux pratiques ;
les travaux pratiques sont rendus et notés.

Introduction
Statistiques
L’objet de la statistique descriptive est de décrire des faits constatés à
partir de mesures.
La statistique inférentielle basée sur le calcul des probabilités étudie le
comportement à l’infini des expériences.
La théorie des tests permet de vérifier que la probabilité d’hypothèses
exprimées est suffisamment élevée pour les considérer comme crédibles.

Vocabulaire
Usuellement..
Population (ou Univers) : tous les éléments ou objets possibles
d’une étude statistique ;
Echantillon : ensemble des éléments ou objets présents dans l’étude
statistique – sous-ensemble de la population ;
Individu : l’individu statistique est un des éléments ou objets de
l’étude statistique ;

Vocabulaire
...Usuellement
Variable (ou Caractère) : toute propriété constatée ou mesurée sur
la population d’étude est appelée une variable statistique ; Un
caractère est soit quantitatif, soit qualitatif, soit ordinal ;
Modalité : toutes les valeurs possibles d’une variable sont appelées
modalités du caractère ;
Domaine : pour une variable donnée, l’ensemble de toutes ses
modalités est appelé domaine de la variable ;
Effectif : l’effectif de la population (ou de l’échantillon) est le nombre
d’individu qu’elle (il) contient.

Principe
Usage...
Les données d’une étude statistique sont toujours représentées par un
tableau de données ayant deux dimensions.
En ligne, on trouve les individus.
En colonne, on trouve les variables.

Principe

Description des données
Principe
Un échantillon sera représenté par des indicateurs statistiques quantitatifs
ayant pour objectif de décrire (résumer) la structure de l’échantillon étudié.
Indicateurs pertinents
On distingue usuellement deux indicateurs statistiques : ceux de tendance
centrale / position et ceux de dispersion.

Résumés statistiques

Descriptions des données
Echantillon
La fréquence d’apparition de chaque modalité est le nombre d’individus
qui comportent la modalité.
Classes
Si la variable a été découpé en classes (intervalles de valeur), on procède
de la même manière mais le centre de classe est usuellement choisi comme
représentant de la classe.

Formulation
Fréquence empirique
Nombre d’occurences de l’individu
fréquence =
Nombres d’individu dans l’échantillon
Si xi sont les modalités de la variable X , on notera la fréquence
usuellement fi .

Représentation graphique
Variable Qualitative

Variable Quantitative discrète

Variable Quantitative continue

On ne représente que très rarement une variable quantitative continue.
Usuellement : représentation d’un découpage en classes, l’histogramme.

Histogramme
Définitions
l’amplitude d’une classe : étendue des valeurs couvertes par la classe,
notée ai pour la classe i.
On appelle fréquence moyenne par unité d’amplitude, le rapport afii où fi
est la fréquence de la classe i.

Histogramme

Cumul
Lorsque l’on possède une variable continue, on définit la fonction
cumulative F (x) comme étant la proportion des individus de la population
dont le caractère est inférieur à x.
La fonction cumulative est une fonction monotone croissante.

Tendance centrale
Médiane
La médiane d’une variable statistique est la modalité de cette variable qui
partage les individus de l’échantillon, supposés classés par ordre croissant,
en deux parties d’effectifs égaux.
Elle peut aussi se définir comme la modalité pour laquelle la courbe
cumulée atteint 21 .

Tendance centrale
Mode
Mode : toute modalité d’une variable statistique telle que sa fréquence (ou
de manière équivalente son effectif) est un maximum local de
l’histogramme ou du diagramme en bâtons.

Tendance centrale
Mode
En faisant l’hypothèse d’équi-répartition, on peut définir le mode à l’aide
de l’histogramme.
f k/ a k classe k
e e
k−1 k
Fabien Feschet (Université d’Auvergne) Statistiques descriptives

mode 2014-2015 22 / 61
Moyenne (arithmétique)
Définition
Soit une variable quantitative discrète dont les modalités sont notées xi
pour 1 ≤ i ≤ k et soient fi les fréquences associées. La moyenne
arithmétique de la variable est
k
X
x̄ = fi xi
i=1

Définition
Dans le cas où une variable quantitative continue est au préalable
décomposée en classes, on utilise les centres de chaque classe [ei−1 , ei [
ei + ei−1
c=
2

Propriété
Si l’on remplace les valeurs xi des modalités par les valeurs recentrées et
mises à l’échelle xi0 = xi −b
a alors les moyennes arithmétiques respectives
sont liées par la même relation.

Dispersion
Ecarts absolus
On définit donc (mx désigne la médiane) :
k
X
l’écart absolu moyen = fi |xi − x̄| ou
i=1
k
X
l’écart absolu médian = fi |xi − mx |
i=1
La seconde moyenne est toujours plus faible que la première.

Dispersion
Variance
On appelle variance des observations xi ,
k
X
σx2 = fi (xi − x̄)2
i=1

Dispersion
Théorème de König
k
!
X
σx2 = fi xi2 − x̄ 2
i=1

Dispersion
Ecart-type
On appelle écart-type la racine carrée de la variance
v
u k
uX
σx = t fi (xi − x̄)2
i=1
Centrée-réduite
X −b
Si l’on remplace la variable X par la variable centrée réduire a alors σx
est divisé par a et insensible à la valeur de b.

Dispersion
Coefficient de variation
On définit le coefficient de variation ainsi
σx
CV =
x̄
Il s’agit d’une grandeur sans dimension qui est indépendante des
changements d’échelle.

Dispersion
Quantile
Soit 0 ≤ α ≤ 1. On note F (.) la fonction de cumul de la variable étudiée.
On appelle quantile d’ordre α, la valeur xα définie par
F (xα ) = α
Usuellement...
On utilise souvent les quartiles : Q1 = x 1 , Q2 = x 1 , Q3 = x 3 . Les quartiles
4 2 4
partagent l’effectif en quatre partie égales.

Dispersion
...iles
i
On appelle déciles les quantiles d’ordre 10 , les centiles pour les quantiles
i
d’ordre 100 , ...
Intervalle inter-quartiles
On définit l’intervalle inter-quartiles comme étant la différence : Q3 − Q1 .
Il correspond à 50 % des individus et est peu sensible aux valeurs extrêmes.

Dispersion
Box-Plot
Le diagramme en boı̂te ou box-plot introduit par J.W. Tukey essaye de
résumer la distribution de la variable à l’aide des quartiles.
adjacence
max
Q
3
Q
2
Q
1
adjacence
min

Dispersion
Box-Plot
Les valeurs adjacentes sont usuellement
adjacence supérieure : plus grande valeur inférieure à
Q3 + 23 (Q3 − Q1 ),
adjacence inférieure : plus petite valeur supérieure à
Q1 − 23 (Q3 − Q1 ).
et parfois
adjacence supérieure : le 9e décile,
adjacence inférieure : le 1er décile.

Loi de Laplace-Gauss (densité)
1.0
μ = 0, σ 2 = 0.2,
μ = 0, σ 2 = 1.0,
0.8 μ = 0, σ 2 = 5.0,
μ = −2, σ 2 = 0.5,
0.6
φμ,σ (x)
2
0.4 -3 -2 -1
0.2
0.0
−5 −4 −3 −2 −1 0 1 2 3 4 5
x

Un exemple : comportement de la moyenne
Mesures expérimentales
On a généré 200 échantillons de taille 9 suivant une loi LG (600, 100). Pour
chaque échantillon, on a pu calculer la moyenne de l’échantillon.
On a soustrait ensuite l’espérance de 600 au résultat.
Théoriquement, la moyenne observée devrait être autour de 0 !

Un exemple : comportement de la moyenne
Résultats des simulations

Régression
Représentation
On suppose que l’on observe pour n individus, deux variables X et Y . On
peut donc considérer que l’on possède n couples (xi , yi ) ou de manière
équivalente deux vecteurs de Rn .
On souhaite déterminer un modèle qui utilisant X , permet d’améliorer la
prédiction de Y . Pour cela, on peut procéder à une représentation
graphique. On détermine un diagramme dit diagramme en xy en
représentant le nuage des point (xi , yi ).

Régression

Régression
Modèle
Connaissant juste Y , la meilleure prédiction possible est ȳ .
On souhaite déterminer un modèle qui utilisant X , permet d’améliorer
cette prédiction de Y . Le modèle plus simple est le modèle linéaire.

Régression

Régression
Modélisation sur la population

Considérons la population entière et les deux variables X et Y .
On cherche un ajustement linéaire entre X et la moyenne de Y à X = x
fixée.

Régression
En pratique
Il n’existe jamais une droite qui permet de manière parfaite de prédire la
valeur de Y (sa moyenne) à partir de X ... le modèle sera acceptable si
l’erreur autour de la prédiction est une variable aléatoire suit une loi
normale de moyenne nulle et de faible variance.

Régression
Construction
La droite de régression minimise les carrés des écarts verticaux entre yi et
axi + b, on l’appelle donc la droite des moindres carrés.
Cette droite peut toujours se calculer que X et Y soient ou non reliées par
un modèle linéaire. On peut également supposer que X n’est pas une
variable aléatoire, le modèle n’étant pas symétrique.

Régression - modèle mathématique
Modélisation
On suppose que l’on observe pour n individus, deux variables X et Y . On
peut donc considérer que l’on possède n couples (xi , yi ).
En minimisant les erreurs verticales aux carrés, on construit une droite dite
droite de régression linéaire de x en y . La droite de régression linéaire est
la droite qui minimise la quantité
n
X
∆(a, b) = (yi − axi − b)2
i=1
avec a le coefficient directeur ou pente de la droite et b son ordonnée à

l’origine.

Régression
Modélisation sur l’échantillon

En notant e 2 = (yi − axi − b)2 , on appelle e les résidus.
Caractérisation
La méthode des moindres carrés trouve une droite qui minimise la somme
des carrés des résidus.

Obtention de a et b
Minimiser la quantité
n
X
∆(a, b) = (yi − axi − b)2
i=1
revient à trouver un extremum de la fonction ∆(a, b).

Obtention de a et b
En résumé,
cov (X , Y )
a=
σx2
b = ȳ − ax̄
avec
n
1X
cov (X , Y ) = xi yi − x̄ ȳ
n
i=1
Centre de gravité
Le point G = (x̄, ȳ ), appelé centre de gravité du nuage est sur la droite de
régression...

Régression - symétrie
On peut changer les rôles joués par X et Y ...

On peut aussi chercher la droite de régression de Y en X en minimisant la
quantité
n
X 2
xi − a0 yi − b 0
i=1
avec le coefficient directeur ou pente de la droite et b 0 son ordonnée à

a0
l’origine. Dans ce cas,
cov(x, y )
a0 =
σy2
et cette droite passe encore par le point moyen G .

Corrélation
Définition
On considère deux variables X et Y . On dit que X et Y sont corrélées s’il
existe un lien entre leurs valeurs. Cette relation est symétrique, les deux
variables sont donc aléatoires.
Usage
On dit qu’il y a corrélation s’il y a dépendance en moyenne : à X = x fixé,
la moyenne Ȳ est fonction de x. Si cette liaison est approximativement
linéaire, on se trouve dans le cas de la corrélation linéaire.
Contre-sens
la non corrélation ne signifie pas l’indépendance...
Ne pas confondre corrélation et causalité.

Coefficient de corrélation linéaire
Bravais-Pearson
Le coefficient de corrélation linéaire (dit de Bravais-Pearson) mesure
exclusivement le caractère plus ou moins linéaire d’un nuage de points.
cov(x, y )
r=
σx σy

Propriétés
1 −1 ≤ r ≤ 1,
2 r = ±1 sont les cas de corrélation linéaire (positive ou négative)
parfaits,
3 r = 0 correspond au cas d’absence totale de corrélation entre X et Y
(ce n’est pas l’indépendance !)


Sensibilité du coefficient de corrélation linéaire

Séries chronologiques
Définition
L’ensemble des observations des valeurs d’un caractère à des époques
successives, au cours du temps, constitue une série chronologique.
On traite toujours une série chronologique suivant l’ordre du temps.


Décomposition
1 trend : évolution de longue durée ;
2 les variations saisonnières : phénomène périodique ;
3 la composante cyclique : parfois cachée dans le trend ;
4 les variations aléatoires : ce que le modèle n’explique pas.

Modèles
modèle additif : série = saison + trend + cyclique + aléa ;
modèle multiplicatif : saison proportionnelle au trend.

Détermination pratique du trend

La régression linéaire permet de déterminer une tendance générale (hausse
et baisse), sous réserve que le trend soit effectivement linéaire.
Les moyennes mobiles (moyenne des valeurs dans une fenêtre temporelle
entourant chaque point de la série) permettent d’approcher le trend et la
forme de sa variation.


Variations saisonnières
On détermine les variations saisonnières à partir des variations moyennes
des écarts sur une saison donnée.
L’objet de la détermination des variations saisonnières est de construire la

série chronologique corrigées des variations saisonnières
(désaisonnalisation).

Stats 1

Transféré par

Informations du document

Copyright

Formats disponibles

Partager ce document

Partager ou intégrer le document

Options de partage

Avez-vous trouvé ce document utile ?

Ce contenu est-il inapproprié ?

Droits d'auteur :

Formats disponibles

Stats 1

Transféré par

Droits d'auteur :

Formats disponibles

Statistiques descriptives

Certaines représentations graphiques sont tirées de wikipédia

Fabien Feschet (Université d’Auvergne) Statistiques descriptives 2014-2015 1 / 61

Module M1205 - Objectifs

Module M1205 - Compétences

Fabien Feschet (Université d’Auvergne) Statistiques descriptives 2014-2015 2 / 61

Module M1205 - Contenus

Module M1205 - Mise en oeuvre

Fabien Feschet (Université d’Auvergne) Statistiques descriptives 2014-2015 3 / 61

Module M1205 - Répartition

Module M1205 - Evaluation

Fabien Feschet (Université d’Auvergne) Statistiques descriptives 2014-2015 4 / 61

Fabien Feschet (Université d’Auvergne) Statistiques descriptives 2014-2015 5 / 61

Fabien Feschet (Université d’Auvergne) Statistiques descriptives 2014-2015 6 / 61

Fabien Feschet (Université d’Auvergne) Statistiques descriptives 2014-2015 7 / 61

Fabien Feschet (Université d’Auvergne) Statistiques descriptives 2014-2015 8 / 61

Fabien Feschet (Université d’Auvergne) Statistiques descriptives 2014-2015 9 / 61

Fabien Feschet (Université d’Auvergne) Statistiques descriptives 2014-2015 10 / 61

Fabien Feschet (Université d’Auvergne) Statistiques descriptives 2014-2015 11 / 61

Fabien Feschet (Université d’Auvergne) Statistiques descriptives 2014-2015 12 / 61

Fabien Feschet (Université d’Auvergne) Statistiques descriptives 2014-2015 13 / 61

Fabien Feschet (Université d’Auvergne) Statistiques descriptives 2014-2015 14 / 61

Variable Quantitative discrète

Fabien Feschet (Université d’Auvergne) Statistiques descriptives 2014-2015 15 / 61

Variable Quantitative continue

Fabien Feschet (Université d’Auvergne) Statistiques descriptives 2014-2015 16 / 61

Fabien Feschet (Université d’Auvergne) Statistiques descriptives 2014-2015 17 / 61

Fabien Feschet (Université d’Auvergne) Statistiques descriptives 2014-2015 18 / 61

Fabien Feschet (Université d’Auvergne) Statistiques descriptives 2014-2015 19 / 61

Fabien Feschet (Université d’Auvergne) Statistiques descriptives 2014-2015 20 / 61

Fabien Feschet (Université d’Auvergne) Statistiques descriptives 2014-2015 21 / 61

Fabien Feschet (Université d’Auvergne) Statistiques descriptives

Fabien Feschet (Université d’Auvergne) Statistiques descriptives 2014-2015 23 / 61

Fabien Feschet (Université d’Auvergne) Statistiques descriptives 2014-2015 24 / 61

Fabien Feschet (Université d’Auvergne) Statistiques descriptives 2014-2015 25 / 61

La seconde moyenne est toujours plus faible que la première.

Fabien Feschet (Université d’Auvergne) Statistiques descriptives 2014-2015 26 / 61

Fabien Feschet (Université d’Auvergne) Statistiques descriptives 2014-2015 27 / 61

Fabien Feschet (Université d’Auvergne) Statistiques descriptives 2014-2015 28 / 61

Fabien Feschet (Université d’Auvergne) Statistiques descriptives 2014-2015 29 / 61

Fabien Feschet (Université d’Auvergne) Statistiques descriptives 2014-2015 30 / 61

Fabien Feschet (Université d’Auvergne) Statistiques descriptives 2014-2015 31 / 61

Fabien Feschet (Université d’Auvergne) Statistiques descriptives 2014-2015 32 / 61

Fabien Feschet (Université d’Auvergne) Statistiques descriptives 2014-2015 33 / 61

Fabien Feschet (Université d’Auvergne) Statistiques descriptives 2014-2015 34 / 61

Fabien Feschet (Université d’Auvergne) Statistiques descriptives 2014-2015 35 / 61

Fabien Feschet (Université d’Auvergne) Statistiques descriptives 2014-2015 36 / 61

Résultats des simulations

Fabien Feschet (Université d’Auvergne) Statistiques descriptives 2014-2015 37 / 61

Fabien Feschet (Université d’Auvergne) Statistiques descriptives 2014-2015 38 / 61

Fabien Feschet (Université d’Auvergne) Statistiques descriptives 2014-2015 39 / 61

Fabien Feschet (Université d’Auvergne) Statistiques descriptives 2014-2015 40 / 61

Fabien Feschet (Université d’Auvergne) Statistiques descriptives 2014-2015 41 / 61

Modélisation sur la population

Fabien Feschet (Université d’Auvergne) Statistiques descriptives 2014-2015 42 / 61

Fabien Feschet (Université d’Auvergne) Statistiques descriptives 2014-2015 43 / 61

Fabien Feschet (Université d’Auvergne) Statistiques descriptives 2014-2015 44 / 61

avec a le coefficient directeur ou pente de la droite et b son ordonnée à

Fabien Feschet (Université d’Auvergne) Statistiques descriptives 2014-2015 45 / 61

Modélisation sur l’échantillon

Fabien Feschet (Université d’Auvergne) Statistiques descriptives 2014-2015 46 / 61

revient à trouver un extremum de la fonction ∆(a, b).

Fabien Feschet (Université d’Auvergne) Statistiques descriptives 2014-2015 47 / 61

Fabien Feschet (Université d’Auvergne) Statistiques descriptives 2014-2015 48 / 61