Académique Documents
Professionnel Documents
Culture Documents
Fabien Feschet
Université d’Auvergne
2014-2015
Statistiques
L’objet de la statistique descriptive est de décrire des faits constatés à
partir de mesures.
La statistique inférentielle basée sur le calcul des probabilités étudie le
comportement à l’infini des expériences.
La théorie des tests permet de vérifier que la probabilité d’hypothèses
exprimées est suffisamment élevée pour les considérer comme crédibles.
Usuellement..
Population (ou Univers) : tous les éléments ou objets possibles
d’une étude statistique ;
Echantillon : ensemble des éléments ou objets présents dans l’étude
statistique – sous-ensemble de la population ;
Individu : l’individu statistique est un des éléments ou objets de
l’étude statistique ;
...Usuellement
Variable (ou Caractère) : toute propriété constatée ou mesurée sur
la population d’étude est appelée une variable statistique ; Un
caractère est soit quantitatif, soit qualitatif, soit ordinal ;
Modalité : toutes les valeurs possibles d’une variable sont appelées
modalités du caractère ;
Domaine : pour une variable donnée, l’ensemble de toutes ses
modalités est appelé domaine de la variable ;
Effectif : l’effectif de la population (ou de l’échantillon) est le nombre
d’individu qu’elle (il) contient.
Usage...
Les données d’une étude statistique sont toujours représentées par un
tableau de données ayant deux dimensions.
En ligne, on trouve les individus.
En colonne, on trouve les variables.
Principe
Un échantillon sera représenté par des indicateurs statistiques quantitatifs
ayant pour objectif de décrire (résumer) la structure de l’échantillon étudié.
Indicateurs pertinents
On distingue usuellement deux indicateurs statistiques : ceux de tendance
centrale / position et ceux de dispersion.
Echantillon
La fréquence d’apparition de chaque modalité est le nombre d’individus
qui comportent la modalité.
Classes
Si la variable a été découpé en classes (intervalles de valeur), on procède
de la même manière mais le centre de classe est usuellement choisi comme
représentant de la classe.
Fréquence empirique
Nombre d’occurences de l’individu
fréquence =
Nombres d’individu dans l’échantillon
Si xi sont les modalités de la variable X , on notera la fréquence
usuellement fi .
Variable Qualitative
Définitions
l’amplitude d’une classe : étendue des valeurs couvertes par la classe,
notée ai pour la classe i.
On appelle fréquence moyenne par unité d’amplitude, le rapport afii où fi
est la fréquence de la classe i.
Histogramme
Cumul
Lorsque l’on possède une variable continue, on définit la fonction
cumulative F (x) comme étant la proportion des individus de la population
dont le caractère est inférieur à x.
La fonction cumulative est une fonction monotone croissante.
Médiane
La médiane d’une variable statistique est la modalité de cette variable qui
partage les individus de l’échantillon, supposés classés par ordre croissant,
en deux parties d’effectifs égaux.
Elle peut aussi se définir comme la modalité pour laquelle la courbe
cumulée atteint 21 .
Mode
Mode : toute modalité d’une variable statistique telle que sa fréquence (ou
de manière équivalente son effectif) est un maximum local de
l’histogramme ou du diagramme en bâtons.
f k/ a k classe k
e e
k−1 k
Définition
Soit une variable quantitative discrète dont les modalités sont notées xi
pour 1 ≤ i ≤ k et soient fi les fréquences associées. La moyenne
arithmétique de la variable est
k
X
x̄ = fi xi
i=1
Définition
Dans le cas où une variable quantitative continue est au préalable
décomposée en classes, on utilise les centres de chaque classe [ei−1 , ei [
ei + ei−1
c=
2
Propriété
Si l’on remplace les valeurs xi des modalités par les valeurs recentrées et
mises à l’échelle xi0 = xi −b
a alors les moyennes arithmétiques respectives
sont liées par la même relation.
Ecarts absolus
On définit donc (mx désigne la médiane) :
k
X
l’écart absolu moyen = fi |xi − x̄| ou
i=1
k
X
l’écart absolu médian = fi |xi − mx |
i=1
Variance
On appelle variance des observations xi ,
k
X
σx2 = fi (xi − x̄)2
i=1
Théorème de König
k
!
X
σx2 = fi xi2 − x̄ 2
i=1
Ecart-type
On appelle écart-type la racine carrée de la variance
v
u k
uX
σx = t fi (xi − x̄)2
i=1
Centrée-réduite
X −b
Si l’on remplace la variable X par la variable centrée réduire a alors σx
est divisé par a et insensible à la valeur de b.
Coefficient de variation
On définit le coefficient de variation ainsi
σx
CV =
x̄
Il s’agit d’une grandeur sans dimension qui est indépendante des
changements d’échelle.
Quantile
Soit 0 ≤ α ≤ 1. On note F (.) la fonction de cumul de la variable étudiée.
On appelle quantile d’ordre α, la valeur xα définie par
F (xα ) = α
Usuellement...
On utilise souvent les quartiles : Q1 = x 1 , Q2 = x 1 , Q3 = x 3 . Les quartiles
4 2 4
partagent l’effectif en quatre partie égales.
...iles
i
On appelle déciles les quantiles d’ordre 10 , les centiles pour les quantiles
i
d’ordre 100 , ...
Intervalle inter-quartiles
On définit l’intervalle inter-quartiles comme étant la différence : Q3 − Q1 .
Il correspond à 50 % des individus et est peu sensible aux valeurs extrêmes.
Box-Plot
Le diagramme en boı̂te ou box-plot introduit par J.W. Tukey essaye de
résumer la distribution de la variable à l’aide des quartiles.
adjacence
max
Q
3
Q
2
Q
1
adjacence
min
Box-Plot
Les valeurs adjacentes sont usuellement
adjacence supérieure : plus grande valeur inférieure à
Q3 + 23 (Q3 − Q1 ),
adjacence inférieure : plus petite valeur supérieure à
Q1 − 23 (Q3 − Q1 ).
et parfois
adjacence supérieure : le 9e décile,
adjacence inférieure : le 1er décile.
1.0
μ = 0, σ 2 = 0.2,
μ = 0, σ 2 = 1.0,
0.8 μ = 0, σ 2 = 5.0,
μ = −2, σ 2 = 0.5,
0.6
φμ,σ (x)
2
0.4 -3 -2 -1
0.2
0.0
−5 −4 −3 −2 −1 0 1 2 3 4 5
x
Mesures expérimentales
On a généré 200 échantillons de taille 9 suivant une loi LG (600, 100). Pour
chaque échantillon, on a pu calculer la moyenne de l’échantillon.
On a soustrait ensuite l’espérance de 600 au résultat.
Théoriquement, la moyenne observée devrait être autour de 0 !
Représentation
On suppose que l’on observe pour n individus, deux variables X et Y . On
peut donc considérer que l’on possède n couples (xi , yi ) ou de manière
équivalente deux vecteurs de Rn .
On souhaite déterminer un modèle qui utilisant X , permet d’améliorer la
prédiction de Y . Pour cela, on peut procéder à une représentation
graphique. On détermine un diagramme dit diagramme en xy en
représentant le nuage des point (xi , yi ).
Modèle
Connaissant juste Y , la meilleure prédiction possible est ȳ .
On souhaite déterminer un modèle qui utilisant X , permet d’améliorer
cette prédiction de Y . Le modèle plus simple est le modèle linéaire.
En pratique
Il n’existe jamais une droite qui permet de manière parfaite de prédire la
valeur de Y (sa moyenne) à partir de X ... le modèle sera acceptable si
l’erreur autour de la prédiction est une variable aléatoire suit une loi
normale de moyenne nulle et de faible variance.
Construction
La droite de régression minimise les carrés des écarts verticaux entre yi et
axi + b, on l’appelle donc la droite des moindres carrés.
Cette droite peut toujours se calculer que X et Y soient ou non reliées par
un modèle linéaire. On peut également supposer que X n’est pas une
variable aléatoire, le modèle n’étant pas symétrique.
Modélisation
On suppose que l’on observe pour n individus, deux variables X et Y . On
peut donc considérer que l’on possède n couples (xi , yi ).
En minimisant les erreurs verticales aux carrés, on construit une droite dite
droite de régression linéaire de x en y . La droite de régression linéaire est
la droite qui minimise la quantité
n
X
∆(a, b) = (yi − axi − b)2
i=1
Caractérisation
La méthode des moindres carrés trouve une droite qui minimise la somme
des carrés des résidus.
Obtention de a et b
Minimiser la quantité
n
X
∆(a, b) = (yi − axi − b)2
i=1
Obtention de a et b
En résumé,
cov (X , Y )
a=
σx2
b = ȳ − ax̄
avec
n
1X
cov (X , Y ) = xi yi − x̄ ȳ
n
i=1
Centre de gravité
Le point G = (x̄, ȳ ), appelé centre de gravité du nuage est sur la droite de
régression...
Définition
On considère deux variables X et Y . On dit que X et Y sont corrélées s’il
existe un lien entre leurs valeurs. Cette relation est symétrique, les deux
variables sont donc aléatoires.
Usage
On dit qu’il y a corrélation s’il y a dépendance en moyenne : à X = x fixé,
la moyenne Ȳ est fonction de x. Si cette liaison est approximativement
linéaire, on se trouve dans le cas de la corrélation linéaire.
Contre-sens
la non corrélation ne signifie pas l’indépendance...
Ne pas confondre corrélation et causalité.
Bravais-Pearson
Le coefficient de corrélation linéaire (dit de Bravais-Pearson) mesure
exclusivement le caractère plus ou moins linéaire d’un nuage de points.
cov(x, y )
r=
σx σy
Propriétés
1 −1 ≤ r ≤ 1,
2 r = ±1 sont les cas de corrélation linéaire (positive ou négative)
parfaits,
3 r = 0 correspond au cas d’absence totale de corrélation entre X et Y
(ce n’est pas l’indépendance !)
Définition
L’ensemble des observations des valeurs d’un caractère à des époques
successives, au cours du temps, constitue une série chronologique.
On traite toujours une série chronologique suivant l’ordre du temps.
Décomposition
1 trend : évolution de longue durée ;
2 les variations saisonnières : phénomène périodique ;
3 la composante cyclique : parfois cachée dans le trend ;
4 les variations aléatoires : ce que le modèle n’explique pas.
Modèles
modèle additif : série = saison + trend + cyclique + aléa ;
modèle multiplicatif : saison proportionnelle au trend.
Variations saisonnières
On détermine les variations saisonnières à partir des variations moyennes
des écarts sur une saison donnée.