Académique Documents
Professionnel Documents
Culture Documents
1
Généralités sur la statistique
Définition :
On appelle Statistique l’ensemble des
méthodes (ou encore des techniques)
permettant d’analyser (on dira plutôt de
traiter) des ensembles d’observations (nous
parlerons de données).
Statistique descriptive et
statistique inférentielle
2
Statistique descriptive
présenter, organiser et résumer
des observations dans le but de
décrire l’échantillon
Statistique inférentielle
tirer des conclusions au sujet
d'une population à partir d'un échantillon
provenant de cette population
3
Terminologie de base
On précise ici un certain nombre de termes statistiques
qui seront régulièrement utilisées
Population (ou population statistique) :
Ensemble concerné par une étude
statistique. On parle aussi de champ de
l’étude.
Terminologie de base
Echantillon :
Un sous-ensemble de la population sur
lequel sont effectivement réalisées les
observations.
Dans une étude statistique, il est fréquent
que l’on n’observe pas la population tout entière
4
Les variables
Variable :
Caractéristique de l’unité statistique que l’on désire étudier.
Une variable peut prendre différentes valeurs
selon l’unité statistique considérée.
Valeur :
Les valeurs de la variable sont les différentes quantités
numériques ou choix de réponse possibles que l’on trouve
dans l’ensemble des données.
5
Les types de variables
Quantitatives
Discrète : Variable dont on peut énumérer les valeurs qu’elle
peut prendre
Continue : Variable dont les données recueillies sont des
quantités numériques approximatives ou arrondies.
Catégorielles (qualitatives)
Nominale : variable dont les différentes modalités
correspondent à des noms, sans ordre précis.
Ordinale : Variable catégorielle dont les différentes catégories
peuvent être classées dans un certain ordre.
6
Série statistique
Un ensemble de couples (xi, ni), où les xi sont
les valeurs prises du caractère et les ni le nombre
de fois où la valeur xi apparaît.
L’e ec f total de l’échan llon est donc n = ∑ni.
On appelle fréquence d’apparition de xi le
nombre fi = ni/n
7
Les mesures de tendance centrale
Mode
8
Mode
Avantages
Il s’applique aux variables de tous les niveaux de
mesure
Il est le seul paramètre de mesure de tendance
centrale pour les données nominales
Inconvénients
Moins utilisé car très sommaire
Il peut être difficile à interpréter
Il peut y en avoir plusieurs
La Moyenne
La moyenne représente la mesure la plus courante
de tendance centrale des observations.
Elle se calcule en additionnant les valeurs
observées de chaque individu divisées par le
nombre de sujets observés.
9
La Moyenne
Avantages
Simplicité du calcul
Bon estimateur pour faire de l’inférence sur la
population
Inconvénients
Juste pour les variables quantitatives
Est facilement affectées par les valeurs extrême
La médiane
10
La Médiane
Avantages
Elle s’applique aux variables ordinales et
quantitatives
Elles n’est pas influencée par les valeurs
extrêmes
Elle est un bon substitut de la moyenne
Désavantages
Ne s’applique pas pour les variables
nominales
Le choix de la mesure de
tendance centrale
Nominale Mode
Qualitative Médiane
Ordinale
Moyenne
Discrète Mode
Quantitative ou Médiane
Continue Moyenne
11
Parfois, les indicateurs de tendance centrale ne
résument pas convenablement une série statistique
Exemple:
Dispersions
Renseignent sur :
L’étalement des données
Étendue
La variabilité des données
Variance et écart-type
L’homogénéité des données
Coefficient de variation
12
Étendue
Différence entre la valeur observée la plus élevée et la valeur
observée la moins élevée d’une distribution de variables.
Étendue
Avantages
Simplicité du calcul
Désavantages
Basée seulement sur les valeurs extrêmes
Information sommaire
13
Variance et écart-type
Renseignent sur la variabilité des données
Variance
Mesure la distance de chaque observation
par rapport à la moyenne.
L’écart-type
Il s’interprète mieux que la variance, car il
donne les unités utilisées dans l'échelle
originale et non dans leur forme au carré.
C’est tout simplement la racine carré de la
variance!
On utilise l’écart-type corrigé en présence
d’un échantillon (n-1).
14
Règle empirique
L’écart-type
Avantages
Mesures particulièrement représentatives de la réalité
lorsque la distribution est normale
Tiennent compte de toutes les valeurs de la distribution
donc représentent bien sa dispersion
Utiles pour comparer la dispersion d’une variable d’une même
population à des temps différents ou de populations semblables.
Désavantages
Mesures affectées par les valeurs extrêmes
Difficultés d’interprétation liées au fait que la valeur de
l’écart-type varie selon les valeur de la variable
15
Coefficient de variation
Renseigne sur l’homogénéité des données
Permet d’évaluer l’importance relative de la dispersion
donc de comparer des distributions entre elles.
Le CV divise l’écart-type par la moyenne.
Coefficient de variation
Interprétation
Plus le CV est grand, plus la dispersion des
données est grande.
Plus le CV est faible (près de 0), plus les
données sont homogènes
donc plus la moyenne est représentative
16
Coefficient de variation
Avantages
C’est une mesure neutre, donc on peut comparer
l’homogénéité de plusieurs distributions entre elles,
même si leurs données ne sont pas exprimées avec
les mêmes unités de mesure .
Prend en considération toutes les données.
Désavantage
Ne s’applique qu’aux variables quantitatives.
Exercice1
17
Exercice2
18