Académique Documents
Professionnel Documents
Culture Documents
Analyse descriptive
1. Définitions
Statistique
Statistique = ensemble de méthodes permettant de décrire et d’analyser des observations (ou
données). Ces observations consistent généralement en la mesure d’une ou plusieurs
caractéristiques communes sur un ensemble de personnes ou d’objets équivalents.
L’ensemble de personnes ou d’objets équivalents étudié s’appelle la population.
Chaque objet d’une population s’appelle un individu ou unité statistique.
Les caractéristiques que l’on mesure s’appellent des variables.
Les mesures s’appellent des observations.
La série d’observations recueillies s’appelle série statistique. Elle est généralement retranscrite
dans un tableau de données.
Econométrie
Structure de données
2. Séries temporelles
Séries chronologiques de périodicité pré-spécifiée (mensuelles, trimestrielles, annuelles)
Une variable aléatoire est quelque chose qu'on mesure. Elle est aléatoire car une partie des
mesures sont dues au hasard.
La distribution d’une variable aléatoire suit une loi : c'est la liste des probabilités de chacune
des valeurs qu'elle peut prendre.
On va utiliser le plus fréquemment la loi normale. Quand une variable est la résultante d'un
grand nombre de variables aléatoires indépendantes alors cette loi suit la loi normale.
Exemple : le poids à la naissance : c'est la résultante de plusieurs facteurs indépendants comme
des facteurs génétiques, le terme, l'alimentation de la mère, etc. Si on mesure le poids dans un
échantillon, la distribution générale suit la loi normale (le test de distribution permet de voir si
elle suit une loi normale).
Variable quantitative : caractéristiques numériques (taille, âge, etc.). S’expriment par des
nombres réels sur lesquels les opérations arithmétiques de base (somme, moyenne, etc.) ont un
sens. Peuvent être discrètes (nombre fini ou dénombrable de valeurs : âge, etc.) ou continues
(toutes les valeurs réelles sont susceptibles d’être prises : taille, etc.).
Variable qualitative : caractéristiques non numériques dans le sens où les opérations de base
n’ont pas de sens. Peuvent être nominales (sexe, etc.) ou ordinales lorsque l’ensemble des
catégories est muni d’un ordre total (très résistant, assez résistant, peu résistant, etc.). Les
différents niveaux d’une variable qualitative s’appellent des modalités (ou catégories).
Remarque :
Le quantitatif peut devenir qualitatif mais le qualitatif ne peut pas devenir quantitatif.
Pour le poids chez un nouveau-né, on peut aller de 500g à 5000g (c'est donc une variable
quantitative). On peut néanmoins la transformer en variable qualitative en fixant des classes
pour faire ressortir ce qui nous intéresse : faible poids, poids normal et poids élevé par exemple.
On utilisera alors un diagramme en bâton.
Variable qualitative : on utilise le diagramme en bâton. Cela permet de voir très rapidement
les différences. Il y a aussi le camembert mais il ne permet pas de voir les différences, mais il
est intéressant quand on veut faire ressortir une part par rapport aux autres.
Mesure de position :
Médiane
En représentation graphique, on va préférer la médiane car elle n'est pas sensible aux valeurs
extrêmes. Quand on suit la loi normale, on minimise les valeurs extrêmes.
La médiane est ce qui coupe l’échantillon en deux : 50%/50%. Si la distribution est symétrique
la moyenne est égale à la médiane.
Moyenne
Formule :
Mesure de dispersion :
Ecart-type
Il mesure la dispersion, ou l'étalement, d'un ensemble de valeurs autour de leur moyenne. Plus
l'écart-type est faible, plus la population est homogène.
Variance
On a aussi la variance. L'écart type est la racine carrée de la variance. Plus la variance (l’écart
type) est faible, plus les valeurs sont regroupées autour de la moyenne.
Formule :
Quantiles
Ils correspondent à des valeurs de la variable statistique qui partagent la série ordonnée en L
parties égales. Si L = 4, les quantiles sont appelés quartiles. Il y a 3 quartiles, appelés Q1,
Q2=Me et Q3.
L’étendue
Formule :
Quand on a une variable quantitative, on calcule le coefficient de corrélation r pour voir s'il
y a un lien entre deux variables. Dans le cadre d'une représentation graphique, c'est le coefficient
directeur de la droite.
Lorsqu’on veut tester la relation entre deux variables qualitatives, on calcule le risque relatif
(RR).
On mesure alors la force de liaison entre deux variables qualitatives et binaires.
En santé, on l'utilise beaucoup (exemple : présence ou absence de maladie: c'est binaire).
Mais on ne calcule que rarement le RR (car il est difficilement calculable), on calcule à la place
l'odds ratio (OR). Si la maladie est rare (c'est à dire qu'elle ne dépasse pas les 2-3%, ce qui
arrive souvent en médecine), on peut assimiler l'OR au RR.
On calcule l'OR soit directement soit avec les régressions logistiques (cf plus loin).
Le petit p :
L'intervalle de confiance (IR) est l'intervalle dans lequel on a 95% de chances de trouver la
vraie valeur.
On va utiliser l’écart type pour le calculer. Si on a un paramètre avec une distribution normale
et un échantillon tiré au sort, on calcule l'intervalle de confiance.
Attention si l’échantillon n'est pas tiré au sort, on ne peut pas dire que l'IC contient la vraie
valeur à 95%. Ça donne juste une idée où se trouve la valeur approximativement.
Si on n'a pas les conditions nécessaires pour utiliser le test-T, on peut utiliser alors le test de
Mann Whitney = test de Wilcoxon. On ne l'utilise que rarement car c’est difficile de comparer
quand on a moins de 30. Plus l’échantillon augmente, plus on considère qu'on suit la loi
normale.
Exemple 1 :
On veut comparer le nombre d'enfants entre 2 groupes. Les effectifs des 2 groupes sont faibles
(moins de 30).
La moyenne des 2 groupes sera différente (car une mère dans le groupe A a eu 14 enfants). Plus
on va augmenter le groupe, plus ces valeurs extrêmes auront moins d'impact dans nos calculs.
Remarque : en pratique, c’est mieux de dépasser un effectif de 50 dans chaque groupe. Entre
50 à 100 c'est correct. Si on ne peut pas faire les tests statistiques, il faut faire des représentations
graphiques. Dans tous les cas, on fait la représentation graphique avant de faire les tests.
Ici, on peut donc faire un diagramme en bâton en utilisant des variables catégorielles.
12 Variable catégorielle :
10 A 1 à 2 enfants → a
8 B
2 à 5 enfants → b
6
supérieur à 5 → c
4
2
0
a b c
Sur le graphique pris comme exemple, on voit qu'il n'y a pas de différence : il y a une forte
chance que les groupes ne soient pas différents par rapport à cette variable. On n'est pas toujours
obligé de faire des tests : le test statistique permet de confirmer. Le graphique donne l'intuition.