Vous êtes sur la page 1sur 8

Econométrie

Analyse descriptive

1. Définitions

Statistique
Statistique = ensemble de méthodes permettant de décrire et d’analyser des observations (ou
données). Ces observations consistent généralement en la mesure d’une ou plusieurs
caractéristiques communes sur un ensemble de personnes ou d’objets équivalents.
L’ensemble de personnes ou d’objets équivalents étudié s’appelle la population.
Chaque objet d’une population s’appelle un individu ou unité statistique.
Les caractéristiques que l’on mesure s’appellent des variables.
Les mesures s’appellent des observations.
La série d’observations recueillies s’appelle série statistique. Elle est généralement retranscrite
dans un tableau de données.

Econométrie

L’économétrie et la biostatistique sont deux disciplines différentes.


La statistique est un outil de l’économétrie.

Econométrie : mettre en évidence empiriquement et quantifier des relations causales entre


phénomènes économiques.
Tester empiriquement une théorie ou une hypothèse.
Postulat de base : Toutes choses égales par ailleurs

Mettre en évidence des relations causales.


Tester la théorie.
Faire des prévisions.

Structure de données

1. Données transversales (cross-section)


Données individuelles couvrant un instant t donné (mois, année…)

2. Séries temporelles
Séries chronologiques de périodicité pré-spécifiée (mensuelles, trimestrielles, annuelles)

3. Données de panel (données en cluster)


Double dimension : individuelle et autre dimension
Variable aléatoire / loi de probabilités

Une variable aléatoire est quelque chose qu'on mesure. Elle est aléatoire car une partie des
mesures sont dues au hasard.
La distribution d’une variable aléatoire suit une loi : c'est la liste des probabilités de chacune
des valeurs qu'elle peut prendre.
On va utiliser le plus fréquemment la loi normale. Quand une variable est la résultante d'un
grand nombre de variables aléatoires indépendantes alors cette loi suit la loi normale.
Exemple : le poids à la naissance : c'est la résultante de plusieurs facteurs indépendants comme
des facteurs génétiques, le terme, l'alimentation de la mère, etc. Si on mesure le poids dans un
échantillon, la distribution générale suit la loi normale (le test de distribution permet de voir si
elle suit une loi normale).

Différents types de variables

Variable quantitative : caractéristiques numériques (taille, âge, etc.). S’expriment par des
nombres réels sur lesquels les opérations arithmétiques de base (somme, moyenne, etc.) ont un
sens. Peuvent être discrètes (nombre fini ou dénombrable de valeurs : âge, etc.) ou continues
(toutes les valeurs réelles sont susceptibles d’être prises : taille, etc.).

Variable qualitative : caractéristiques non numériques dans le sens où les opérations de base
n’ont pas de sens. Peuvent être nominales (sexe, etc.) ou ordinales lorsque l’ensemble des
catégories est muni d’un ordre total (très résistant, assez résistant, peu résistant, etc.). Les
différents niveaux d’une variable qualitative s’appellent des modalités (ou catégories).

Remarque :
Le quantitatif peut devenir qualitatif mais le qualitatif ne peut pas devenir quantitatif.
Pour le poids chez un nouveau-né, on peut aller de 500g à 5000g (c'est donc une variable
quantitative). On peut néanmoins la transformer en variable qualitative en fixant des classes
pour faire ressortir ce qui nous intéresse : faible poids, poids normal et poids élevé par exemple.
On utilisera alors un diagramme en bâton.

2. Description des variables

Représentation graphique des différentes variables

Variable quantitative : on utilise l’histogramme (ou boite à moustache, plus rare).

Variable qualitative : on utilise le diagramme en bâton. Cela permet de voir très rapidement
les différences. Il y a aussi le camembert mais il ne permet pas de voir les différences, mais il
est intéressant quand on veut faire ressortir une part par rapport aux autres.

Mesure de position et de dispersion

Mesure de position :

Les mesures de positions utilisées sont la médiane et la moyenne.

Médiane
En représentation graphique, on va préférer la médiane car elle n'est pas sensible aux valeurs
extrêmes. Quand on suit la loi normale, on minimise les valeurs extrêmes.
La médiane est ce qui coupe l’échantillon en deux : 50%/50%. Si la distribution est symétrique
la moyenne est égale à la médiane.

Moyenne
Formule :

La moyenne/espérance (espérance = valeur réelle) permet de faire des calculs (propriété


comptable).
Mode
Le mode est la valeur de la variable statistique la plus fréquente.

Mesure de dispersion :

Ecart-type
Il mesure la dispersion, ou l'étalement, d'un ensemble de valeurs autour de leur moyenne. Plus
l'écart-type est faible, plus la population est homogène.

Variance
On a aussi la variance. L'écart type est la racine carrée de la variance. Plus la variance (l’écart
type) est faible, plus les valeurs sont regroupées autour de la moyenne.

Formule :

Quantiles
Ils correspondent à des valeurs de la variable statistique qui partagent la série ordonnée en L
parties égales. Si L = 4, les quantiles sont appelés quartiles. Il y a 3 quartiles, appelés Q1,
Q2=Me et Q3.

L’étendue
Formule :

3. Liaison entre deux variables


Coefficient de corrélation :

Quand on a une variable quantitative, on calcule le coefficient de corrélation r pour voir s'il
y a un lien entre deux variables. Dans le cadre d'une représentation graphique, c'est le coefficient
directeur de la droite.

Formule du coefficient de corrélation r :


La variance représente la moyenne des écarts à la moyenne élevés au carré.


Formule de la variance : varx = (x − x̄ )² (/N)

La covariance entre deux variables :


Formule de la covariance : cov(x; y) = (x − x̄ )(y − ȳ ) (/N)

Risque relatif et odds ratio :

Lorsqu’on veut tester la relation entre deux variables qualitatives, on calcule le risque relatif
(RR).
On mesure alors la force de liaison entre deux variables qualitatives et binaires.
En santé, on l'utilise beaucoup (exemple : présence ou absence de maladie: c'est binaire).
Mais on ne calcule que rarement le RR (car il est difficilement calculable), on calcule à la place
l'odds ratio (OR). Si la maladie est rare (c'est à dire qu'elle ne dépasse pas les 2-3%, ce qui
arrive souvent en médecine), on peut assimiler l'OR au RR.
On calcule l'OR soit directement soit avec les régressions logistiques (cf plus loin).

Le petit p :

Le petit p permet de voir si la différence est significative ou non.


On calcule le petit p quand on a estimé le coefficient r par exemple : on ne sait pas si cette
valeur est significativement vraie ou pas.
On fait ça pour éliminer les 5% du hasard. Si p est inférieur à 0,05 (5%), la différence est
significative. Il permet de voir si au risque de 5%, on peut considérer la valeur comme une vraie
valeur ou pas.
L'intervalle de confiance :

L'intervalle de confiance (IR) est l'intervalle dans lequel on a 95% de chances de trouver la
vraie valeur.
On va utiliser l’écart type pour le calculer. Si on a un paramètre avec une distribution normale
et un échantillon tiré au sort, on calcule l'intervalle de confiance.
Attention si l’échantillon n'est pas tiré au sort, on ne peut pas dire que l'IC contient la vraie
valeur à 95%. Ça donne juste une idée où se trouve la valeur approximativement.

L’IC se mesure avec la formule :


IC = [m – 1,96 x e.t ; m + 1,96 x e.t] avec m=moyenne et e.t=écart-type

Comment interpréter un IC?


Imaginons que l'on fasse une étude sur le lien entre tabagisme et cancer du poumon. On cherche
à savoir si le tabagisme est un facteur de risque du cancer de poumon.
Pour cela, on va calculer l'OR (cf ci-dessus). On trouve un OR de 4 avec un intervalle de
confiance à 95% de [2,234; 6,567].
Très grossièrement, cela veut dire que le tabagisme multiplie par 4 le risque de cancer du
poumon. Comment interpréter l'IC?
Ici cela veut dire que, quel que soit le nombre de fois où l'on reproduit l'expérience, on trouvera
un OR compris entre 2,234 et 6,567 (notion de Fluctuation d'échantillonnage). Donc, à
chaque fois, on trouvera que le tabagisme est un facteur de risque de cancer du poumon.
A l'inverse, si l'on trouve un IC de [0,88 ; 2,23], cela veut dire que quand on refait l'expérience
on trouve parfois que le tabagisme est un facteur de risque, parfois un facteur protecteur de
cancer du poumon. Ce n'est pas significatif, on ne peut pas conclure. Ici, l'IC passe par 1, le
résultat n'est pas significatif.

4. Comparaison des variables

Comparaison des variables quantitatives :

On compare des variables quantitatives par la moyenne. Le test de Student permet de


comparer les deux moyennes N1 et N2.
La première condition est qu'il faut des effectifs supérieurs à 30 (en théorie on dit 30 mais
parfois on va jusqu'à 25). Quand on fait ce test on calcule le petit p qui permet de voir si la
différence trouvée par le test-T est significative.
L'autre condition est que la distribution doit être normale. Comment voir si la distribution est
normale ? On compare les écart-types des deux moyennes pour voir si il y a une grosse
différence (qui serait supérieure à 1,5).

Si on n'a pas les conditions nécessaires pour utiliser le test-T, on peut utiliser alors le test de
Mann Whitney = test de Wilcoxon. On ne l'utilise que rarement car c’est difficile de comparer
quand on a moins de 30. Plus l’échantillon augmente, plus on considère qu'on suit la loi
normale.

Exemple 1 :
On veut comparer le nombre d'enfants entre 2 groupes. Les effectifs des 2 groupes sont faibles
(moins de 30).

La moyenne des 2 groupes sera différente (car une mère dans le groupe A a eu 14 enfants). Plus
on va augmenter le groupe, plus ces valeurs extrêmes auront moins d'impact dans nos calculs.
Remarque : en pratique, c’est mieux de dépasser un effectif de 50 dans chaque groupe. Entre
50 à 100 c'est correct. Si on ne peut pas faire les tests statistiques, il faut faire des représentations
graphiques. Dans tous les cas, on fait la représentation graphique avant de faire les tests.

Ici, on peut donc faire un diagramme en bâton en utilisant des variables catégorielles.
12 Variable catégorielle :
10 A 1 à 2 enfants → a
8 B
2 à 5 enfants → b
6
supérieur à 5 → c
4
2
0
a b c

Sur le graphique pris comme exemple, on voit qu'il n'y a pas de différence : il y a une forte
chance que les groupes ne soient pas différents par rapport à cette variable. On n'est pas toujours
obligé de faire des tests : le test statistique permet de confirmer. Le graphique donne l'intuition.

Comparaison des variables qualitatives :

On compare des pourcentages grâce au test de Chi2.


Les conditions d'application sont les suivantes : les effectifs ne sont pas faibles (environ une
dizaine) et les pourcentages ne sont pas très proches de zéro et pas très proches de 100. Si les
effectifs ne sont pas importants, on utilise le test de Fisher.
Imaginons un essai thérapeutique dont le but est de prouver que l'utilisation du paracétamol
réduit la douleur chez les patients. Pour cela, on va tirer au sort (randomisation) dans la
population un certain nombre de patients qui vont participer à l'essai thérapeutique. On va alors
constituer deux groupes à partir de ce tirage au sort :
- Un groupe traité par placebo (100 patients)
- Un groupe traité par paracétamol (100 patients)
Avant de démarrer notre étude, on va s'assurer, par des tests statistiques, que nos deux groupes
sont comparables, ce qui est très souvent le cas lorsqu’on fait de la randomisation. Une fois
qu’on a montré que nos deux groupes étaient comparables, on va mesurer la douleur dans
chaque groupe : 0 si le patient n'a pas mal, 1 si le patient a mal. Cette mesure constitue notre
critère de jugement principal (car c'est sur ce critère qu'on va juger l'efficacité ou non du
paracétamol). Imaginons maintenant que les résultats sont les suivants :
- Dans le groupe traité par placebo : 70% des personnes ont mal
- Dans le groupe traité par paracétamol : 30% des personnes ont mal
On voit donc qu'il existe une différence entre les deux groupes, ce sont les tests statistiques (ici
test du Khi-deux car on compare des pourcentages) qui va s’assurer si cette différence est
significative ou pas.

Vous aimerez peut-être aussi