Vous êtes sur la page 1sur 132

Statistiques Economie L2

Dr OKOU G. CYRILLE
PhD en Mathématiques appliquées,
Spécialité: Statistique
Enseignant-Chercheur
Probabilité et Statistique
- Estimation ponctuelle
- Estimation par intervalle de Confiance
Statistiques Inférentielles
- Tests Hypothèses
PLAN
 Estimation ponctuelle
 Estimation par intervalle de confiance
 Tests Hypothèses
• Notion de test d’hypothèse
• Test de conformité à une norme
• Tests de conformité en loi
• Test d’homogénéité ou de comparaison
• Test d’indépendance
Statistique Inférentielle
Statistique Inférentielle
Estimation ponctuelle

La distribution exacte d’une variable X modélisant le caractère qui intéresse le


statisticien (taux de pollution d’une rivière, dépenses des ménages pour le
logement...) est généralement partiellement connue. Souvent la loi de X
dépend d’un paramètre inconnu. On cherche à se faire une idée sur ce
paramètre à partir des données observées sur l’´échantillon.

Attribuer au paramètre une valeur numérique unique est une ESTIMATION


PONCTUELLE. Pour ce faire, on choisit une statistique dont la valeur est, après
tirage aléatoire de l’échantillon, l’estimation du paramètre. Cette statistique
est l’ESTIMATEUR.
Statistique Inférentielle
Estimation ponctuelle

Mais quelles sont les chances pour que cette estimation ponctuelle soit
exacte? Plutôt que d’estimer un paramètre à l’aide d’un seul nombre, il
arrive fréquemment que l’on fasse l’estimation en donnant un INTERVALLE
de valeurs. Un INTERVALLE D’ESTIMATION (ou de CONFIANCE) est défini de
telle sorte que l’on puisse affirmer avec un degré de confiance fixé que le
paramètre visé se trouve dans cet intervalle.

Nous nous intéresserons dans ce chapitre à l’estimation des principales


caractéristiques (ou paramètres) d’une variable aléatoire dans une
population, à savoir la moyenne, la variance et la fréquence.
Statistique Inférentielle
Estimation ponctuelle
L’estimation ponctuelle ou l’estimation de point d’un paramètre est la
connaissance de la seule valeur estimée de ce paramètre. Les paramètres
les plus recherchés sont la moyenne, la variance et la proportion.

PRINCIPES GENERAUX DE L’ESTIMATION


Soit une population quelconque, dont la distribution de probabilité est
fonction d’un paramètre : et un échantillon aléatoire et simple d’effectif n
extrait de cette population.
Soit X le caractère que l’on voudrait étudier sur l’ensemble d’une
population. On note le résultat du k ième tirage aléatoire, est une v.a qui
suit la même loi que X. On note le résultat du k ième tirage.
On note les résultats aléatoires de ces tirages
Statistique Inférentielle
Estimation ponctuelle

Définition :
sont n variables aléatoires (v.a.) indépendantes et de même loi (celle de X);
il est appelé n-échantillon ou échantillon de taille n de X. Après tirage
aléatoire, prend les valeurs .
La réalisation unique de l’échantillon est l’ensemble des valeurs
observées.

Soit X une v.a. dont la loi dépend d’un paramètre inconnu . Soit un n-
échantillon de X et sa réalisation. Il s’agit d’estimer le paramètre .
Statistique Inférentielle
Estimation ponctuelle
Principes généraux
Définition : Un ESTIMATEUR de sera une statistique et sa réalisation sera notée

Pour un même paramètre, il peut y avoir plusieurs estimateurs possibles (ex: Le


paramètre d’une loi de Poisson admet comme estimateurs possibles la moyenne
empirique et la variance empirique). Pour pouvoir choisir, il faut définir les
qualités qui font qu’un estimateur sera meilleur.
On appelle erreur d’estimation:
Celle-ci peut se décomposer de la façon suivante:
Le terme traduit la fluctuation de T autour de son espérance
Le terme représente l’erreur systématique et s’appelle BIAIS de l’ESTIMATEUR.
Statistique Inférentielle
Estimation ponctuelle
Principes généraux

Définition (estimateur sans biais): Un estimateur T de est dit sans biais si ,


(ou bien )

Exemple :
La moyenne empirique est un estimateur sans biais du paramètre d’une loi de
Poisson. La variance empirique est estimateur biaisé du même paramètre .
En effet:   , . Car
Statistique Inférentielle
Estimation ponctuelle
Principes généraux

Définition :
• Un estimateur T de est dit asymptotiquement sans biais si Pour .
• Un estimateur sans biais asymptotiquement sans biais est dit convergent si
pour .
• Soient deux estimateurs sans biais de . T est dit plus efficace que
si
•   L’estimateur sans biais et de variance minimale est appelé estimateur efficace.
Statistique Inférentielle
Estimation ponctuelle
Principes généraux
Inégalité de Fréchet-Darmois-Cramer-Rao (FDCR)
Si X prend ses valeurs dans un ensemble qui ne dépend pas de θ, si la densité 𝑓( 𝑥, 𝜃) est deux
fois continûment dérivable par rapport à θ, et sous certaines conditions de régularité, tout
estimateur 𝑇 sans biais de θ dont la variance existe vérifié l’inégalité FDCR :
où 𝑒st la quantité d’information de Fisher définie par:
avec : est la vraisemblance
Définition : On appelle vraisemblance (likelihood) de l’échantillon la loi de probabilité de ce n-
uple, notée et définie par:
Statistique Inférentielle
Estimation ponctuelle
Principes généraux
Les conditions de régularité sont :
• On suppose que l’ensemble des estimateurs Θ est un ensemble ouvert sur
lequel la densité 𝑓(𝑥,𝜃) ne s’annule en aucun point x et est dérivable par rapport
à 𝜃.
• On suppose aussi que l’on peut intervenir dérivation par rapport à 𝜃 et
intégration, et que la quantité d’information de Fisher est strictement positive.

La borne inférieure pour la variance des estimateurs sans biais peut être atteinte
ou non. Si cette borne est effectivement atteinte par un estimateur, il sera donc
le meilleur, selon ce critère parmi l’ensemble des estimateurs sans biais. Cette
optimalité est traduite par la définition suivante :
Statistique Inférentielle
Estimation ponctuelle
Principes généraux

Définition : Un estimateur sans biais T est efficace si sa variance est égale à la


borne inférieure de FDCR :
Statistique Inférentielle
Estimation ponctuelle
Principes généraux
Statistique Inférentielle
Estimation ponctuelle
Principes généraux
Nous dérivons par rapport au paramètre 𝜃 :
Statistique Inférentielle
Estimation ponctuelle
Principes généraux
Statistique Inférentielle
Estimation ponctuelle: Méthode non paramétrique
• Estimation de la moyenne
Soit X une v.a dont on veut estimer la moyenne (ou espérance) à partir d’un n-
échantillon de X.
On ne suppose rien sur la loi de X.
Théorème
, la moyenne empirique, est un estimateur efficace de .
car sans biais et de plus pour et , un autre estimateur de μ , .
est la réalisation de et donc une estimation efficace de μ
Statistique Inférentielle
Estimation ponctuelle: Méthode non paramétrique
• Soit X une v.a qui suit une loi Normale . On veut estimer la variance de de X.
connue est un estimateur sans biais de la variance

Donc sans biais


Statistique Inférentielle
Estimation ponctuelle: Méthode non paramétrique

inconnue

c’est-à-dire la variance empirique, est un estimateur biaisé de la variance ,


mais asymptotiquement sans biais
Statistique Inférentielle
Estimation ponctuelle: Méthode non paramétrique
Statistique Inférentielle
Estimation ponctuelle des paramètres usuels
Statistique Inférentielle
Estimation ponctuelle des paramètres usuels
Estimation d’une proportion
Soit une population ayant des individus possédant une certaine
caractéristique A. On veut estimer à partir d’un échantillon de taille n la
proportion d’individus possédant cette caractéristique A. Soit K la v.a qui
représente le nombre d’individus dans l’échantillon possédant la
caractéristique A.
Statistique Inférentielle
Estimation ponctuelle: Méthode Paramétrique
l'objectif d' une procédure d'estimation est de révéler de l'information sur le
(ou les) paramètre(s) d'intérêt de la population à partir d'un échantillon
aléatoire. Le problème général est le suivant. On suppose que la
caractéristique d'intérêt dans la population, notée X, est une variable
aléatoire4 définie sur un univers probabilisé

La loi de probabilité de cette variable aléatoire est représentée, soit par une
fonction de densité si X est une variable continue, soit par une fonction de
masse si X est une variable discrète. On suppose que cette fonction de
densité ou de masse dépend d' un paramètre e, qui est a priori inconnu et
que l'on cherche à estimer. Soit , la fonction de densité ou de masse de la
variable X.
Statistique Inférentielle
Estimation ponctuelle: Méthode Paramétrique
Pour estimer le paramètre e, on dispose d' un n-échantillon dans lequel toutes les
variables aléatoires , pour i = 1, ... ,n, sont supposées indépendantes et identiquement
distribuées (i.i.d.), de même loi que X. On note la réalisation de cet échantillon: cette
réalisation correspond aux données (fichier Excel, tableau de valeurs, etc.) utilisées pour
l'estimation.
Statistique Inférentielle
Estimation ponctuelle: Méthode Paramétrique
Un estimateur est une variable aléatoire:
La théorie générale de l'estimation repose sur la notion d'estimateur.

Définition
Statistique Inférentielle
Estimation ponctuelle: Méthode Paramétrique
Un estimateur est une variable aléatoire:
Statistique Inférentielle
Estimation ponctuelle: Méthode Paramétrique

Un estimateur est une variable aléatoire

Propriété: Un estimateur est une variable aléatoire, puisque c'est une


fonction des variables aléatoires de l'échantillon.
si l'on introduit les variables aléatoires du n-échantillon dans une fonction
(somme, produit, etc.), il en ressort une variable aléatoire. C'est pourquoi un
estimateur
Statistique Inférentielle
Estimation ponctuelle: Méthode Paramétrique
Un estimateur est une variable aléatoire
Statistique Inférentielle
Estimation ponctuelle: Méthode Paramétrique
Définition: La distribution de probabilité d'un estimateur (ou d'une
statistique) est appelée distribution d'échantillonnage
Statistique Inférentielle
Estimation ponctuelle: Méthode Paramétrique
Statistique Inférentielle
 Estimation ponctuelle: Méthode Paramétrique
On peut concevoir une méthode d‘estimation comme une sorte de recette de
cuisine qui permet d'obtenir un estimateur à partir des ingrédients . Plus
formellement, on définit une méthode d'estimation de la façon suivante.
Statistique Inférentielle
 Estimation ponctuelle: Méthode Paramétrique
Pour un même problème, on peut parfois appliquer plusieurs méthodes
d'estimation. À chaque méthode d'estimation correspond un estimateur
particulier. Si l'on se restreint aux seules méthodes d'estimation paramétriques, il
existe de nombreuses méthodes suivant le problème étudié et les hypothèses
retenues. Citons par exemple :
- la méthode des moindres carrés ordinaires;
- la méthode des moindres carrés généralisés ;
- la méthode du maximum de vraisemblance;
- la méthode des moments généralisés;
- la méthode des variables instrumentales;
- la méthode des doubles moindres carrés ordinaires.
Statistique Inférentielle
 Méthode Paramétrique: Maximum de Vraisemblance (EMV)
Supposons que sont les réalisations des variables aléatoires indépendantes de lois
de probabilité inconnues mais identiques. Nous cherchons à estimer cette loi
inconnue à partir des observations . La méthode d’estimation du maximum de
vraisemblance (EMV) est basée sur la vraisemblance, qui est la probabilité
conjointe de la série :
Statistique Inférentielle
 Méthode Paramétrique: Maximum de Vraisemblance (EMV)
Une fois qu’on a obtenu la vraisemblance , on cherche à la maximiser. La
maximisation de est identique à la maximisation de son logarithme ().
L’estimateur qui maximise la vraisemblance c’est celui qui satisfait les conditions
suivantes :
Statistique Inférentielle
 Méthode Paramétrique: Maximum de Vraisemblance (EMV)
Définition : On appelle estimateur du maximum de vraisemblance EMV
toute fonction de () qui vérifie :

Propriété : Si est un estimateur de maximum de vraisemblance de 𝜃, )


est l’estimateur de maximum de vraisemblance de f (𝜃).
Statistique Inférentielle
 Méthode Paramétrique: Maximum de Vraisemblance (EMV)
Statistique Inférentielle
 Méthode Paramétrique: Maximum de Vraisemblance (EMV)
Statistique Inférentielle
 Méthode Paramétrique: Maximum de Vraisemblance (EMV)
Statistique Inférentielle
 Méthode Paramétrique: Maximum de Vraisemblance (EMV)
Statistique Inférentielle
 Méthode Paramétrique: Méthode des Moments

La méthode des moments consiste à estimer les paramètres inconnus en


utilisant les moments d’ordre 1 et 2 : et . Il s’agit de résoudre le système
d’équations en égalant les moments théoriques aux moments empiriques en
fonctions des paramètres inconnues. La solution des équations si elle existe et
est unique, sera appelée estimateur obtenu par la méthode des moments
Statistique Inférentielle
 Méthode Paramétrique: Méthode des Moments
Statistique Inférentielle
 Méthode Paramétrique: Méthode des Moments
Statistique Inférentielle
 Méthode Paramétrique: Méthode des Moments
Statistique Inférentielle
 Méthode Paramétrique: Méthode des Moments
Statistique Inférentielle
 Estimation par intervalle de confiance
L’estimation par intervalle de confiance consiste à déterminer autour de la valeur
estimée un intervalle dont on a de fortes chances de croire qu’il contient la vraie
valeur du paramètre recherché.
Si on s’intéresse à un paramètre , dont on possède un estimateur , l’estimation par
intervalle de confiance consiste à déterminer de part et d’autre de les bornes et
d’un intervalle qui a une forte probabilité de contenir . Cette probabilité est
appelée niveau de confiance et désignée par est alors un risque d’erreur.
Il est donc plus réaliste et plus intéressant de fournir une estimation du type

Plutôt que d’écrire sèchement, car on sait que la valeur estimée t diffère toujours
de la valeur exacte du paramètre recherché, . Il est donc souhaitable de donner la
précision de l’estimation en acceptant de faire une erreur sur celle-ci.
Statistique Inférentielle
 Estimation par intervalle de confiance
Définition: Soit X une v.a. dont la loi dépend d’un paramètre inconnu ;
on appelle INTERVALLE DE CONFIANCE pour de niveau (ou de seuil ), un intervalle qui a la
probabilité de contenir la vraie valeur de .
est un intervalle de confiance de niveau pour signifie

Plus le niveau de confiance est élevé, plus la certitude est grande que la méthode
d’estimation produira une estimation contenant la vraie valeur de.
Les niveaux de confiance les plus fréquemment utilisés sont 90%, 95%, 99%
est appelé le seuil (le risque); on choisira dans la plupart des cas un intervalle à risques
symétriques

Remarque: Si on augmente le niveau de confiance , on augmente la longueur de l’intervalle.


Statistique Inférentielle
 Estimation par intervalle de confiance
Intervalle de confiance pour une moyenne
a) cas où , la taille de l’échantillon, est petite
On suppose que . On distingue deux cas connu et inconnu.

a-1) connu
d’après le théorème centrale limite ()
On se fixe le risque et on cherche dans la table de la loi normale la valeur
telle que
Statistique Inférentielle
 Estimation par intervalle de confiance
Intervalle de confiance pour une moyenne
cas où , la taille de l’échantillon, est petite
On suppose que . On distingue deux cas connu et inconnu.
a-1) connu
Statistique Inférentielle
 Estimation par intervalle de confiance
Intervalle de confiance pour une moyenne
cas où , la taille de l’échantillon, est petite
On suppose que . On distingue deux cas connu et inconnu.
a-1) connu
Si est une réalisation de l’intervalle de confiance de la moyenne d’une population de variance connue est donné par:

Cet intervalle a la probabilité de contenir la valeur de


est le quantile de la loi normale au niveau de probabilité (voir table de la loi
normale centrée réduite. est la moyenne empirique, est l’écart type et n la
taille de l’échantillon
Statistique Inférentielle
 Estimation par intervalle de confiance
Intervalle de confiance pour une moyenne
cas où , la taille de l’échantillon, est petite
On suppose que . On distingue deux cas connu et inconnu.
a-2) inconnu
Dans ce cas, la moyenne d’un échantillon peut toujours être considérée
comme une variable T de Student à (n-1) degré de liberté. La valeur à (n-1)
degré de liberté. On a ainsi :

est la variance empirique (variance biaisée) de


Statistique Inférentielle
 Estimation par intervalle de confiance
Intervalle de confiance pour une moyenne
cas où , la taille de l’échantillon, est petite
On suppose que . On distingue deux cas connu et inconnu.
a-2) inconnu
Statistique Inférentielle
 Estimation par intervalle de confiance
Intervalle de confiance pour une moyenne
cas où , la taille de l’échantillon, est petite
On suppose que . On distingue deux cas connu et inconnu.
a-2) inconnu

On a :
Statistique Inférentielle
 Estimation par intervalle de confiance
Intervalle de confiance pour une moyenne
cas où , la taille de l’échantillon, est petite
On suppose que . On distingue deux cas connu et inconnu.
a-2) inconnu
On a :
Si est une réalisation de une réalisation de l’intervalle de confiance de la
moyenne d’une population de variance empirique est donné par:
Statistique Inférentielle
 Estimation par intervalle de confiance
Intervalle de confiance pour une moyenne
b) cas où , la taille de l’échantillon, est grande
Il n’est plus nécessaire de supposer que X est Gaussienne
b-1) connu
d’après le théorème centrale limite, on a ainsi :
Statistique Inférentielle
 Estimation par intervalle de confiance
Intervalle de confiance pour une moyenne
b) cas où , la taille de l’échantillon, est grande
Il n’est plus nécessaire de supposer que X est Gaussienne
b-1) connu
d’après le théorème centrale limite, on a ainsi :
Si est une réalisation de l’intervalle de confiance de la moyenne d’une population
de variance connue est donné par:
Statistique Inférentielle
 Estimation par intervalle de confiance
Intervalle de confiance pour une moyenne
b) cas où , la taille de l’échantillon, est petite
Il n’est plus nécessaire de supposer que X est Gaussienne
b-2) inconnu
On peut prendre comme intervalle de confiance celui de la section a-2). On peut
également utiliser l’approximation suivante :

Et On se fixe l’erreur et on cherche dans la table de la loi normale la valeur telle


que
Statistique Inférentielle
 Estimation par intervalle de confiance
Intervalle de confiance pour une moyenne
b) cas où , la taille de l’échantillon, est petite
Il n’est plus nécessaire de supposer que X est Gaussienne
b-2) inconnu
Statistique Inférentielle
 Estimation par intervalle de confiance
Intervalle de confiance pour une moyenne
b) cas où , la taille de l’échantillon, est petite
Il n’est plus nécessaire de supposer que X est Gaussienne
b-2) inconnu
Statistique Inférentielle
 Estimation par intervalle de confiance
Intervalle de confiance pour une moyenne
b) cas où , la taille de l’échantillon, est grande
Il n’est plus nécessaire de supposer que X est Gaussienne
b-2) inconnu
Si est une réalisation de une réalisation de l’intervalle de confiance de la
moyenne d’une population de variance empirique est donné par:

Remarque: si n est assez grand, est petit (car ou est petit) et donc meilleure est
la précision de l’estimation
Statistique Inférentielle
 Estimation par intervalle de confiance
Intervalle de confiance pour une proportion
On sait que est un estimateur de où est la proportion de la population possédant
le caractère considéré. On désignera la proportion par p dans la suite de ce cours.
avec est le nombre de succès.
Pour rappel: avec
et . Les sont des variables indépendantes de bernoulli de paramètre p.
La moyenne de F: car
Statistique Inférentielle
 Estimation par intervalle de confiance
Intervalle de confiance pour une proportion
On sait que est un estimateur de où est la proportion de la population possédant
le caractère considéré. On désignera la proportion par p dans la suite de ce cours.
avec est le nombre de succès.
Pour rappel: avec
et . Les sont des variables indépendantes de Bernoulli de paramètre p.
La variance de F: Vcar V
Statistique Inférentielle
 Estimation par intervalle de confiance
Intervalle de confiance pour une proportion
pour , Ou bien
pour ,
On cherche dans la table de loi normale N(0,1) le quantile telle que
Statistique Inférentielle
 Estimation par intervalle de confiance
Intervalle de confiance pour une proportion

Problème : est inconnu


Solution : On remplace par son estimation où (estimation empirique de p)
est la fréquence observée de . On a ainsi:
Statistique Inférentielle
 Estimation par intervalle de confiance
Intervalle de confiance pour une proportion
Problème : est inconnu
Solution : On remplace par son estimation où (estimation empirique de p)
est la fréquence observée de . On a ainsi l’intervalle de confiance de la
proportion p:
Statistique Inférentielle
 Estimation par intervalle de confiance
Intervalle de confiance pour la variance d’une variable Gaussienne
a-1) connu
Soit X une v.a qui suit une loi Normale . L’estimateur sans biais de la variance
de X est donné par :

Sa réalisation est donnée par: et On a ainsi:


est une somme de n v.a. indépendantes de loi normale centrée réduite et
donc:
Statistique Inférentielle
 Estimation par intervalle de confiance
Intervalle de confiance pour la variance d’une variable Gaussienne
a-1) connu
Soit X une v.a qui suit une loi Normale . L’estimateur sans biais de la variance
de X est donné par :

Sa réalisation est donnée par: et On a ainsi:


est une somme de n v.a. indépendantes de loi normale centrée réduite et
donc:
(loi de de n-1 degré de liberté(ddl))
Statistique Inférentielle
 Estimation par intervalle de confiance
Intervalle de confiance pour la variance d’une variable Gaussienne
a-1) connu
On fixe le seuil et on cherche dans la table de les quantiles et

(1)
Statistique Inférentielle
 Estimation par intervalle de confiance
Intervalle de confiance pour la variance d’une variable Gaussienne
a-1) connu
On fixe le seuil et on cherche dans la table de les quantiles et

(1)
Statistique Inférentielle
 Estimation par intervalle de confiance
Intervalle de confiance pour la variance d’une variable Gaussienne
a-1) connu
Si est une réalisation de l’intervalle de confiance de la variance d’une
population de moyenne connu est donné par:

l’intervalle de confiance de l’écart-type d’une population de moyenne connu


est donné par:
Statistique Inférentielle
 Estimation par intervalle de confiance
Intervalle de confiance pour la variance d’une variable Gaussienne
a-2) inconnu
X une v.a qui suit une loi Normale . L’estimateur sans biais de la variance de X
est donné par :

Sa réalisation est donnée par: et On a ainsi:


est une somme de n v.a. indépendantes de loi normale centrée réduite et
donc:
(loi de de ddl = n-1)
Statistique Inférentielle
 Estimation par intervalle de confiance
Intervalle de confiance pour la variance d’une variable Gaussienne
a-2) inconnu
On fixe le seuil et on cherche dans la table de les quantiles et

:
Statistique Inférentielle
 Estimation par intervalle de confiance
Intervalle de confiance pour la variance d’une variable Gaussienne
a-2) inconnu
On fixe le seuil et on cherche dans la table de les quantiles et
Statistique Inférentielle
 Estimation par intervalle de confiance
Intervalle de confiance pour la variance d’une variable Gaussienne
a-2) inconnu
Si est une réalisation de l’intervalle de confiance de la variance d’une
population de moyenne inconnu est donné par:

l’intervalle de confiance de l’écart-type d’une population de moyenne


inconnu est donné par:
Statistique Inférentielle
 Introduction aux tests
Statistique Inférentielle
 Introduction aux tests

Exemples :
: deux populations d’étudiants (de même niveau) ayant suivi des méthodes
pédagogiques différentes ont les mêmes notes moyennes aux examens

: le temps moyen de bon fonctionnement de deux marques de disques durs est


le même.

: la proportion de fumeurs chez les étudiants est la même que dans la


population générale.
Statistique Inférentielle
 Introduction aux tests
Statistique Inférentielle
Principe d’un test statistique
On peut soit rejeter l’hypothèse nulle, soit ne pas la rejeter alors qu’en fait, soit
cette hypothèse est vraie, soit elle ne l’est pas ce qui oblige à utiliser un tableau à 4
cases qui résume l’ensemble des couples (décisions/réalité) :
Statistique Inférentielle
Principe d’un test statistique
Deux types d’erreurs :
« rejeter (décider ) alors que H0 est vraie » (erreur de 1ère espèce)

risque de 1ère espèce (sa valeur est fixée à l’avance : 5%, 1 %, ...).

« ne pas rejeter alors que est vraie » (erreur de 2ème espèce)

risque de 2ème espèce (sa valeur ne peut être calculée que si l’on connaît la
distribution sous ).
Statistique Inférentielle
Principe d’un test statistique
Test bilatéral: Un test est dit bilatéral si la condition de rejet est indépendante du
signe de l’écart observé entre les caractéristiques comparées. Les hypothèses
formulées du test bilatéral sont :
Statistique Inférentielle
Principe d’un test statistique
Test bilatéral
Statistique Inférentielle
Principe d’un test statistique
Test unilatéral à droite
Les hypothèses formulées du test unilatéral à droite sont :
Statistique Inférentielle
Principe d’un test statistique
Test unilatéral à droite
Statistique Inférentielle
Principe d’un test statistique
Test unilatéral à gauche : Les hypothèses formulées du test unilatéral à gauche
sont :
Statistique Inférentielle
Construction des tests statistiques

Différentes étapes doivent être suivies pour tester une hypothèse :


1. Formuler les hypothèses et ;
2. Fixer le seuil de signification ;
3. Préciser la loi de probabilité de l’écart observé, appelé aussi variable de
décision ;
4. Calculer la valeur numérique de la variable de décision ;
5. Déterminer les valeurs critiques qui délimitent la région d’acceptation ;
6. Prendre la décision et conclure.
Statistique Inférentielle
Test de conformité à une norme
Le test de conformité permet de vérifier si un échantillon est représentatif ou non
d’une population vis-à-vis d'un paramètre donné (la moyenne, la variance ou la
fréquence…). Pour effectuer ce test, la loi théorique doit être connue au niveau de
la population.

- Quand il s’agit des petits échantillons (n < 30), la variable aléatoire X étudiée doit
suivre une loi normale .

- En revanche, quand la taille de l’échantillon est suffisamment grande (n ≥ 30), la


loi de la variable aléatoire X converge vers une loi normale et le test est peut-
être appliqué en raison du théorème central-limite.
Statistique Inférentielle
Test de conformité à une norme
• Comparaison d’une moyenne observée et une moyenne théorique
Soit une suite de n variables aléatoires indépendantes et de même loi (loi normale).
L’objectif est de savoir si un échantillon de moyenne , estimateur sans biais de μ,
appartient à une population de référence connue d’espérance et ne diffère de que
par des fluctuations d’échantillonnage, ou bien appartient à une autre population
inconnue d’espérance . Les hypothèses sont exprimées de la façon suivantes :

vs (test bilatéral)

La statistique du test varie selon si la variance de la population de référence est


connue ou non.
Statistique Inférentielle
Test de conformité à une norme
• Comparaison d’une moyenne observée et une moyenne théorique
vs (test bilatéral)
a) Cas d’échantillon de petite taille
Soit une variable aléatoire X suit la loi normale de moyenne μ inconnue et de
variance connue . On a
a-1) Si la variance de la population est connue
Sous :
- On accepte si où est le seuil et est le est le fractile de la loi normale
centrée réduite au niveau . (voir la table de la loi normale centrée
réduite).
- Sinon on rejette si et on accepte
Statistique Inférentielle
Test de conformité à une norme
• Comparaison d’une moyenne observée et une moyenne théorique
vs (test bilatéral)
a)Cas d’échantillon de petite taille
. On a
a-2) Si la variance de la population inconnue
La variance de la population n’étant pas connue, elle est estimée par :

Sous : avec est la loi de Student de n-1 degrés de liberté


-On accepte si où est le seuil et est le est le fractile de la loi Student
au niveau . (voir la table de la loi de Student)
-Sinon on rejette si et on accepte .
Statistique Inférentielle
Test de conformité à une norme
Test unilatéral :
-Si l’hypothèse alternative est (cas unilatéral) : rejet de au
risque α si:
et on accepte

-Si l’hypothèse alternative est : (cas unilatéral) : rejet


de au risque α si :
et on accepte

est le est le fractile de la loi Student au niveau. (voir la table de


la loi de Student)
Statistique Inférentielle
Test de conformité à une norme
• Comparaison d’une moyenne observée et une moyenne théorique
vs (test bilatéral)
b) Cas d’échantillon de petite taille
La statistique du test varie selon si la variance de la population de référence
est connue ou non. Il n’est plus nécessaire de supposer que X est Gaussienne
On a (TCL)
b-1) Si la variance de la population connue
Sous :
-On accepte si où est le seuil et est le est le fractile de la loi normale
centrée réduite au niveau . (voir la table de la loi normale centrée
réduite).
- Sinon on rejette si et on accepte
Statistique Inférentielle
Test de conformité à une norme
• Comparaison d’une moyenne observée et une moyenne théorique
vs (test bilatéral)
b) Cas d’échantillon de petite taille
La statistique du test varie selon si la variance de la population de référence
est connue ou non. Il n’est plus nécessaire de supposer que X est Gaussienne
On a: (TCL)
b-2) Si la variance de la population inconnue
Sous : avec
- On accepte si où est le seuil et est le est le fractile de la loi normale
centrée réduite au niveau . (voir la table de la loi normale centrée
réduite).
- Sinon on rejette si et on accepte
Statistique Inférentielle
Test de conformité à une norme
Comparaison d’une fréquence observée et une fréquence théorique
Soit X une variable qualitative prenant deux modalités (succès X=1, échec X=0);
observée sur une population et un échantillon tiré au hasard de cette population.
La probabilité p est la probabilité du succès P(X = 1) = p et la probabilité d’échec
est P(X = 0) = 1-p.
Le but est de savoir si un échantillon (de grande taille) de fréquence observée
, estimateur de p, appartient à une population de référence connue de fréquence
p0 (H0 vraie) ou à une autre population inconnue de fréquence

f est la réalisation de la variable aléatoire F qui est la fréquence empirique et qui


suit approximativement une loi normale :
Statistique Inférentielle
Test de conformité à une norme
Comparaison d’une fréquence observée et une fréquence théorique
On peut définir une variable aléatoire Z telle que :

Sous
Grace au théorème central-limite, cette variable aléatoire Z suit
approximativement la loi normale centrée réduite Z↝ 𝑁(0,1) si seulement
si n >30, et .
A partir de l’échantillon, on calcule:
Statistique Inférentielle
Test de conformité à une norme
Comparaison d’une fréquence observée et une fréquence théorique

- On accepte si où est le seuil et est le est le fractile de la loi normale


centrée réduite au niveau . (voir la table de la loi normale centrée
réduite).
- Sinon on rejette si et on accepte
Statistique Inférentielle
Test de conformité à une norme
Test unilatéral :
- Si l’hypothèse alternative est (cas unilatéral) : rejet de au
risque α si:
et on accepte
- Si l’hypothèse alternative est : (cas unilatéral) : rejet de au
risque α si :
et on accepte
est le fractile de la loi normale au niveau. (voir la table de la
loi normale)
Statistique Inférentielle
Test de conformité à une variance d’une v.a Gaussienne
On veut tester vs (test bilatéral)
a-1) La moyenne connue

Sous on a:
On cherche la région d’acceptation sous la forme . On fixe le seuil et on cherche dans la
table de les quantiles et
Sous , on a:

- On accepte si [
Statistique Inférentielle
Test de conformité à une variance d’une v.a Gaussienne
On veut tester vs (test bilatéral)
a-2) La moyenne inconnue
Sous on a:
On cherche la région d’acceptation sous la forme On fixe le seuil et on
cherche dans la table de les quantiles et
Sous , on a:

- On accepte si [
Statistique Inférentielle
Test de comparaison de deux variances

Soient deux v.a indépendantes: et . On dispose d’un -échantillon de d’écart


type et d’un -échantillon de d’écart type

On veut savoir si les variances, dans ces deux populations, sont égales (ou
les différences potentielles sont statistiquement non significatives au
seuil α fixé) ou bien ces différences sont statistiquement significatives au
seuil α fixé.
Statistique Inférentielle
Test de comparaison de deux variances
On veut tester vs (test bilatéral)
La statistique utilisée pour réaliser ce test est la statistique de Fisher-
Snédécor F.
Sous , on a :
suit une loi de Fisher-Snedecor à degré de liberté
avec
En pratique, on met toujours au numérateur la plus grande des deux
variances (> ) pour que le rapport des variances soit supérieur à 1.
Statistique Inférentielle
Test de comparaison de deux variances
Pour prendre une décision, la valeur de F observée est comparée à la valeur
théorique lue dans la table de Fisher-Snédeéor de degré de liberté
et pour un risque d’erreur α fixé.

• si l ’hypothèse est rejetée au risque d’erreur α : Les deux échantillons sont


issues des deux populations ayant des variances significativement
différentes au risque d’erreur α ; .
• si l’hypothèse ne peut pas être rejetée au risque d’erreur α : Les deux
échantillons sont issues des deux populations ayant des variances
statistiquement égales à au risque d’erreur α.
Statistique Inférentielle
Comparaison de deux moyennes de deux échantillons gaussiens indépendants
Soient X1 et X2 deux variables aléatoires quantitatives continues observées sur deux
populations indépendantes suivant une loi normale de paramètres
𝑒𝑡 )respectivement.
On tire deux grands échantillons indépendants l’un de l’autre de ces deux populations
de tailles et . On suppose que dans les deux populations les espérances sont égales.
L’hypothèse nulle à tester est donc :

Contre

• On choisit le risque
Statistique Inférentielle
Comparaison de deux moyennes
Cas où les variances théoriques sont connues et inégales

X1↝ N(μ1 , 𝜎1) et X2↝ N(μ2 , 𝜎2) , X1 et X2 sont indépendantes.


• la moyenne dans la première population suit une loi normale telle que :

• la moyenne dans la seconde population suit une loi normale telle que :
Statistique Inférentielle
Comparaison de deux moyennes
Cas où les variances théoriques sont connues et inégales
Statistique Inférentielle
Comparaison de deux moyennes de deux échantillons gaussiens indépendants
Cas où les variances théoriques sont connues et inégales

Il s’agit d’un test bilatéral. La statistique Z calculée à partir des deux échantillons
est :
Statistique Inférentielle
Comparaison de deux moyennes de deux échantillons gaussiens indépendants
Cas où les variances théoriques sont connues et inégales

• On accepte si où est le seuil et est le est le fractile de la loi normale


centrée réduite au niveau . (voir la table de la loi normale centrée
réduite). Les deux échantillons sont issues des deux populations ayant des
espérances statistiquement égales à μ au risque d’erreur α
• Sinon on rejette si et on accepte : Les deux échantillons sont issues des
deux populations ayant des espérances statistiquement et significativement
différentes μ1 et μ2 au risque d’erreur α
Statistique Inférentielle
Comparaison de deux moyennes de deux échantillons gaussiens indépendants
Cas où les variances théoriques sont connues et inégales
Remarque :
Lorsque le test est unilatéral ( par exemple ), la valeur de observée est comparée
sans valeur absolue à la valeur théorique lue dans la table de la loi normale
centrée réduite pour un risque d’erreur α fixé.
est le fractile de la loi normale centrée réduite d’ordre 1-α (.
L’intervalle de rejet pour au risque α est :

Pour un risque de première espèce α = 5%, la valeur de est le fractile de la loi


normale centrée réduite d’ordre 1-α soit 0,95 est égale à 1,645.
Statistique Inférentielle
Comparaison de deux moyennes de deux échantillons gaussiens indépendants
Cas où les variances théoriques sont connues et inégales
Remarque :
Lorsque le test est unilatéral ( par exemple ), la valeur de observée est comparée
sans valeur absolue à la valeur théorique lue dans la table de la loi normale
centrée réduite pour un risque d’erreur α fixé.
est le fractile de la loi normale centrée réduite d’ordre 1-α (.
L’intervalle de rejet pour au risque α est :

Pour un risque de première espèce α = 5%, la valeur de est le fractile de la loi


normale centrée réduite d’ordre 1-α soit 0,95 est égale à 1,645.
Statistique Inférentielle
Comparaison de deux moyennes de deux échantillons gaussiens indépendants
Cas où les variances théoriques sont inconnues, égales et
et , et sont indépendantes.

• la moyenne dans la première population suit une loi normale telle que :
• la moyenne dans la seconde population suit une loi normale telle que :
on peut établir la loi de probabilité de la différence :

On peut définir une autre variable aléatoire T telle que :


Statistique Inférentielle
Comparaison de deux moyennes de deux échantillons gaussiens indépendants
Cas où les variances théoriques sont inconnues, égales et
Statistique Inférentielle
Comparaison de deux moyennes de deux échantillons gaussiens indépendants
Cas où les variances théoriques sont inconnues, égales et
Statistique Inférentielle
Comparaison de deux moyennes de deux échantillons gaussiens indépendants
Cas où les variances théoriques sont inconnues, égales et

• si l’hypothèse ne peut pas être rejetée au risque d’erreur α: Les deux


échantillons sont issues des deux populations ayant des espérances
statistiquement égales à μ au risque d’erreur α.

• si l’hypothèse est rejetée au risque d’erreur α: Les deux échantillons sont


issues des deux populations ayant des espérances statistiquement et
significativement différentes ( μ1 et μ2 ) au risque d’erreur α.
Statistique Inférentielle
Comparaison de deux moyennes de deux échantillons gaussiens indépendants
Cas où les variances théoriques sont inconnues, inégales et
et , et sont indépendantes.
• la moyenne dans la première population suit une loi normale telle que :

• la moyenne dans la seconde population suit une loi normale telle que :

on peut établir la loi de probabilité de la différence :


Statistique Inférentielle
Comparaison de deux moyennes de deux échantillons gaussiens indépendants
Cas où les variances théoriques sont inconnues, inégales et
Statistique Inférentielle
Comparaison de deux moyennes de deux échantillons gaussiens indépendants
Cas où les variances théoriques sont inconnues, inégales et
Statistique Inférentielle
Comparaison de deux moyennes de deux échantillons gaussiens indépendants
Cas où les variances théoriques sont inconnues, inégales et
Statistique Inférentielle
Comparaison de deux moyennes de deux échantillons gaussiens indépendants
Cas où les variances théoriques sont inconnues, inégales et
Statistique Inférentielle
Comparaison de deux proportions (grands échantillons)
Cas où les variances théoriques sont inconnues, inégales et

• si l’hypothèse ne peut pas être rejetée au risque d’erreur α: Les deux


échantillons sont issues des deux populations ayant des espérances
statistiquement égales à μ au risque d’erreur α.

• si l’hypothèse est rejetée au risque d’erreur α: Les deux échantillons sont


issues des deux populations ayant des espérances statistiquement et
significativement différentes ( μ1 et μ2 ) au risque d’erreur α.
Statistique Inférentielle
Comparaison de deux proportions
Soit et deux proportions d'individus d'une certaine modalité A dans deux
populations M1 et M2 respectivement. On tire un échantillon de taille n1 de M1 et
un échantillon de taille n2 de M2. n1 et n2 sont supposés suffisamment grands
(supérieurs à 30).
On estime par et par dans les deux échantillons respectifs
Statistique Inférentielle
Comparaison de deux proportions
et sont des réalisations de deux variables aléatoires indépendantes et
respectivement, suivant les lois approximatives
Statistique Inférentielle
Comparaison de deux proportions
Statistique Inférentielle
Comparaison de deux proportions
Statistique Inférentielle
Comparaison de deux proportions

Grâce au théorème central limite, la variable aléatoire Z suit une loi


normale centrée réduite 𝑁(0,1).
Si la valeur de p probabilité de succès commune aux deux populations n’est
en réalité pas connue, on l’estime par les résultats observés dans les deux
échantillons par son estimation :
Statistique Inférentielle
Comparaison de deux proportions
Statistique Inférentielle
Comparaison de deux proportions
Statistique Inférentielle
Comparaison de deux proportions

On accepte si où est le seuil et est le est le fractile de la loi normale centrée


réduite au niveau . (voir la table de la loi normale centrée réduite). Les deux
échantillons sont issues des deux populations ayant des espérances
statistiquement égales à p au risque d’erreur α
Sinon on rejette si et on accepte : Les deux échantillons sont issues des deux
populations ayant des espérances statistiquement et significativement
différentes p1 et p2 au risque d’erreur α
Statistique Inférentielle
Comparaison de deux proportions

Remarque : Lorsque le test est unilatéral la valeur de Z observée est comparée


sans valeur absolue à la valeur théorique zseuil lue dans la table de la loi normale
centrée réduite pour un risque d’erreur α fixé.

zseuil est le fractile de la loi normale centrée réduite d’ordre 1-α. Pour un risque de
première espèce α = 5%, la valeur de zseuil est le fractile de la loi normale centrée
réduite d’ordre 1-α soit 0.95 est égale à 1,645.
Statistique Inférentielle
Test de Khi-deux d’indépendance et test de Khi-deux d’adéquation

Le test de Khi-deux est un test non-paramétrique, car il n’est pas basé sur les
prémisses des paramètres de la distribution de la variable dans la population
(moyenne, écart-type et normalité). Il existe d’autres tests non-
paramétriques, mais nous ne les verrons pas dans ce cours
Statistique Inférentielle
Test de Khi-deux d’indépendance et test de Khi-deux d’adéquation
Test de khi-deux d’adéquation
Soit (X1, X2, ….. Xn ) un n-échantillon d’une variable aléatoire X et F une fonction de répartition donnée.
Statistique Inférentielle
Test de Khi-deux d’indépendance et test de Khi-deux d’adéquation
Test de khi-deux d’adéquation
Soit un n-échantillon d’une variable aléatoire X et F une fonction de répartition donnée.
Exercice: La force de compression d’un type de béton est modélisée par une variable
gaussienne d’espérance μ et de variance . L’unité de mesure est le psi (pound per square
inch). Dans les questions de 1. à 3 , on suppose que la variance est connue et égale à 1000.
Sur un échantillon de 12 mesures, on a observé une moyenne empirique de 3250 psi.
1. Donner un intervalle de confiance de niveau 0.95 pour μ.
2. Donner un intervalle de confiance de niveau 0.99 pour μ. Comparer sa largeur avec celle
de l’intervalle précédent.
3. Si avec le même échantillon on donnait un intervalle de confiance de largeur 30 psi, quel
serait son niveau de confiance ?
4. La variance théorique est désormais supposée inconnue. On dispose de la donnée suivante
(sur le même échantillon de taille 12) :
126761700
Donnez pour μ un intervalle de confiance de niveau 0.95 et comparez-le avec celui de la
question 1, puis un intervalle de confiance de niveau 0.99 et comparez-le avec celui de la
question 2.
5. Donner un intervalle de confiance de niveau 0.95 pour la variance, et pour l’écart type.
Exercice 3
Les résultats suivants représentent la pression d’éclatement d’un réservoir à essence
fabriqué par deux manufacturiers
Manufacturier1 3050 3125 3150 3180 3095 3190 3160 3205 3100 3090
Manufacturier2 3085 3090 3100 3105 3115 3150 3125 3190 3170 3110

En supposant que la pression est distribuée selon une loi normale et pour (α=5%).
1) Calculer les moyennes empiriques des deux manufacturiers.
2) Calculer les variances empiriques des deux manufacturiers et en déduire leurs
estimateurs sans biais.
3) Tester l’égalité des variances de la pression d’éclatement chez les deux
manufacturiers.
4) En supposant que c’est l’hypothèse de (1) qui est vraie, tester si les deux
manufacturiers donnent, en moyenne, la même pression.
5) Peut-on conclure que les réservoirs du manufacturier1 sont de meilleure qualité (une
pression d’éclatement plus élevée) que ceux du manufacturier2 ?

Vous aimerez peut-être aussi