Vous êtes sur la page 1sur 39

L’inférence statistique

Résumé

Tendances centrales
R Inférence (mode, médiane, moyenne)

Variabilités (é-t, var)


Plan
 Définition
 Formulation d’hypothèses
 Prise de décision
 Distribution d’échantillonnage moyen
 Test de signification
 Intervalles de confiance
Inférence statistique

 Définition de l’inférence: généralisation d’un


échantillon à une population.
 2 cas:
 Est-ce qu’un échantillon observé appartient à une
population « hypothétique »
 Est-ce que les observations de 2 groupes de sujets
représentes des échantillons d’une même
population ou de deux populations différentes
Inférence statistique
 Première possibilité
x  96
1  100
x
x x
x ?
  100 x x
x x x Inférence
?

2  100
Inférence statistique
 Deuxième possibilité
x1  104 1  2  0
x
x x
  100 x
x x ?
x x x Inférence
?
x2  110
1  2  0
x
x
x x
x
x x
x
Formulation d’hypothèses

H0 :   k H 0  Hypothèse nulle
H1  Hypothèse alternative
1
H1 :   k   Moyenne de la population
k  Constante

H 0  Hypothèse nulle
H 0 : 1  2 H1  Hypothèse alternative
2
H1 : 1  2 1  Moyenne de la population 1
2  Moyenne de la population 2

On test H0
Prise de décision
 À partir des échantillons on décide de rejeter ou non
l’hypothèse nulle.

 En faisant de l’inférence, on n’est jamais certains de


prendre la bonne décision

Population
Décision Identique Différente
Échantillon Identique Bonne Erreur 2
Différente Erreur 1 Bonne
Prise de décision
 2 Erreurs:
 1 - Inférer que 2 groupes font partie de 2 populations différentes alors
qu’en réalité elles font partie de la même population. On rejette H0 alors
que H0 est vraie.

 2 – Inférer que 2 groupes font partie de la même population alors qu’en


réalité elles font partie de populations différentes. On accepte H0 alors
que H0 est fausse.

Population
Décision Identique Différente
Échantillon Identique Bonne Erreur 2
Différente Erreur 1 Bonne
Théorème central limite
Même si la distribution initiale n’est pas normale, la
distribution des moyennes d’échantillonnage le sera
Ex.: x={1, 1, 1, 2, 2, 3}
Théorème central limite
Exemple x={1, 1, 1, 2, 2, 3}
On tire des échantillons n=10 un très grand nombre de fois.
Pour chaque série on calcul la moyenne.
t1={2,2,3,2,3,3,2,2,1,3}=> moyenne = 2.3
t2={3,2,2,2,1,2,1,2,2,2} => moyenne = 1.9
t3={1,1,3,2,1,2,1,2,1,1} => moyenne = 1.5


t10000000 = {1,2,1,3,2,1,3,1,3,3} => moyenne = 2.0


Puis, on regarde la distribution de ces moyennes.
Simulation par Monte Carlo
Nombre d’essais = 10

Moyenne = 1.760 Écart-type = 0.225


Simulation par Monte Carlo
Nombre d’essais = 100

Moyenne = 1,663 Écart-type = 0,232


Simulation par Monte Carlo
Nombre d’essais = 1000

Moyenne = 1,666 Écart-type = 0,240


Simulation par Monte Carlo
Nombre d’essais = 10 000

Moyenne = 1,668 Écart-type = 0,235


Simulation par Monte Carlo
Nombre d’essais = 100 000

Moyenne = 1,668 Écart-type = 0,235


1- inférence à propos de la moyenne
de la population
Distribution d’échantillonnage moyen

Échantillons (n)
Distribution
x1 d’échantillonnage moyen
Population
x1
x2
x2
x
x

x1 x
  72   72 x2
 3 x  ?
Distribution d’échantillonnage
moyen
 Caractéristiques:
 Elle se distribuera selon une courbe normale
 Elle aura une moyenne égale à celle de la population
 Elle aura un écart-type égal à la celui de la population
divisé par la racine carré de la grandeur de l’échantillon.


x   erreur type de la moyenne
n

 Plus l’échantillon est grand, moins on risque de faire une


erreur en inférant la valeur de la moyenne de la
population à partir d’un échantillon.

si n , x
Distribution d’échantillonnage
moyen
N=9
Échantillons
Distribution
x1 d’échantillonnage moyen
Population
x1
x2
x2
x10000
x10000

x1 x10000
  72   71.9958 x2
 3  x  0.9959
Distribution d’échantillonnage
moyen
N=16
Échantillons
Distribution
x1 d’échantillonnage moyen
Population
x1
x2
x2
x10000
x10000

x1 x10000
  72   71.9984 x2
 3  x  0.74696
Distribution d’échantillonnage
moyen
N=36
Échantillons
Distribution
x1 d’échantillonnage moyen
Population
x1
x2
x2
x10000
x10000

x1 x10000
  72   72.0146 x2
 3  x  0.50165
Distribution d’échantillonnage
moyen
N=144
Échantillons
Distribution
x1 d’échantillonnage moyen
Population
x1
x2
x2
x10000
x10000

x1 x10000
  72   72.0014 x2
 3  x  0.24972
Test de signification
 Si on présuppose que l’hypothèse nulle est vraie, quelle est la
probabilité d’obtenir une moyenne d’échantillonnage aussi grande
que celle observée ?
 Si c’est peu probable on rejette H0, sinon on conserve H0.
 Peu probable: 5% ou 1% (convention) = a = seuil de signification

2 possibilités Ho conservée Ho rejetée


Si p( x )  a Si p( x )  a
Si a = 0.05,
1- Unicaudale
za = ?
(Basée sur des expériences
antérieures) a
 za  1.65
Règle de décision
 Si on assume que l’hypothèse nulle est vraie, quelle est la
probabilité d’obtenir une moyenne d’échantillonnage aussi grande
que celle observée ?
 Si c’est peu probable on rejette H0, sinon on conserve H0.
 Peu probable: 5% ou 1% (convention) = a = seuil de signification

Ho conservée Ho rejetée

x  Si p( x )  a Si p( x )  a

zx 
x
a
 za
On conserve H0 zx zx On rejette H0
Test de signification

Exemple
 H0:  = 72
 H1:  < 72 (basée sur des expériences antérieures)
 a = 0.05 (5%)
x  65  72
 =9 zx    4, 67
x 1,5
 x = 65
 n = 36 Comme z x > z critique, on rejette H 0
 9 9
x     1,5 Par conséquent, on accepte
n 36 6
l'hypothèse alternative H 1
z critique = za = 1.65
Test de signification
2- bicaudale
(par défaut)

Ho conservée
Ho rejetée Ho rejetée
Si a = 0.05,
za = ?
a a
2 2

za  -1.96  za  1.96
Test de signification

Exemple 2
 H0:  = 72
x  68  72
 H1:   72 (par défaut) zx    2, 667
x 1,5
 a = 0.05 (5%)
 =9
 x = 68
Comme z x > z critique , on rejette H 0
 n = 36
 9 9 ( -2.667 > 1.96 )
x     1,5
n 36 6 Par conséquent, on accepte
l'hypothèse alternative H 1
z critique = 1,96
Intervalles de confiance
 On n’est jamais certains que la moyenne tirée de notre échantillon
est exactement la véritable moyenne de la population. Donc, au lieu
de donnée uniquement la moyenne, il existe une façon de quantifier
notre degré de certitude voulue en spécifiant un intervalle aux
alentours de la moyenne.

IC1a  x  za  x    x  za  x
Intervalles de confiance

Exemple: IC = 95%
 x = 50,7 IC0.95  50, 7  1,96  2    50, 7  1,96  2
 n = 100 IC0.95  50, 7  3,92    50, 7  3,92
  = 20 IC0.95  46, 78    54, 62
 20 20
x    2
n 100 10
Il y a donc une probabilité de 95% que
la moyenne de la population soit comprise
a = 1-IC = 1-0,95 = 0,05
entre 46, 78 et 54, 62

z critique = 1,96
Intervalles de confiance

Exemple: IC = 99%
IC0.99  50, 7  2,58  2    50, 7  2,58  2
 x = 50,7
 n = 100 IC0.99  50, 7  5,16    50, 7  5,16
  = 20 IC0.99  45,54    55,86
 20 20
x    2
n 100 10
Il y a donc une probabilité de 99% que
la moyenne de la population soit comprise
a = 1-IC = 1-0,99 = 0,01
entre 45, 54 et 55, 86

z critique = 2,58
Relation entre le test d’hypothèse
et les intervalles de confiance

IC1a  x  z (a ) x    x  z (a ) x

On rejette H 0 (bicaudale) si :
z x > z critique
z x > z critique ou z x < z critique
2- inférence à propos de la différence
entre des moyennes de la population
Distribution d’échantillonnage des
différences entre les moyennes
Échantillons (n)
Distribution
x1 d’échantillonnage moyen
Population

x2 x1  x2

x x1  x

x1  x2
  72  0
 3  x x  ?
1 2
x1  x
Distribution d’échantillonnage des
différences entre les moyennes
 Caractéristiques:
 Elle se distribuera selon une courbe normale
 Elle aura une moyenne égale à 0 (1-2=0)
 Elle aura un écart-type égal à :

 x  x   x2   x2  erreur type des différences entre les moyennes


1 2 1 2
Règle de décision
( x1  x2 )  ( 1  2 )
z x1  x2  , puisque 1  2  0
 x1  x2
( x1  x2 )
z x1  x2 
 x1  x2

Ho conservée Ho rejetée
Si p( x )  a Si p( x )  a

a
 za
On conserve H0 z x1  x2 zx  x
1 2
On rejette H0
Test de signification
Exemple: probabilité d’observer la différence
entre les groupes suivants ?
 H0: 1 = 2 (1 - 2 = 0)  x1 = 50  x2 = 48
 H1: 1  2 (1 - 2  0)  1 = 5  2 = 5
 a = 0.05 (5%)  n1 = 36  n2 = 36
1 5 5
x     0,833 x1  x2 50  48
1
n1 36 6 z x1  x2    1, 69
 x x 1,18
2
1 2
5 5
 x2     0,833
n2 36 6
z critique = 1,96
2 2
5 5
 x x        1,18
1 2
6 6
Test de signification
Exemple: probabilité d’observer la différence
entre les groupes suivants ?
 H0: 1 = 2 (1 - 2 = 0)  x1 = 50  x2 = 48
 H1: 1  2 (1 - 2  0)  1 = 5  2 = 5
 a = 0.05 (5%)  n1 = 36  n2 = 36

Comme z x 1 -x 2 < z critique , on conserve H 0


( 1, 69  1, 96 )
Intervalles de confiance

IC1a   x1  x2   za  x  1   2   x1  x2   za  x
Test de signification
Exemple: Intervalle de confiance à 95%

 H0: 1 = 2 (1 - 2 = 0)  x1 = 50  x2 = 48
 H1: 1  2 (1 - 2  0)  1 = 5  2 = 5
 a = 0.05 (5%)  n1 = 36  n2 = 36

IC1a   x1  x2   za  x  1   2   x1  x2   za  x

IC0,95  (50  48)  1, 96  1,18  1   2  (50  48)  1, 96  1,18


IC0,95  2  2.3128  1   2  2  2.3128
IC0,95  0.3128  1   2  4.3128
Test de signification
Exemple: Intervalle de confiance à 95%

 H0: 1 = 2 (1 - 2 = 0)  x1 = 50  x2 = 48
 H1: 1  2 (1 - 2  0)  1 = 5  2 = 5
 a = 0.05 (5%)  n1 = 36  n2 = 36

Il y a donc une probabilité de 95% que


la différence de moyennes entre les populations
soit comprise entre - 0, 3128 et 4, 3128

Vous aimerez peut-être aussi