Vous êtes sur la page 1sur 39

 

Loi Normale
Théorie de l’échantillonnage
Estimation - Intervalle de confiance de la
moyenne

1
Plan du cours
1. La loi Normale N(µ, σ)
• Présentation générale
• Table de la fonction de répartition de la loi N (0,1)
• Vérification de la normalité – méthode graphique

2. La loi de Student
• Présentation générale, Table

3. Echantillonnage de la moyenne d’une variable normale


• Eléments théoriques

4. Estimation
• Estimation ponctuelle
• Estimation par intervalle de confiance de l’espérance
• Cas des grands échantillons
• Cas des petits échantillons
1. La loi Normale
Un exemple de loi de distribution d’une
variable aléatoire

3
La loi Normale (ou de Gauss)
 Elle permet de décrire la distribution théorique de variables aléatoires
quantitatives continues

 Elle est symbolisée par la lettre N et définie par son espérance (ou moyenne) µ
et son écart-type σ
La variable aléatoire (VA) X (par exemple la
taille en m) suit une loi Normale d’espérance
Notation X → N(μ,σ) µ et d’écart-type σ

 Rôle fondamental en statistique

 f(x) : Fonction de densité de probabilité

Parfaitement symétrique autour de µ - +


µ X
Fonction de densité de probabilités
vs. histogramme
Histogram of LRo

Histogramme sur un échantillon :


0.00 0.01 0.02 0.03 0.04 0.05

 approximation de la fonction de
densité de probabilités d’une
variable aléatoire continue
Density

Fonction de densité de probabilité :


 Idéalisation de l’histogramme

10 20 30 40 50

LRo

Distribution de la longueur (en mm)


des patelles
La loi Normale centrée réduite
 infinité de lois Normales X → N(μ,σ) car µ et σ peuvent prendre une infinité
de valeurs

 Loi normale centrée réduite : cas particulier de loi normale d’espérance µ = 0


et d’écart-type σ = 1

 Par convention, U → N(μ=0, σ=1)

A partir de la variable X :
si on soustrait µ : on centre la variable (moyenne =0)
si on divise par σ : on réduit la variable (écart-type =1)
𝑋−𝜇
𝑈=
𝜎
On dit que la variable U suit une
loi Normale d’espérance = 0 et
d’écart-type = 1
- +
La loi Normale centrée réduite
𝑋−𝜇
𝑈=
𝜎

N (µ, σ) N (0, 1)
X → N(μ,σ) U → N(0,1)

x1 X u1
µ

𝑥1 − 𝜇
𝑢1=
𝜎
Calcul de probabilités
On utilise la loi Normale pour calculer des probabilités
Une probabilité est comprise entre 0 et 1

X → N(μ,σ)
N (µ, σ)
P(X< x1) = probabilité que la VA X (ex. taille) soit
inférieure à la valeur particulière x1 (ex. 1,2m)
= toute l’aire sous la courbe jusqu’à la valeur x1
(aire hachurée en rouge)

Toute l’aire sous la courbe = 1


- x1 + X
µ

N (0, 1)
U → N(0,1)
P(U< u1) = probabilité que la VA U soit inférieure
à la valeur particulière u1
= toute l’aire sous la courbe jusqu’à la valeur u1

u1
Calcul de probabilités
 Pour une variable X → N(μ,σ), le calcul de probabilités se fait par changement
de variables
 La variable X est centrée réduite

N (µ, σ) N (0, 1)
X → N(μ,σ) U → N(0,1)

x1 X u1
µ

 Le calcul se fait à partir de la table de la loi normale centrée réduite


f f

f
f f
Calcul de probabilités

N (0, 1) La table donne P(U< u1) probabilité que la


U → N(0,1)
VA U soit inférieure à la valeur
particulière u1
= toute l’aire sous la courbe jusqu’à la
valeur u1

-u1 u1
Si u1 = 0,92
P (U<0,92)= 0,8212 directement donnée dans la table

P(U>0,92)= 1-P(U<0,92) = 1 - 0,8212= 0,1788 car l’aire sous la courbe =1


P(U<-0,92)= P(U>0,92) = 0,1788 car la loi est parfaitement symétrique autour de 0

P(U<?) = 0,975, donc si la probabilité est 0,975, on peut trouver u 1= 1,96 dans la table
P(U<0) = 0,5
Calcul de probabilités – Exercice 1

P(U>1,96) = 1-P(U<1.96) = 1-0,975=0,025


P(U<-1,96)= P(U>1.96) = 0,025
P(U>0,70)= 1-P(U<0,70) = 1-0,758=0,242

P(0,23<U<1,91) = P(U<1,91)-P(U<0,23) = 0,9719- 0,5910 = 0,3809

P(U<u)=0,7673 u= 0,73

12
Calcul de probabilités – Exercice 2
Au sein d’une livraison d’œufs en grande surface, on considère que la variable «  teneur en
matière grasse d’un jaune d’œuf » est distribuée selon une loi Normale de moyenne 308
g/kg et d’écart-type 3,17 g.
Quelle est la probabilité de trouver un œuf de teneur en matière grasse inférieure à 300
g/kg et inférieure à 308 g/kg ?

X : teneur en matière grasse d’un jaune d’œuf


X → N(μ= 308, σ=3,17)
On utilise la table N(0,1) pour trouver les probabilités – on centre et on réduit X
X  X  308
U U U → N(0,1)
 3,17

P(X < 300) = P(U < (300-308)/3,17) = P(U < -2,52)


= P(U > 2,52) = 1- P(U < 2,52)= 1-0,9941= 0,0059 N (308, 3,17)

P(X<308) = 0,5

P(X<310) = P(U<310-308/3,17) = P(U<0,63)= 0,7357


P(X>310)= 1-0,7357= 0,2643 300 X
µ=308
Vérification de la normalité
 Plusieurs méthodes sont disponibles : méthodes graphiques, tests

 Possibilité d’utiliser une méthode graphique : « diagramme quantile-quantile » ou


« q-q plot »

 On dispose d’un échantillon de n valeurs d’une VA X

 On reporte sur un graphique xy :


- en ordonnées, les quantiles observées par la
variable X
- en abscisses, les quantiles attendues selon
une loi normale N(0,1)

Si le nuage de points montre une tendance


linéaire, on admet qu’il existe une relation
linéaire de type X = m + s U, c’est à dire que la
variable X suit une distribution normale
d’espérance m et d’écart-type s.
2. La loi de Student

15
Présentation générale
 Loi de probabilités pour une variable aléatoire continue utilisée pour la calcul
d’intervalle de confiance et la réalisation de tests de comparaison de moyennes

k = nombre de degrés de liberté

16
La table donne
tα/2 pour une valeur de ddl et α

Si α=0,05 et 10 ddl
La table donne
tα/2 = 2,228

17
Applications sous R

18
Loi Normale centrée réduite
U → N(0,1)

Calcul de probabilités avec la fonction pnorm()


P(U<0) pnorm(0) 0.5
P(U<1,96) pnorm(1.96) 0.9750021

u1

Calcul de quantiles avec la fonction qnorm

Calculer la valeur de U telle que 50% des valeurs de X sont inférieures à cette valeur
qnorm(0.5) 0

Calculer la valeur de U telle que 20% des valeurs de X sont inférieures à cette valeur
qnorm(0.2) -0.8416212

Calculer la valeur de U telle que 97,5% des valeurs de U sont inférieures à cette valeur
qnorm(0.975) 1.959964

19
Loi Normale quelconque
Au sein d’une livraison d’œufs en grande surface, on considère que la variable «  teneur en
matière grasse d’un jaune d’œuf » est distribuée selon une loi Normale de moyenne 308
g/kg et d’écart-type 3,17 g.
Quelle est la probabilité de trouver un individu de teneur en matière grasse inférieure à
300 g/kg et inférieure à 308 g/kg ?

P(X < 300)

U = (X – 308)/3,17 → N(0,1)

P(X < 300) = P(U < (300-308)/3,17) = P(U < -2,523) = P(U > 2,523) = 1- P(U < 2,523)

pnorm(-2.523) 0.00581792

1-pnorm(2.523) 0.00581792

pnorm(300,308,3.17) 0.005807021 valeur exacte sans arrondi


Vérification de la normalité
Entrer les données de longueur et hauteur mesurées sur des coquilles de patelles 2010
(format txt.)
patelles=read.table(file.choose(),h=T)
attach(patelles)
patelles
LRo HRo
1 35.6 18.6
2 36.7 13.1
3 47.7 25.0 hist(LRo) hist(HRo)
4 47.6 20.6
... Histogram of LRo Histogram of HRo

232 35.9 14.5


60

80
233 32.2 13.8
50

60
234 30.4 13.6
40
Frequency

Frequency
30

40
20

20
par(mfrow=c(1,2))
10

hist(LRo);hist(HRo)
0

0
10 20 30 40 50 0 10 20 30 40 50

LRo HRo

21
Vérification de la normalité
Utilisation de la fonction qqnorm()
qqnorm(LRo)
qqnorm(HRo)

Normal Q-Q Plot Normal Q-Q Plot

50
50

40
Sample Quantiles

Sample Quantiles
40

30
30

20
20

10
-3 -2 -1 0 1 2 3 -3 -2 -1 0 1 2 3

Theoretical Quantiles Theoretical Quantiles

A commenter
Ajustement d’une loi normale à
un histogramme
On considère que X→N(μ, σ) avec μ = 35,48 et σ = 7,31 (calculés précédemment)
hist(LRo,freq=F)
lines(density(rnorm(1000000,35.48,7.31)))

Histogram of LRo
0.00 0.01 0.02 0.03 0.04 0.05
Density

10 20 30 40 50

LRo

23
3. La théorie de
l’échantillonnage

24
Principe de l’échantillonnage
n,

µ n,

moyenne d’un échantillon
n, de taille n
Population de taille N
Une VA mesurée : X
n,

  varie (fluctue) d’un échantillon à l’autre

On définit la variable aléatoire:   : moyenne d’un échantillon de taille n

Si X → N(μ,σ)
Si on centre et on réduit X X 
    U

on obtient U → N(0,1) n
4. L’estimation

26
Principe
 Estimer les paramètres inconnus d’une population (µ, ) à partir des n observations
d’un échantillon

 Estimation ponctuelle : chaque paramètre inconnu est estimé à l’aide d’une valeur
qui est une fonction des n observations
 L’espérance µ est estimée par la moyenne arithmétique de l’échantillon
 L’écart-type  est estimé par son estimateur

 Estimation par intervalle de confiance : le paramètre inconnu de la population est


estimé par un intervalle qui a une probabilité 1 – α d’englober le paramètre inconnu
à estimer.

27
Estimation par intervalle de confiance de
l’espérance – Cas d’un grand échantillon
N (0, 1)
α = 0,05
1- α = 0,95 1- α
α/2 = 0,025 X 
U
α/2 α/2 
n
- uα/2 uα/2 U
𝑃 ( − 𝑢𝛼 /2 <𝑈 <𝑢 𝛼/ 2 )=1 −𝛼

( )
¯ −𝜇 Intervalle de confiance de
𝑋
𝑃 −𝑢 𝛼/ 2< <𝑢 𝛼/ 2 =1− 𝛼 l’espérance à 95% pour grands
𝜎 échantillons (n ≥ 30)

(( )
¯√−𝜇
𝑋 𝑛 Si α = 0,05 uα/2= 1,96
𝑃 −𝑢 𝛼/ 2< <𝑢 𝛼/ 2 =1− 𝛼
^
𝜎
^√ 𝑛
𝜎
𝑃 ¯𝑥 −𝑢 𝛼/ 2 . <𝜇<¯𝑥 +𝑢 𝛼/ 2 .
^
𝜎
)
=1 −𝛼
Estimation par intervalle de confiance de
l’espérance – Cas d’un grand échantillon

Pour α=0,05
L’intervalle de confiance est centré sur et à une probabilité de 0,95 (95%) de
recouvrir l’espérance µ de la population

On utilise la moyenne et l’écart-type de l’échantillon pour le calculer


Exercice

Au sein d’une livraison d’œufs en grande surface, on considère que la variable « 


teneur en matière grasse d’un jaune d’œuf » est distribuée selon une loi Normale
de moyenne 308 g/kg et d’écart-type 3,17 g.

Calculer l’intervalle de confiance à 95% de la teneur moyenne en matière grasse


d’un œuf à partir d’un échantillon de 35 oeufs ?

(
𝑃 308 −1,96.
3,17
√ 35
<𝜇< 308+1,96.
3,17
√ 35
=0,95
)
𝑃 ( 306,94 <𝜇<309,05 )=0,95
L’intervalle [306,94; 309,05] a 95% de chance d’englober la valeur de l’espérance µ,
Estimation par intervalle de confiance de
l’espérance – Cas d’un petit échantillon

𝑃 ( − 𝑢𝛼 /2 <𝑈 <𝑢 𝛼/ 2 )=1 −𝛼

( )
¯ −𝜇
𝑋
𝑃 −𝑢 𝛼/ 2< <𝑢 𝛼/ 2 =1− 𝛼
𝜎
√𝑛

( )
¯
𝑋 −𝜇
𝑃 −𝑡 𝛼/ 2 < <𝑡 𝛼 /2 =1 −𝛼
^
𝜎
√𝑛
( )
^
𝜎 𝜎^
𝑃 ¯𝑥 −𝑡 𝛼/ 2 . < 𝜇<¯𝑥 +𝑡 𝛼 /2 . =1− 𝛼
√𝑛 √𝑛

L’intervalle de confiance se calcule à l’aide d’une loi de Student à n-1 degrés de liberté,
Exercice

On dispose de 10 dosages de cholestérol en µg/L :


245 ; 248 ; 250 ; 247 ; 249 ; 247 ; 247 ; 246 ; 246 ; 248
La variable X taux de cholestérol suit une loi Normale N(µ,)

Calculer l’intervalle de confiance à 95% du taux de cholestérol.

On calcule la moyenne et l’écart-type de l’échantillon


x = 2473
x2 = 611593
1 2 1   x 2

x  xi  247,3   . x 
2
  2,23
n n 1  n 
 
𝜎´ 𝜎´
𝑃 (¯𝑥 +𝑡 𝛼/ 2 <𝜇< 𝑥¯ +𝑡 𝛼 /2 )=1 −𝛼
√𝑛 √𝑛
 = 0,05 et n-1 = 9 degrés de liberté, t/2 = 2,262 (Table de Student)

1,49 1,49
𝑃 (247,3 −2,262 <𝜇<247,3+2,262 )=0,95
√10 √ 10
IC : 247,3  1,07
Applications sous R

33
Echantillonnage de la moyenne d’une
variable normale
On constitue, de manière aléatoire, 10 échantillons de 10 individus de la variable X
suivant une loi normale

mu=mean(LRo)
sigma=sqrt(var(Lro)) On tire aléatoirement 10
individus dans une loi
ech1=rnorm(10,mu,sigma)
normale (fonction
ech2=rnorm(10,mu,sigma) rnorm=random normal)

ech10=rnorm(10,mu,sigma)

A partir de la même population, on constitue aussi, de manière aléatoire, 10 échantillons


de 30 individus de la variable X

ech11=rnorm(30,mu,sigma)

ech20=rnorm(30,mu,sigma)
Tracer les histogrammes des moyennes des 10 échantillons obtenus avec n=10 d’une part
et avec n=30 d’autre part

Lmoy10=c(mean(ech1), mean(ech2), mean(ech3), mean(ech4), mean(ech5), mean(ech6),


mean(ech7), mean(ech8), mean(ech9), mean(ech10))

Lmoy30=c(mean(ech11), mean(ech12), mean(ech13), mean(ech14), mean(ech15),


mean(ech16),mean(ech17), mean(ech18), mean(ech19), mean(ech20))

par(mfrow=c(1,2))
hist(Lmoy10);hist(Lmoy30)
hist(Lmoy10,seq(28,40,1)); hist(Lmoy30,seq(28,40,1))

 La moyenne varie d’un échantillon


à l’autre
 Plus l’échantillon est petit, plus la
variabilité entre échantillons est
forte
 La distribution de est normale
Intervalle de confiance de l’espérance
• A partir d’un échantillon de grande taille

Intervalle de confiance à 95% de la longueur moyenne d’une patelle à partir d’un


échantillon de 30 valeurs (ech 11)

( 𝜎^
𝑃 ¯𝑥 −𝑢 𝛼/ 2 . <𝜇<¯𝑥 +𝑢 𝛼/ 2 .
√𝑛
𝜎^
√𝑛 )
=1 −𝛼

moyenne
mean(ech11) 34.7829 NB: valeurs différentes pour chacun

erreur type
sd(ech11)/sqrt(length(ech11)) 1.275647

Quantile 0.975 d’une loi normale centrée réduite (uα/2)


qnorm(0.975) 1.959964

Etendue autour de la moyenne


qnorm(0.975)*sd(ech11)/sqrt(length(ech11)) 2.500222
IC : 34,78 ± 2,50
Intervalle de confiance de l’espérance
• A partir d’un échantillon de petite taille

Intervalle de confiance à 95% de la longueur moyenne d’une patelle à partir d’un


échantillon de 10 valeurs (ech 1)
𝜎´ 𝜎´
𝑃 (¯𝑥 −𝑡 𝛼/ 2 <𝜇< 𝑥¯ +𝑡 𝛼 /2 )=1 −𝛼
√𝑛 √𝑛
moyenne
mean(ech1) 33.61433 NB: valeurs différentes pour chacun

erreur type
sd(ech1)/sqrt(length(ech1)) 3.011974

quantile 0.975 d’une loi de student à n-1 ddl (tα/2)


qt(0.975,length(ech1)-1) 2.262157

Etendue autour de la moyenne


qt(0.975,length(ech1)-1)*sd(ech1)/sqrt(length(ech1)) 6.813559

IC : 33,61 ± 6,81
Le calcul de l’intervalle de confiance peut se faire directement sous R en utilisant la
fonction t.test
Par défaut, R fournit l’intervalle de confiance à 95%

t.test(ech11)$conf.int 34.84042 39.20371

Autre niveau de confiance : 99%

t.test(ech11,conf.level=0.99)$conf.int 34.08183 39.96231

Amplitude de l’intervalle plus grande


Exercice

On dispose de 10 dosages de cholestérol en µg/L :


245 ; 248 ; 250 ; 247 ; 249 ; 247 ; 247 ; 246 ; 246 ; 248
La variable X taux de cholestérol suit une loi Normale N(µ,)

Calculer l’intervalle de confiance à 95% du taux de cholestérol.

X=c(245,248,250,247,249,247,247,246,246,248)
length(X) 10
mean(X) 247.3
sd(x) 1.494434

t.test(X)$conf.int 246.2309 248.3691

39

Vous aimerez peut-être aussi