Académique Documents
Professionnel Documents
Culture Documents
Cours Statistiques Polisano
Cours Statistiques Polisano
Kévin Polisano
Kévin Polisano
(kevin.polisano@univ-grenoble-alpes.fr)
14 février 2018
Nicolas Gauvrit,
Vous avez dit hasard ?, 2014.
Statistiques, méfiez-vous !, 2007.
But du cours :
I faire quelques rappels et connaître le vocabulaire
I savoir décrire et représenter un ensemble de données
I vous réconcilier avec les probabilités et les statistiques ... ?
I comprendre le lien entre les deux
mi 1 2 3 4 5 6
ni 2 3 0 2 3 2
1, 2, 3, 4, 5, 6, 7, 8, 9
x × (1 − p) × (1 + p) = x × (1 − p 2 ) ≤ x
⇒ Pour p = 12% on obtient une baisse d’environ 1, 5%.
Crédits : N. Gauvrit
Kévin Polisano Cours de Statistiques de L1 – MAP 201 33/229
Méfiez-vous des statistiques !
Variations relatives et absolues
« Les statistiques ont une particularité majeure : elles ne sont jamais les
mêmes selon qu’elles sont avancées par un homme de gauche ou par un
homme de droite » – Jacques Maillot.
Crédits : N. Gauvrit
Kévin Polisano Cours de Statistiques de L1 – MAP 201 35/229
Méfiez-vous des statistiques !
Variations relatives et absolues
employés
ouvriers cadres
salaire 200e 2000e
2017
effectif 1000 100
salaire 180e 1800e
2018
effectif 600 500
200 → 180
⇒ baisse de 10%
2000 → 1800
employés
ouvriers cadres
salaire 200e 2000e
2017
effectif 1000 100
salaire 180e 1800e
2018
effectif 600 500
200 → 180
⇒ baisse de 10%
2000 → 1800
200 × 1000 + 2000 × 100
= 363, 64
1100
⇒ augmentation de 152%
180 × 600 + 1800 × 500
= 916, 34
1100
Crédits : D. Louaprre
Kévin Polisano Cours de Statistiques de L1 – MAP 201 41/229
Paradoxe de Simpson
À vos boitiers de vote !
taille tumeur
traitement guérison
Kévin Polisano Cours de Statistiques de L1 – MAP 201 45/229
Paradoxe de Simpson
En résumé
Crédits : D. Louaprre
Kévin Polisano Cours de Statistiques de L1 – MAP 201 46/229
1 Introduction
2 Bases de la statistique descriptive
Vocabulaire
Tableaux statistiques
Méfiez-vous des statistiques ! Le paradoxe de Simpson
3 Représentations graphiques
Histogrammes
Fonction de répartition empirique
4 Indicateurs statistiques
Indicateurs de localisation ou de tendance centrale
Indicateurs de dispersion ou de variabilité
5 Corrélation et causalité
Régression linéaire
Exemples de corrélations
30
modalité fréquence
25
mi nb pers. fi (en %)
1 31.0
20
2 31.1
15
3 16.2
10
4 13.8
5 5.5
5
6 et plus 2.4
0 1 2 3 4 5 6
modalité fréquence 1
mi nb pers. fi (en %)
1 31.0
2
2 31.1
6
3 16.2 5
4 13.8
5 5.5 4
3
6 et plus 2.4
Définition de l’histogramme
L’histogramme est la figure constituée de rectangles dont les bases sont
les classes et dont les aires sont égales aux fréquences de ces classes.
Autrement dit, la hauteur du ième rectangle est ni /nhi .
Kévin Polisano Cours de Statistiques de L1 – MAP 201 51/229
Histogramme
Variable continue : durée de vie d’ampoules
x = 91.6, 35.7, 251.3, 24.3, 5.4, 67.3, 170.9, 9.5, 118.4, 57.1
x ∗ = 5.4, 9.5, 24.3, 35.7, 57.1, 67.3, 91.6, 118.4, 170.9, 251.3
Choix du nombre de classes k : k ≈ 1 + log2 n (règle de Sturges)
Choix des bornes pour a0 et ak : x1∗ ± 0.025(xn∗ − x1∗ )
Largeur des classes (fixe) h = (ak − a0 )/k
n = 10, k = 5, a0 = −0.74 ≈ 0 et ak = 257.4 ≈ 260, h = 260/5 = 52.
classes ]ai−1 , ai ] ]0, 52] ]52, 104] ]104, 156] ]156, 208] ]208, 260]
effectifs ni 4 3 1 1 1
fréquences ni /n 40% 30% 10% 10% 10%
hauteurs ni /nh 0.0077 0.0058 0.0019 0.0019 0.0019
Crédits : O. Gaudoin
Kévin Polisano Cours de Statistiques de L1 – MAP 201 52/229
Histogramme
Variable continue : durée de vie d’ampoules
classes ]ai−1 , ai ] ]0, 52] ]52, 104] ]104, 156] ]156, 208] ]208, 260]
effectifs ni 4 3 1 1 1
fréquences ni /n 40% 30% 10% 10% 10%
hauteurs ni /nh 0.0077 0.0058 0.0019 0.0019 0.0019
Histogram of x
4
3
Frequency
2
1
0
classes ]ai−1 , ai ] ]0, 52] ]52, 104] ]104, 156] ]156, 208] ]208, 260]
effectifs ni 4 3 1 1 1
fréquences ni /n 40% 30% 10% 10% 10%
hauteurs ni /nh 0.0077 0.0058 0.0019 0.0019 0.0019
0.008
0.006
0.004 Histogram of x
Density
0.002
0.000
classes ]ai−1 , ai ] ]0, 52] ]52, 104] ]104, 156] ]156, 208] ]208, 260]
effectifs ni 4 3 1 1 1
fréquences ni /n 40% 30% 10% 10% 10%
hauteurs ni /nh 0.0077 0.0058 0.0019 0.0019 0.0019
0.008
0.006
0.004 Histogram of x
Density
0.002
0.000
classes ]ai−1 , ai ] ]0, 52] ]52, 104] ]104, 156] ]156, 208] ]208, 260]
effectifs ni 4 3 1 1 1
fréquences ni /n 40% 30% 10% 10% 10%
hauteurs ni /nh 0.0077 0.0058 0.0019 0.0019 0.0019
Histogram of x
0.012
fonction escalier : fˆ|]ai−1 ,ai ] = ni /nh
0.010
R ai
fˆ(x)dx
0.008
aire rect. i = ni /n = ai−1
Density
0.006
ni /n = % obs. dans ]ai−1 , ai ] 0.004
⇐⇒
0.002
ai
P(ai−1 ≤ X ≤ ai ) = ai−1 f (x)dx 0 50 100 150 200 250
classes ]ai−1 , ai ] ]0, 52] ]52, 104] ]104, 156] ]156, 208] ]208, 260]
effectifs ni 4 3 1 1 1
fréquences ni /n 40% 30% 10% 10% 10%
hauteurs ni /nh 0.0077 0.0058 0.0019 0.0019 0.0019
0.008
0.006 Histogram of x
Density
0.004
0.002
0.000
classes ]ai−1 , ai ] ]0, 52] ]52, 104] ]104, 156] ]156, 208] ]208, 260]
effectifs ni 4 3 1 1 1
fréquences ni /n 40% 30% 10% 10% 10%
hauteurs ni /nh 0.0077 0.0058 0.0019 0.0019 0.0019
0.008
0.006
0.004 Histogram of x
Density
0.002
0.000
classes ]ai−1 , ai ] ]0, 17] ]17, 46] ]46, 79] ]79, 145] ]145, 260]
effectifs ni 2 2 2 2 2
fréquences ni /n 20% 20% 20% 20% 20%
hauteurs ni /nh 0.0118 0.0069 0.0061 0.0030 0.0017
Histogram of x
0.012
0.010
0.008
Density
0.006
0.004
0.002
0.000
0.006
0.004
0.002
0.000
F (x) = 1 − e−λx
1.0
●
●
0.8
●
0.6
●
Fn(x)
●
0.4
●
0.2
●
0.0
Proposition
Soit F la fonction de répartition d’une loi de probabilité, dépendant d’un
paramètre inconnu θ. S’il existe des fonctions h, g , α et β telles que
Crédits : O. Gaudoin
Kévin Polisano Cours de Statistiques de L1 – MAP 201 68/229
Test sur la durée de vie des ampoules
On suppose F (x) = 1 − e−λx . En considérant h(y ) = ln(1 − y ) :
●
−0.5
●
log(1 − seq(1:9)/10)
●
−1.0
●
−1.5
●
−2.0
●
−2.5
0 50 100 150
Crédits : O. Gaudoin sort(x)[1:9]
n k
1X 1X
x̄n = xi = ni mi
n n
i=1 i=1
Valeurs extrêmes
Un indicateur de localisation à partir de x1∗ = min xi et xn∗ = max xi
est
x1∗ + xn∗
2
Exemple des ampoules : on trouve 128.35 heures.
Mode
Valeur pour laquelle l’histogramme des fréquences presente un
maximum. Modalité la plus représentée dans l’échantillon.
Valeurs aberrantes
Des valeurs exagéréments grandes ou petites par rapport aux autres
valeurs de l’échantillon peuvent fortement influer sur la moyenne qui
est sensibles aux extrêmes.
Variance empirique
n k
1X 1X
σx2 = (xi − x̄n )2 = ni (mi − x̄n )2
n n
i=1 i=1
n
1X 2
σx2 = xi − x̄n2 (moyenne du carré - carré de la moyenne)
n
i=1
Écart type empirique : σx (racine de la variance)
σx
Coefficient de variation empirique : cvn = x̄n (sans dimension)
Dans R var(x) donne σx02 = n 2
n−1 σx (variance sans biais)
n
∂e 2X
=0⇔− (xi − c) = 0 ⇔ c = x̄n
∂c n
i=1
1 Pn
Écart absolu : e = n i=1 |xi − c|, minimal quand c = x̃n
1
Écart sup : e = n supi=1 |xi − c|, minimal quand c = (x1∗ + xn∗ )/2
n
●
−0.5
●
log(1 − seq(1:9)/10)
●
−1.0
●
−1.5
●
−2.0
●
−2.5
0 50 100 150
sort(x)[1:9]
0.0
●
−0.5
●
log(1 − seq(1:9)/10)
●
−1.0
●
−1.5
●
−2.0
●
−2.5
0 50 100 150
sort(x)[1:9]
Corrélation ou causalité ?
Une erreur de raisonnement courante consiste à dire : « X et Y sont
corrélés, donc X cause Y ». On confond alors corrélation et causalité car
en réalité, il se pourrait aussi que :
Y cause X
X et Y aient une cause commune Z
X et Y soient accidentellement liés mais n’aient aucun lien de
causalité.
« c’est bien ce que révèle le récent sondage réalisé par le réseau social
Skout, également site de rencontres, mené sur 4600 personnes.
Interrogées sur leur consommation de fromage et la fréquence de leurs
rapports sexuels, l’étude aurait démontré une forte corrélation. Oui, 32%
des mangeurs de Grilled Cheese (ce sandwich grillé au fromage dont
raffolent les Américains) feraient l’amour en moyenne 6 fois par mois. »
CQFR
Corrélation 6= causalité
La statistique peut être comme la langue d’Esope la meilleure ou la
pire des choses. Il convient de se méfier des pièges qu’elle recèle tout
en se servant de ses résultats.
Les représentations graphiques des données statistiques permettent
une analyse visuelle de la répartition des données.
Les indicateurs de localisation, de dispersion et de relation
permettent de les quantifier et de résumer l’information.
Ces deux outils suggèrent une caractérisation de la loi statistique
sous-jacente et donc des modèles théoriques plausibles.
2 Rappels de probabilité
Axiomatique
Conditionnement et indépendance
3 Variables aléatoires
Définitions discrètes et continues
Fonction de densité et de répartition
Espérance et variance
Lois usuelles
4 Théorème limites
La loi des grands nombres
Théorème limite central
2 Rappels de probabilité
Axiomatique
Conditionnement et indépendance
3 Variables aléatoires
Définitions discrètes et continues
Fonction de densité et de répartition
Espérance et variance
Lois usuelles
4 Théorème limites
La loi des grands nombres
Théorème limite central
2 Rappels de probabilité
Axiomatique
Conditionnement et indépendance
3 Variables aléatoires
Définitions discrètes et continues
Fonction de densité et de répartition
Espérance et variance
Lois usuelles
4 Théorème limites
La loi des grands nombres
Théorème limite central
P(Ω) = 1
[ +∞
X
P Ai = P(Ai ) pour des évènements incompatibles
i≥0 i=0
P(Ā) = 1 − P(A)
P(A) ≤ P(B) si A ⊂ B
P
P(∪Ai ) ≤ P(Ai )
P(A ∩ B)
PB (A) := P(A | B) :=
P(B)
On a alors :
D’où :
P(B | A) P(A)
P(A | B) =
P(B | A) P(A) + P(B | A) P(A)
Règle du produit
D’où X
P(A) = P(A | B)P(B)
B
Vous lui demandez si le test est fiable. Sa réponse est sans appel :
« Si vous avez le cancer, le test sera positif dans 90% des cas ; alors que
si vous ne l’avez pas, il sera négatif dans 97% des cas ».
A) > 90%
B) = 90%
C) = 9%
D) < 5%
Vous lui demandez si le test est fiable. Sa réponse est sans appel :
« Si vous avez le cancer, le test sera positif dans 90% des cas ; alors que
si vous ne l’avez pas, il sera négatif dans 97% des cas ».
A) > 90%
B) = 90%
C) = 9%
D) < 5%
Explications :
Sur les 309 personnes qui sont
testées positives, 9 seulement sont
réellement malades, et 300 sont
saines : ces 300 sont ce qu’on
appelle des faux positifs. Si vous
êtes positif, vous n’avez donc que
9
= 2.9%
309
Si vous êtes testé positif et que vous vous demandez si vous avez le
cancer, vous cherchez :
Quand le médecin vous dit que « Si vous avez le cancer, le test sera
positif dans 90% des cas », il s’agit de :
Quand le médecin vous dit que « Si vous avez le cancer, le test sera
positif dans 90% des cas », il s’agit de P(O | H) :
P(O3 | H2 )
P(H2 | O3 ) = × P(H2 )
P(O3 )
1 1
= 1 ×
2
3
2
=
3
Vous devez choisir la porte 2 !
vraisemblance
z }| {
P(O | H)
P(H | O) = P(H)
| {z } P(O) | {z }
probabilité a posteriori | {z } probabilité a priori
apport des observations
vraisemblance
z }| {
P(O | H)
P(H | O) = P(H)
| {z } P(O) | {z }
probabilité a posteriori | {z } probabilité a priori
apport des observations
2 Rappels de probabilité
Axiomatique
Conditionnement et indépendance
3 Variables aléatoires
Définitions discrètes et continues
Fonction de densité et de répartition
Espérance et variance
Lois usuelles
4 Théorème limites
La loi des grands nombres
Théorème limite central
Crédits : N. Gauvrit
Kévin Polisano Cours de Statistiques de L1 – MAP 201 132/229
Densité et fonction de répartition d’une variables continue
Exemple avec la taille des étudiants
La loi de X : PX ([a, b]) = P(a ≤ X ≤ b) probabilité que la taille
d’un individu soit comprise entre a et b.
Exemple : PX (1, 6 ≤ X ≤ 1, 9) = 0, 8.
Fonction de répartition Rx
F (x) = PX (] − ∞, x]) = P(X ≤ x) = −∞ f (t)dt où f est la
densité de probabilité de X .
À droite des histogrammes approchant la densité.
Z b
PX ([a, b]) = P(a ≤ X ≤ b) = F (b) − F (a) = f (t)dt
a
Il s’agit de l’aire de la fonction f entre les abscisses a et b.
Crédits : N. Gauvrit
Kévin Polisano Cours de Statistiques de L1 – MAP 201 133/229
CQFR : Fonction de répartition et densité de probabilité
pi = P(X = i)
fX (x) ≥ 0, ∀x ∈ R
R +∞
−∞ fX (x) dx = 1
Rb
P(a ≤ X ≤ b) = FX (b) − FX (a) = a fX (x) dx
FX (x) = P(X ≤ x)
Exemple : On admet qu’un étudiant prend au plus un café par jour, que
chaque jour sa proba de prendre un café vaut p, et qu’il y a indépendance entre
ses choix quotidiens. La variable X décrivant le nombre de cafés pris par
l’étudiant en une semaine est une variable aléatoire de loi B(5, p)
n!
Rappel : Cnk = k!(n−k)!
Kévin Polisano Cours de Statistiques de L1 – MAP 201 145/229
Loi géométrique : temps d’attente du premier succès
On considère une épreuve de Bernoulli dont la probabilité de succès est p
et celle d’échec 1 − p. On renouvelle cette épreuve de manière
indépendante jusqu’au premier succès. On appelle X la variable aléatoire
donnant le rang du premier succès.
1.0
µ = 0 σ2 = 1
µ = 0 σ2 = 5
µ = 0 σ2 = 0.2
µ = − 2 σ2 = 0.5
0.8
0.6
dnorm(x)
0.4
0.2
0.0
−5 0 5
x
La loi normale est l’une des lois de probabilité les plus adaptées pour modéliser
des phénomènes naturels issus de plusieurs événements aléatoires. Elle est en
lien avec de nombreux objets mathématiques dont le mouvement brownien, le
bruit blanc gaussien ou d’autres lois de probabilité qu’elle approche par le
théorème limite central. Elle permet la mesure d’erreur ou tests statistiques.
Kévin Polisano Cours de Statistiques de L1 – MAP 201 147/229
Loi normale = loi gaussienne
Quelques propriétés
Loi normale centrée réduite : N (0, 1)
X −µ
Si X ∼ N (µ, σ 2 ) alors σ ∼ N (0, 1)
Si X1 ∼ N (µ1 , σ12 ) et si X2 ∼ N (µ2 , σ22 ) alors
5
λ=1
λ=3
λ=5
4
3
dexp(x, 5)
2
1
0
0 1 2 3 4
d’un composant électronique. Elle peut aussi être utilisée pour décrire par
exemple le temps écoulé entre deux coups de téléphone reçus au bureau, ou le
temps écoulé entre deux accidents de voiture dans lequel un individu donné est
impliqué.
Kévin Polisano Cours de Statistiques de L1 – MAP 201 149/229
1 Introduction
2 Rappels de probabilité
Axiomatique
Conditionnement et indépendance
3 Variables aléatoires
Définitions discrètes et continues
Fonction de densité et de répartition
Espérance et variance
Lois usuelles
4 Théorème limites
La loi des grands nombres
Théorème limite central
Inégalité de Markov
Soit Z une variable aléatoire réelle définie sur un espace probabilisé
(Ω, A, P) et supposée presque sûrement positive ou nulle. Alors
E[Z ]
∀a > 0, P(Z > a) 6
a
Démo : On a l’inégalité
Inégalité de Bienaymé–Tchebychev
Pour tout réel strictement positif α,
V(X )
P (|X − E[X ]| ≥ α) ≤
α2
Démo : simple application de l’inégalité de Markov à la variable
(X − E[X ])2 et au réel α2 strictement positif compte tenu du fait que
{|X − E[X ]| ≥ α} = {(X − E[X ])2 ≥ α2 }.
V (Y )
P(|Y − E (Y )| > ε) 6
ε2
X1 + X2 + · · · + Xn
On remarque que la variable aléatoire Yn = a pour
n
V(X )
espérance E(X ) et pour variance . Ainsi, pour tout n :
n
X1 + X2 + · · · + Xn V(X )
P − E(X ) > ε 6
n n ε2
X1 + X2 + · · · + Xn
La variable aléatoire Yn = a pour espérance E(X ) et
n
V(X )
pour variance , donc la variable aléatoire
n
√
n
Zn = p (Yn − E(X ))
V(X )
2 Estimation ponctuelle
Estimateur statistique
Qualité d’un estimateur
Estimateur de l’espérance, d’une proportion et de la variance
2 Estimation ponctuelle
Estimateur statistique
Qualité d’un estimateur
Estimateur de l’espérance, d’une proportion et de la variance
X ∼ P(θ), θ inconnu
P(a ≤ θ ≤ b) = 0.95
X ∼ P(θ)
Xi ∼ P(θ)
2 Estimation ponctuelle
Estimateur statistique
Qualité d’un estimateur
Estimateur de l’espérance, d’une proportion et de la variance
Tn = t(X1 , . . . , Xn )
θ̂ = t(x1 , . . . , xn )
• Estimateur convergent
Un estimateur Tn de θ est convergent en moyenne quadratique si
E((Tn − θ)2 ) → 0 quand n → ∞
Faible biais
Fort biais
Crédits : http://www.cs.cornell.edu/courses/cs4780/2015fa/web/lecturenotes/lecturenote12.html
Preuve :
" n #
1 X
E[V] = E Xi2 − E[µ2 ]
n
i=1
n
1X
= E[Xi2 ] − µ2
n
i=1
= E[Xi2 ] − µ2 ≡ V[X ]
Preuve :
n
1X
E[Sn2 ] = E[Xi2 ] − E[X̄ 2 ]
n
i=1
n
1 X
= (V[Xi ] + E[Xi ]2 ) − V[X̄ ] − E[X̄ ]2
n
i=1
1 1
= (nV[X ] + nE[Xi ]2 ) − V[X ] − E[Xi ]2
n n
1 n−1
= V[X ] − V[X ] = V[X ]
n n
Kévin Polisano Cours de Statistiques de L1 – MAP 201 175/229
Estimation d’une variance
On définit :
n
S02
n = S2
n−1 n
Preuve :
n
E[Sn02 ] = E[Sn2 ]
n−1
n n−1
= V[X ]
n−1 n
= V[X ]
1 K <− 10000
2 n <− 10
3 mu=0
4 s i g m a 2=1
5 # On considère K échantillons composés de n valeurs issues de N(mu,sigma2)
6 # réparties sur chaque ligne de la matrice Xkn suivante
7 Xkn <− m a t r i x ( rnorm ( n∗K, mean=mu , s d=s q r t ( s i g m a 2 ) ) , n c o l=n )
8 # On applique la variance selon les lignes, donnant K variances
9 Snt <− a p p l y ( Xkn , FUN=v a r , MARGIN=1)
10 Sn <− ( n−1)/n∗ Snt
11 # S est la version biaisée (car var utilise la variance débiaisée)
12 h i s t ( Sn , n c l a s s =30 , p r o b a b i l i t y=TRUE, main="Sn" , c o l=" b l u e " )
13 # la variance est décalée à n/(n-1)*sigma2=0.9
14 a b l i n e ( v=mean ( Sn ) , c o l=" r e d " ) ; a b l i n e ( v=sigma2 , c o l =3)
15 h i s t ( Snt , n c l a s s =30 , p r o b a b i l i t y=TRUE, main="Sn ’ " , c o l=" b l u e " )
16 a b l i n e ( v=mean ( Snt ) , c o l=" r e d " ) ; a b l i n e ( v=sigma2 , c o l =3)
n n−1
S02
n = S2 , E[S2n ] = V[X], E[S02
n ] = V[X]
n−1 n n
Sn Sn'
1.0
0.8
0.8
0.6
0.6
Density
Density
0.4
0.4
0.2
0.2
0.0
0.0
0.0 0.5 1.0 1.5 2.0 2.5 3.0 0.0 0.5 1.0 1.5 2.0 2.5 3.0 3.5
Sn Snt
2.4 3.4 3.6 4.1 4.3 4.7 5.4 5.9 6.5 6.9
2 Estimation ponctuelle
Estimateur statistique
Qualité d’un estimateur
Estimateur de l’espérance, d’une proportion et de la variance
Soit une population dont les individus possèdent un caractère A avec une
probabilité p. On dispose d’un échantillon de taille n, dont x individus
possèdent le caractère A.
On sait maintenant que la proportion fn = x/n est une estimation
de la valeur vraie p ...
Mais avec quelle confiance ?
On cherche donc à construire un intervalle de confiance de
l’estimateur.
Crédits : O. Gaudoin
Kévin Polisano Cours de Statistiques de L1 – MAP 201 183/229
Estimation par intervalle de confiance d’une proportion
Soit une population dont les individus possèdent un caractère A avec une
probabilité p. On dispose d’un échantillon de taille n, dont x individus possèdent
le caractère A. La proportion fn = x/n est une estimation de la valeur vraie p.
Principe
n
1X
Soit Fn = Xi . Fn est une v.a. construite comme somme de n v.a
n
i=1
indépendantes de type Bernoulli et de paramètre p, i.e Xi ∼ B(p).
La loi de Tn = nFn suit une loi binomiale B(n, p) ...
La loi de Tn tend vers une loi normale de moyenne np et de variance
np(1 − p) (cf. TP 2, approximation valide si np > 10 et n(1 − p) > 10)
La variable renormalisée approche une loi normale centrée réduite :
T − np
p n ∼∞ N (0, 1)
np(1 − p)
Crédits : O. Gaudoin
Kévin Polisano Cours de Statistiques de L1 – MAP 201 184/229
Estimation par intervalle de confiance d’une proportion
On écrit alors
!
T − np
n
≤ uα ≈ 1 − α ,
P p
np(1 − p)
où uα est une valeur (se lisant dans la table de la loi normale N (0, 1))
qui vérifie :
P(|U| > uα ) = α, U ∼ N (0, 1) .
Pour en déduire
un intervalle de confiance, il suffit d’écrire
Tn −np
√ ≤ uα sous la forme Z1 ≤ p ≤ Z2 :
np(1−p)
T − np
n (Tn − np)2
≤ uα ⇐⇒ ≤ uα2
p
np(1 − p) np(1 − p)
Tn2
⇐⇒ p 2 (n + uα2 ) − p(2Tn + uα2 ) + ≤0
n
Crédits : O. Gaudoin
Kévin Polisano Cours de Statistiques de L1 – MAP 201 185/229
Estimation par intervalle de confiance d’une proportion
Intervalle de confiance asymptotique
2
Le trinôme p 2 (n + uα2 ) − p(2Tn + uα2 ) + Tnn est toujours positif sauf entre
ses racines. Donc ses racines sont les bornes de l’intervalle de confiance
recherché :
q q
u2α u2α
Tn u2α Tn (n−Tn ) Tn u2α Tn (n−Tn )
+ − u α 2 + 3 + + u α 2 + 3
n 2n 4n n
,
n 2n 4n n
u2α u2α
1+ n 1+ n
Pour les valeurs usuelles de α et pour n grand, on peut négliger uα2 par
rapport à n. D’où, avec Fn = Tnn et une réalisation fn de Fn , on obtient
l’intervalle de confiance asymptotique suivant :
" r r #
fn (1 − fn ) fn (1 − fn )
fn − uα , fn + uα
n n
Crédits : O. Gaudoin
Kévin Polisano Cours de Statistiques de L1 – MAP 201 186/229
Estimation par intervalle de confiance d’une proportion
Fourchette du sondage
[0.4904, 0.5596]
Crédits : O. Gaudoin
Kévin Polisano Cours de Statistiques de L1 – MAP 201 188/229
Estimation par intervalle de confiance d’une proportion
Taille de l’échantillon minimum
u u2
√α < ` ⇐⇒ n > 2α
n `
uα
Pour n = 800, on a √ n
= √1.96
800
≈ 7.5% ⇒ la précision sur l’estimation de p est
donc avec une confiance de 95% de plus ou moins 3.5%, ce qu’on a constaté
avec l’intervalle [49%, 56%].
Crédits : O. Gaudoin
Kévin Polisano Cours de Statistiques de L1 – MAP 201 189/229
Estimation par intervalle de confiance d’une proportion
Taille de l’échantillon minimum
À un seuil de confiance α = 5% fixé, combien de personnes n doit-on
interroger pour que l’intervalle de confiance n’excède pas une largeur ` ?
u u2
√α < ` ⇐⇒ n > 2α
n `
Si on veut, avec le même niveau de confiance, avoir une précision < à 1%, il
faudra interroger au moins :
uα2 1.962
n= = = 38 416 personnes
`2 0.012
Crédits : O. Gaudoin
Kévin Polisano Cours de Statistiques de L1 – MAP 201 190/229
Exercice
σ2
Xn ' N µ,
n
1 K <− 10000
2 n <− 10
3 mu=3
4 s i g m a 2=1
5 # On considère K échantillons composés de n valeurs issues de N(mu,sigma2)
6 # réparties sur chaque ligne de la matrice Xkn suivante
7 Xkn <− m a t r i x ( rnorm ( n∗K, mean=mu , s d=s q r t ( s i g m a 2 ) ) , n c o l=n )
8 # On applique la moyenne selon les lignes, donnant K moyennes
9 Mn <− a p p l y ( Xkn , FUN=mean , MARGIN=1)
10 h i s t (Mn, n c l a s s =30 , p r o b a b i l i t y=TRUE, main="Mn" , c o l=" b l u e " )
11 a b l i n e ( v=mean (Mn) , c o l=" r e d " ) ; a b l i n e ( v=mu , c o l =3)
n
σ2
X
Xi ∼ N (nµ, nσ 2 ) ⇒ Xn ∼ N µ,
n
i=1 Mn
1.2
1.0
0.8
Density
0.6
0.4
0.2
0.0
Mn
Kévin Polisano Cours de Statistiques de L1 – MAP 201 195/229
Caractérisation de la loi de l’estimateur X̄n
Pour une loi normale, effet de la taille de l’échantillon n = 100
n
σ2
X
Xi ∼ N (nµ, nσ 2 ) ⇒ Xn ∼ N µ,
n
i=1 Mn
4
3
Density
2
1
0
Mn
Kévin Polisano Cours de Statistiques de L1 – MAP 201 196/229
Caractérisation de la loi de l’estimateur X̄n
Pour une loi normale, effet de la taille de l’échantillon n = 1000
n
σ2
X
Xi ∼ N (nµ, nσ 2 ) ⇒ Xn ∼ N µ,
n
i=1 Mn
12
10
8
Density
6
4
2
0
Mn
Kévin Polisano Cours de Statistiques de L1 – MAP 201 197/229
Estimation par intervalle de confiance de la moyenne
Pour une loi normale, lorsque la variance σ est connue
P(|X̄n − µ| ≤ ) = 1 − α
Crédits : O. Gaudoin
Kévin Polisano Cours de Statistiques de L1 – MAP 201 198/229
Estimation par intervalle de confiance de la moyenne
Pour une loi normale, lorsque la variance σ est connue
Si X1 , . . . , Xn sont indépendantes et de même loi normale N (µ, σ 2 ),
l’estimateur sans biais de variance minimale (ESBVM) de µ est la
moyenne empirique X̄n
On cherche un intervalle de confiance pour µ de la forme
[X̄n − , X̄n + ], soit pour α fixé :
1 − α = P(|X̄n − µ| ≤ )
√
n
1 − α = P |U| ≤
σ
√
n
1 − P (|U| > uα ) = 1 − P |U| >
σ
√
On en déduit uα = σn soit = √σn uα , d’où l’intervalle de
confiance :
σ σ
Xn − √ uα , Xn + √ uα
n n
Crédits : O. Gaudoin
Kévin Polisano Cours de Statistiques de L1 – MAP 201 199/229
Loi du χ2
Définition :
Une v.a réelle suit une loi du χ2p (chi-deux) à p degrés de liberté si elle se
réalise comme une somme
p
X
χ2p = Ui2 ,
i=1
1.0
1
2
0.8
0.8
3
4
0.6
0.6
function(x) dchisq(x, 1)
function(x) pchisq(x, 1)
5
6
0.4
0.4
7
8
0.2
0.2
0.0
0.0
0 2 4 6 8 10 0 2 4 6 8 10
x x
Théorème de Fischer
Si X1 , . . . , Xn sont indépendantes et de même loi normale N (µ, σ 2 ), alors
nS2n (n − 1)S02
n
= ∼ χ2n−1
σ2 σ2
0.10
0.08
0.06
Density
0.04
0.02
0.00
0 10 20 30 40
Ki
nS 2 nSn2 nS 2
P a ≤ 2n ≤ b =P ≤ σ2 ≤ n
σ b a
= Fχ2 (b) − Fχ2 (a)
n−1 n−1
son espérance n’est pas définie pour p = 1 et est nulle pour p > 1, sa
p
variance est infinie pour p ≤ 2 et vaut p−2 pour p > 2
Kévin Polisano Cours de Statistiques de L1 – MAP 201 207/229
Loi de Student
Illustration de la densité et normalité asymptotique
Densité de Student
0.4
2
0.3
10
50
function(x) dt(x, 2)
N(0,1)
0.2
0.1
0.0
−6 −4 −2 0 2 4 6
X −µ √ Xn − µ
pn = n 6∼ N (0, 1)
02
Sn /n S0n
Crédits : O. Gaudoin
Kévin Polisano Cours de Statistiques de L1 – MAP 201 209/229
Caractérisation de la loi de l’estimateur Tn
Théorème de Fischer
Théorème de Fischer
Si X1 , . . . , Xn sont indépendantes et de même loi normale N (µ, σ 2 ), alors
√ Xn − µ
n ∼ St(n − 1)
S0n
−4 −2 0 2 4
0 5 10 15 20 25 30
−4 −2 0 2 4
P(X ∈ Wα | H0 ) ≤ α
qui ne contient pas la valeur observée 14. Donc entre les deux niveaux
de risques il y a une valeur α où on change de décision, cette
valeur s’appelle la p-valeur.
On obtient
α = P(X ≥ 14) = 0.015
La p-valeur est donc par définition la probabilité sous l’hypothèse nulle
d’observer des données au moins aussi grandes que la donnée observée.
Crédits : A. Jebrane (cours statistiques L2 psychologie)
Kévin Polisano Cours de Statistiques de L1 – MAP 201 225/229
Notion de p-valeur
Un domaine d’application : l’étude du paranormal
Afin de tester un potentiel don d’un individu, on peut soumettre ce dernier à
une épreuve aléatoire (par exemple : le test des cartes de Zener vu en TP), et
quantifier via la p-valeur si le résultat obtenu peut être considéré comme
extraordinaire sous l’hypothèse nulle.
https://www.youtube.com/watch?v=xVIt51ybvu0
|
https://www.youtube.com/watch?v=PRtwo1j0y2I