Académique Documents
Professionnel Documents
Culture Documents
Exercice 1
On a observé sur 50 lancers d’une pièce, les résultats suivants :
face ; pile ; face ; face ; pile ; face ; pile ; pile ; pile ; face ; pile ; pile ; face ; face ; pile ; pile ; face ; pile ; face ; pile ;
face ; face ; pile ; face ; pile ; pile ; pile ; pile ; face ; face ; face ; pile ; pile ; pile ; face ; pile ; face ; face ; face ; pile ;
pile ; pile ; pile ; pile ; pile ; face ; face ; pile ; pile ; pile
(a) Estimer la proportion de pile par intervalle de confiance au niveau 95%.
(b) Au risque 5%, la pièce est-elle pipée ?
(c) Au risque 5%, la proportion de pile est-elle différente de 60%, de 70% ?
(d) Au risque 1%, la proportion de pile est-elle supérieure à 40%, inférieure à 70% ?
Manipulations sous
1. Lire les données avec
res <- c("face", "pile", "face", "face", "pile", "face", "pile", "pile", "pile",
"face", "pile", "pile", "face", "face", "pile", "pile", "face", "pile",
"face", "pile", "face", "face", "pile", "face", "pile", "pile", "pile",
"pile", "face", "face", "face", "pile", "pile", "pile", "face", "pile",
"face", "face", "face", "pile", "pile", "pile", "pile", "pile", "pile",
"face", "face", "pile", "pile", "pile" )
str(res)
X <- as.numeric(as.factor(res))-1 # "face"=0 et "pile"=1
mean(X); sum(X)
2. Test asymptotique gaussien bilatéral sur une proportion et intervalle de confiance au niveau 95%
prop.test(sum(X),length(X)) # avec correction de continuité de Yates
p0 <- 0.5
min(p0,1-p0)*length(X) # conditions pour test asymptotique
min(mean(X),1-mean(X))*length(X) # conditions pour IC asymptotique
(test_p <- prop.test(sum(X),length(X), correct=F)) # sans correction de continuité
attributes(test_p)
test_p$statistic
sqrt(test_p$statistic)
test_p$p.val # p-valeur bilatérale
1-pchisq(test_p$statistic,1) ; 2*(1-pnorm(sqrt(test_p$statistic)))
p0 <- 0.6
min(p0,1-p0)*length(X) # conditions pour test asymptotique
prop.test(sum(X),length(X), p=p0, correct=F)
p0 <- 0.7
min(p0,1-p0)*length(X) # conditions pour test asymptotique
prop.test(sum(X),length(X), p=p0, correct=F)
3. Test asymptotique gaussien unilatéral droit sur une proportion
p0 <- 0.4
min(p0,1-p0)*length(X) # conditions pour test asymptotique
(test_p <- prop.test(sum(X),length(X), p=p0, correct=F, alternative="greater"))
test_p$p.val # p-valeur unilatérale droite
(1-pchisq(test_p$statistic,1))/2 ; 1-pnorm(sqrt(test_p$statistic))
1
4. Test asymptotique gaussien unilatéral gauche sur une proportion
(test_p <- prop.test(sum(X),length(X), p=0.7, correct=F, alternative="less"))
2
Éléments théoriques
On suppose que les données sont les réalisations d’un échantillon (X1 , . . . , Xn ) où Xi i.i.d. selon une
loi de Bernoulli Be(p) d’espérance p pour i = 1, . . . , n où p est inconnu (0 ≤ p ≤ 1).
En appliquant le TCL, il s’ensuit que :
1P p(1 − p)
la statistique X n = X i suit approximativement une loi normale N p ,
n i √ n
(X n − p) n
et la statistique Zn = p suit approximativement une loi normale centrée réduite N (0; 1)
p(1 − p)
pour n ≥ 30, n × p > 5 et n × (1 − p) > 5
Une estimation ponctuelle sans biais de la proportion de pile p est donnée par la fréquence observée
de pile x et celle de la proportion de face 1 − p par la fréquence observée de face 1 − x
• Intervalles de confiance asymptotiques d’une proportion
En remplaçant p par X n pour estimer la variance de X n
p.s.
(puisque d’après la loi forte des grands nombres X n −→ p )
n→∞
on déduit que : P zα/2 ≤ Zn ≤ z1−α/2 ' 1 − α
s s
X n (1 − X n ) X n (1 − X n )
P X n − z1−α/2 ≤ p ≤ X n + z1−α/2 '1−α
n n
pour zα/2 = −z1−α/2 et z1−α/2 les quantiles d’ordre α/2 et 1 − α/2 de la loi N (0; 1)
d’où l’intervalle de confiance asymptotique de la proportion p au niveau 1 − α (au risque α) :
s
X n (1 − X n )
IC1−α (p) = X n ∓ z1−α/2
n
la probabilité pour que l’intervalle aléatoire IC1−α (p) contienne la valeur p est d’environ 1 − α ;
sur l’échantillon
son calculel’intervalle de confiance observé de la proportion p au niveau 1−α :
observé,
x(1 − x)
ic1−α (p) = x ∓ z1−α/2 lorsque n ≥ 30, n × x > 5 et n × (1 − x) > 5
n
3
Règle de décision du test au seuil α à partir de la p-valeur :
– si αobs ≤ α on rejette l’hypothèse nulle H0 et on valide l’alternative H1 au risque d’erreur
maximum α et au risque minimum αobs ;
– si αobs > α on conserve l’hypothèse nulle H0 au seuil α et au risque d’erreur de seconde espèce β.
Conclusions
• La proportion p de lancers tombant sur pile est estimée à x = 0, 58 ; elle se situe entre 0,4431951 et
0,7168049 avec une confiance de 95% et entre 0,4002079 et 0,7597921 avec une confiance de 99%.
• La pièce n’est pas pipée, au seuil α = 5% et au risque d’erreur de seconde espèce β, puisque :
– les conditions de validité de l’approximation normale sont vérifiées : n = 50 ≥ 30 et np0 =
n(1 − p0 ) = n × 0, 5 = 25 > 5 ;
– la p-valeur du test bilatéral asymptotique gaussien, αobs = 2√ × PH0 (Z ≥ 1, 131371) = 0, 257899
(0, 58 − 0, 5) 50
est supérieure au seuil α = 5% (en effet zobs = = 1, 131371) ;
0, 5
– ou bien, la valeur observée zobs = 1, 131371 n’appartient pas à la région critique bilatérale au
seuil α = 5% : RC5% = {Z; |z| ≥ z1−α/2 = z0,975 = 1, 96}.
• La proportion de pile n’est pas différente de 0,6 au seuil α = 5% et au risque d’erreur de 2de espèce β
puisque, les conditions étant vérifiées (n = 50 ≥ 30 et n(1 − p0 ) = n × 0, 4 = 20 > 5)
la valeur observée zobs = −0, 2886751 n’appartient pas à la région critique bilatérale au seuil α = 5% :
RC5% = {Z; |z| ≥ 1, 96}
ou bien, la p-valeur du test bilatéral, αobs = 2 × PH0 (Z ≥ | − 0, 2886751|) = 0, 77283 est supérieure au
seuil α = 5%.
• La proportion de pile n’est pas différente de 0,7 au seuil α = 5% et au risque d’erreur de 2de espèce β
puisque, les conditions étant vérifiées (n = 50 ≥ 30 et n(1 − p0 ) = n × 0, 3 = 15 > 5)
la valeur observée zobs = −1, 85164 n’appartient pas à RC5% = {Z; |z| ≥ 1, 96}
ou bien, la p-valeur du test bilatéral, αobs = 2 × PH0 (Z ≥ | − 1, 85164|) = 0, 06407751 > α = 5%.
• La proportion de pile est supérieure à 0,4 au risque maximum α = 1% et au risque minimum αobs '
0, 005 puisque, les conditions étant vérifiées (n = 50 ≥ 30 et np0 = n × 0, 4 = 20 > 5)
la valeur observée zobs = 2, 598076 appartient à la région critique unilatérale droite au seuil α = 1% :
RC1% = {Z; Z ≥ z1−α = z0,99 = 2, 325}
ou bien, la p-valeur du test unilatéral droit, αobs = PH0 (Z ≥ 2, 598076) = 0, 004687 ≤ α = 1%.
• La proportion de pile n’est pas inférieure à 0,7 au seuil α = 1% et au risque d’erreur de 2de espèce β
puisque, les conditions étant vérifiées (n = 50 ≥ 30 et n(1 − p0 ) = n × 0, 3 = 15 > 5)
la valeur observée zobs = −1, 85164 n’appartient pas à la région critique unilatérale gauche au seuil
α = 1% : RC1% = {Z; Z ≤ zα = −z0,99 = −2, 325}
ou bien, la p-valeur du test unilatéral gauche, αobs = PH0 (Z ≤ −1, 85164) = 0, 03203875 > α = 1%.
4
Exercice 2
Le pourcentage de grossesses multiples (jumeaux, triplés,...) en France en 1950, c’est-à-dire avant l’intro-
duction des contraceptifs oraux était de 1.1%. En 1991, dans un échantillon de 1000 grossesses de femmes
ayant pris par le passé des contraceptifs oraux, 21 ont été multiples 1 .
(a) Estimer par intervalle de confiance au niveau 99%, la proportion de grossesses multiples en 1991 pour
les femmes ayant pris par le passé des contraceptifs oraux.
(b) La proportion de grossesses multiples observée sur cet échantillon est-elle significativement supérieure
à celle de 1950 ?
Manipulations sous
1. Lire les données avec
n <- 1000
s <- 21
2. IC et test asymptotique avec les fonctions IC_prop et test_prop définies dans l’exercice 1
IC_prop(s/n, n, 0.99)
test_prop(s/n, p0=0.011, n) # unilatéral par défaut
3. IC et test asymptotique avec la commande prop.test
prop.test(s,n, p=0.011, correct=F, conf.level=0.99)
(test <- prop.test(s,n, p=0.011, correct=F, alternative="greater") )
test$statistic
sqrt(test$statistic)
– dans la liste affichée, choisir un CRAN mirror, par exemple France (Lyon1) [https] et valider OK
– dans la liste affichée, choisir le Package à télécharger, par exemple BSDA et valider OK
5
Exercice 3
Un client commande à son fournisseur un lot de thermomètres. Afin de tester la qualité des thermomètres, le
client en choisit 32 au hasard et les plonge dans un liquide à 20 degrés. Il obtient les températures suivantes :
19.8, 19.6, 19.9, 20.1, 20.3, 20.0, 19.5, 20.1, 20.1, 19.9, 19.6, 19.4, 20.0, 20.2, 19.7, 20.4,
20.2, 19.9, 19.7, 20.0, 19.5, 20.0, 20.2, 19.4, 20.1, 20.3, 20.1, 20.4, 19.9, 19.6, 20.3, 20.2
Que peut-on en déduire sur la qualité des thermomètres : est-ce qu’ils donnent la bonne température en
moyenne ; avec quelle précision ?
Manipulations sous
1. Lire les données avec
X <- c( 19.8, 19.6, 19.9, 20.1, 20.3, 20.0, 19.5, 20.1, 20.1, 19.9, 19.6, 19.4,
20.0, 20.2, 19.7, 20.4, 20.2, 19.9, 19.7, 20.0, 19.5, 20.0, 20.2, 19.4,
20.1, 20.3, 20.1, 20.4, 19.9, 19.6, 20.3, 20.2)
X
str(X)
mean(X); var(X)
2. Test asymptotique gaussien bilatéral sur une moyenne et intervalles de confiance
mu0 <- 20
(a) utiliser la commande z.test du package BSDA
BSDA::z.test(X, mu = mu0, sigma.x=sd(X)) # niveau par défaut : 95%
BSDA::z.test(X, mu = mu0, sigma.x=sd(X), conf.level=0.99) # niveau 99%
# précision de l’estimation au risque 5% : demi-longueur de l’IC au niveau 95%
Ztest <- BSDA::z.test(X, mu = mu0, sigma.x=sd(X))
Ztest$conf.int
(Ztest$conf.int[2]-Ztest$conf.int[1])/2
Ztest <- BSDA::z.test(X, mu = mu0, sigma.x=sd(X), conf.level=0.99)
(Ztest$conf.int[2]-Ztest$conf.int[1])/2
(b) programmer une fonction
# fonction test et IC asymptotiques d’une moyenne : test_Z(X, mu0, niv, orient)
test_Z <- function(X, mu0, niv=0.95, orient=c("bil","inf","sup")) {
orient <- match.arg(orient)
if (length(X) < 30)
warning("ATTENTION : approximation normale incorrecte")
z <- (mean(X)-mu0)*sqrt(length(X))/sd(X)
pv <- switch(orient, bil = 2*(1-pnorm(abs(z))), inf = pnorm(z),
sup = 1-pnorm(z) )
prec <- qnorm(1-(1-niv)/2)*sd(X)/sqrt(length(X))
ic <- mean(X)+c(-prec,prec)
ort <- switch(orient, bil = "bilatérale", inf = "uni gauche",
sup = "uni droite")
print("test asymptotique sur une moyenne")
return(list(estimation=c(moyenne=mean(X), e.t.=sd(X)),
test=data.frame(mu_0=mu0, z_obs=z, p_val=pv, orientation=ort),
IC=c(niveau=niv*100, IC_inf=ic[1], IC_sup=ic[2], précision=prec)))
}
test_Z(X, mu0) # par défaut, niveau : 95% et test bilatéral
test_Z(X, mu0, niv=0.99) # niveau 99% et test bilatéral
test_Z(X, mu0, orient="inf") # niveau 95% et test unilatéral gauche
test_Z(X, 19.8, 0.99, "sup") # niveau 99% et test unilatéral droit
6
Éléments théoriques
On suppose que les données sont les réalisations d’un échantillon (X1 , . . . , Xn ) de moyenne µ et de
variance σ 2 inconnues, soit Xi i.i.d. de loi inconnue pour i = 1, . . . , n.
√
(X n − µ) n
Pour n ≥ 30 la statistique Zn = suit approximativement une loi N (0; 1).
Sbn
• Intervalles de confiance d’une moyenne (variance inconnue)
!
Sbn Sbn
On déduit que : 1 − α ' P zα/2 ≤ Zn ≤ z1−α/2 = P X n − z1−α/2 √ ≤ µ ≤ X n + z1−α/2 √
n n
pour zα/2 = −z1−α/2 et z1−α/2 les quantiles d’ordre α/2 et 1 − α/2 de la loi N (0; 1)
d’où l’intervalle
" de confiance #(asymptotique) de la moyenne µ au niveau 1 − α (au risque α) :
Sbn
IC1−α (µ) = X n ∓ z1−α/2 √
n
la probabilité pour que l’intervalle aléatoire IC1−α (µ) contienne la valeur µ est d’environ 1 − α ;
sur l’échantillon observé, on calcule l’intervalle de confiance observé de la moyenne µ au niveau 1 − α :
sbx
ic1−α (µ) = x ∓ z1−α/2 √
n
• Tests de l’hypothèse nulle H0 : µ = µ0 (variance inconnue)
√
(X n − µ0 ) n approx.
Sous H0 la statistique de test Z = ∼ N (0; 1) lorsque n ≥ 30
Sbn sous H0
√
(x − µ0 ) n
la valeur observée de Z sur l’échantillon zobs =
sbx
la région critique RCα au seuil α est telle que : PH0 (RCα ) ' α
– pour H1 : µ > µ0 alternative unilatérale droite,
la p-valeur αobs = PH0 (Z ≥ zobs )
RCα = {Z; Z ≥ z1−α } où z1−α est le quantile d’ordre 1 − α de la loi N (0; 1)
– pour H1 : µ < µ0 alternative unilatérale gauche,
la p-valeur αobs = PH0 (Z ≤ zobs )
RCα = {Z; Z ≤ zα } où zα = −z1−α est le quantile d’ordre α de la loi N (0; 1)
– pour H1 : µ 6= µ0 alternative bilatérale,
la p-valeur αobs = 2 × PH0 (Z ≥ |zobs |)
n o
RCα = Z; |Z| ≥ z1−α/2 où z1−α/2 est le quantile d’ordre 1 − α/2 de la loi N (0; 1)
Conclusions
• La moyenne des températures mesurées par les thermomètres est estimée à x = 19, 95 (degrés) ; elle se
situe entre 19,84813 et 20,05187 (degrés), c’est-à-dire 19, 95 ± 0, 1018731 avec une confiance de 95%
et entre 19,81612 20,08388 (degrés) soit 19, 95 ± 0, 133884 avec une confiance de 99% ;
la variance σ 2 des températures mesurées par les thermomètres est estimée à sb2x = 0, 08645161 et
l’écart-type à sbx = 0, 2940266 degré.
• La température moyenne mesurée par les thermomètres n’est pas différente de 20 degrés, au seuil
α = 5% et au risque d’erreur de seconde espèce β, puisque :
– la p-valeur du test bilatéral, αobs =√2 × PH0 (Z ≥ 0, 96196) = 0, 33607 est supérieure au seuil
(19, 95 − 20) 32
α = 5% en effet zobs = = −0, 9619632 ;
0, 2940266
– ou bien, la valeur testée µ0 = 20 appartient à l’intervalle de confiance au niveau 95% (au risque
5%) de la moyenne µ : IC95% (µ) = [19, 84813; 20, 05187].
7
Exercice 4
Les données suivantes représentent les charges maximales (en tonnes) supportées par 20 câbles fabriqués
dans une usine :
10,1 12,2 9,3 12,4 13,7 10,8 11,6 10,1 11,2 11,3
12,2 12,6 11,5 9,2 14,2 11,1 13,3 11,8 7,1 10,5
(a) Déterminer un intervalle de confiance au niveau 95% pour la charge maximale moyenne supportée par
les câbles fabriqués par l’usine.
(b) La charge maximale moyenne supportée par les câbles fabriqués par l’usine est-elle différente de 11
tonnes, au risque 5% ; au risque 10% ?
(c) Au risque 5%, la charge maximale moyenne supportée par les câbles est-elle supérieure à 10 tonnes ?
(d) Au risque 1%, la charge maximale moyenne supportée par les câbles est-elle inférieure à 12 tonnes ?
(e) Déterminer un intervalle de confiance au niveau 95% pour la variance de la charge maximale supportée
par les câbles fabriqués par l’usine ; puis au niveau 99%.
Manipulations sous
1. Lire les données avec
X <- c( 10.1, 12.2, 9.3, 12.4, 13.7, 10.8, 11.6, 10.1, 11.2, 11.3,
12.2, 12.6, 11.5, 9.2, 14.2, 11.1, 13.3, 11.8, 7.1, 10.5 )
X
str(X)
mean(X); var(X)
2. Test de Student bilatéral sur une moyenne et intervalle de confiance au niveau 95%
t.test(X, mu=11)
# IC au niveau 90%
t.test(X, mu=11, conf.level = 0.9)
3. Test de Student unilatéral droit sur une moyenne
t.test(X, mu=10, alternative="greater")
4. Test de Student unilatéral gauche
t.test(X, mu=12, alternative="less")
5. Intervalle de confiance de la variance
# fonction IC d’une variance (khi-deux) : IC_var(x, niv)
IC_var <- function(x, niv=0.95) { (length(x)-1)*var(x)/
c(qchisq(1-(1 - niv)/2, length(x)-1), qchisq((1 - niv)/2, length(x)-1)) }
IC_var(X) # par défaut, niv=0.95
IC_var(X, niv=0.99)
Éléments théoriques
Puisque la variable X suit une loi normale, on suppose que les données sont les réalisations d’un
échantillon gaussien (X1 , . . . , Xn ) de moyenne µ et de variance σ 2 , soit Xi i.i.d. de loi N (µ, σ 2 ) pour
i = 1, . . . , n où µ et σ 2 sont inconnus. Il s’ensuit que :
!
1P σ2
(i) la statistique X n = i Xi suit une loi normale N µ,
n n
X n est un estimateur sans biais et convergent de µ
√
(X n − µ) n
et la statistique suit une loi normale centrée réduite N (0; 1)
σ
8
(ii) les statistiques
1P
Sn2 = (Xi − X n )2 (estimateur asymptotiquement sans biais et convergent de σ 2 )
n i
1 P n
et Sbn2 = (Xi − X n )2 = S 2 (estimateur sans biais et convergent de σ 2 )
n−1 i n−1 n
nSn2 (n − 1)Sbn2
sont telles que = suit une loi du khi-deux à (n − 1) ddl χ2 (n − 1)
σ2 σ2
(iii) les statistiques X n et Sbn2 (ou Sn2 ) sont indépendantes
√
(X n − µ) n
(iv) la statistique Tn = suit une loi de Student à (n − 1) ddl St(n − 1)
Sbn
• Intervalles de confiance d’une moyenne (variance inconnue)
!
Sbn Sbn
De (iv) on déduit que : P tα/2 ≤ Tn ≤ t1−α/2 = 1−α = P X n − t1−α/2 √ ≤ µ ≤ X n + t1−α/2 √
n n
pour tα/2 = −t1−α/2 et t1−α/2 les quantiles d’ordre α/2 et 1 − α/2 de la loi St(n − 1)
" #
Sbn
d’où l’intervalle de confiance de la moyenne µ au niveau 1−α (au risque α) : IC1−α (µ) = X n ∓ t1−α/2 √
n
la probabilité pour que l’intervalle aléatoire IC1−α (µ) contienne la valeur µ est de 1 − α ;
sur l’échantillon observé, on calcule l’intervalle de confiance observé de la moyenne µ au niveau 1 − α :
sbx
ic1−α (µ) = x ∓ t1−α/2 √
n
• Intervalles de confiance d’une variance (moyenne inconnue)
! !
(n − 1)Sb2 (n − 1)Sb2 (n − 1) b2
S
n n n
De (ii) on déduit que : P x2α/2 ≤ ≤ x21−α/2 = 1 − α = P ≤ σ2 ≤
σ2 x21−α/2 x2α/2
pour x2α/2 et x21−α/2 les quantiles d’ordre α/2 et 1 − α/2 de la loi χ2 (n − 1)
d’où l’intervalle de confiance de la variance σ 2 au niveau 1 − α (au risque α) :
" # " #
2 (n − 1)Sbn2 (n − 1)Sbn2 nSn2 nSn2
IC1−α (σ ) = ; = 2 ;
x21−α/2 x2α/2 x1−α/2 x2α/2
sur l’échantillon
" observé, on calcule#l’intervalle
" de confiance
# observé de la variance σ 2 au niveau 1 − α :
(n − 1)sb2x (n − 1)sb2x ns2 ns2
ic1−α (σ 2 ) = 2 ; 2 = 2 x ; 2x
x1−α/2 xα/2 x1−α/2 xα/2
9
Conclusions
• La moyenne µ des charges maximales supportées par les câbles fabriqués par l’usine est estimée à
x = 11, 31 (tonnes) ; elle se situe entre 10,52879 et 12,09121 (tonnes) avec une confiance de 95% et
entre 10,66461 et 11,95539 (tonnes) avec une confiance de 90% ;
la variance σ 2 des charges maximales supportées par les câbles fabriqués par l’usine est estimée à
sb2x = 2, 786211 ; elle se situe entre 1,611393 et 5,943738 avec une confiance de 95% et entre 1,372081
et 7,734983 avec une confiance de 99%.
• La charge maximale moyenne supportée par les câbles fabriqués par l’usine n’est pas différente de 11
tonnes, au seuil α = 5% et au risque d’erreur de seconde espèce β, puisque :
– la p-valeur du test bilatéral de Student à n − 1 = 19 ddl, αobs√= 2 × PH0 (T ≥ 0, 83056) = 0, 4165
(11, 31 − 11) 20
est supérieure au seuil α = 5% (en effet tobs = = 0, 83056) ;
1, 669195
– ou bien, la valeur testée µ0 = 11 appartient à l’intervalle de confiance au niveau 95% (au risque
5%) de la moyenne µ : IC95% (µ) = [10, 52879; 12, 09121].
Pour les mêmes raisons, la conclusion reste la même au seuil 10% : IC90% (µ) = [10, 66461; 11, 95539].
• La charge maximale moyenne supportée par les câbles fabriqués par l’usine est supérieure à 10 tonnes,
au risque maximum α = 5% et au risque minimum αobs ' 0, 0012, puisque la p-valeur du test unilatéral
droit de Student à n − 1 = 19 ddl, αobs = PH0 (T ≥ 3, 5098) = 0, 001171 est inférieure au seuil α = 5%.
• La charge maximale moyenne supportée par les câbles fabriqués par l’usine n’est pas inférieure à 12
tonnes, au seuil α = 1% et au risque d’erreur de seconde espèce β, puisque la p-valeur du test unilatéral
gauche de Student à n − 1 = 19 ddl, αobs = PH0 (T ≤ −1, 8487) = 0, 04007 est supérieure au seuil
α = 1%.
10
Exercice 5
On a relevé la consommation en carburant (en litres/100 km) xi de 29 berlines. Les données sont résumées
P P 2
par : n = 29 xi = 117, 28 xi = 491, 92.
On suppose que les données sont les réalisations d’un échantillon gaussien (X1 , . . . , Xn ) de loi N (µ, σ 2 ).
Manipulations sous
1. Lire les données avec
n <- 29
somX <- 117.28
somX2 <- 491.92
2. Estimations ponctuelles
# fonction estimation ponctuelle : estimation(som, som2, n)
estimation <- function(som, som2, n) {
moy <- somX/n
var <- (somX2-n*moy^2)/(n-1)
sd <- sqrt(var)
estim <- c(moy,var,sd)
names(estim) <- c("moyenne","variance","écart-type")
return(estim)
}
estimation(somX,somX2,n)
est <- estimation(somX,somX2,n)
est
est[1]; est["moyenne"]; est["écart-type"]
3. Intervalles de confiance d’une moyenne (loi de Student)
# fonction IC d’une moyenne (Student) : IC_Student(moy, sd, n, niv)
IC_Student <- function(moy, sd, n, niv=0.95) {
prec <- qt(1-(1-niv)/2,n-1)*sd/sqrt(n)
ic.res <- c(niv*100, moy + c(-prec,prec), moy, prec)
names(ic.res) <- c("niveau %","IC inf","IC sup","moyenne","précision")
return(ic.res)
}
IC <- IC_Student(est["moyenne"], est["écart-type"], n)
IC # par défaut, niv=0.95
IC_Student(est["moyenne"], est["écart-type"], n, niv=0.99)
4. Tests de Student sur une moyenne
# fonction test de Student d’une moyenne : test_Student(moy, mu0, sd, n, orient)
test_Student <- function(moy, mu0, sd, n, orient=c("bil","inf","sup")) {
orient <- match.arg(orient)
t <- (moy-mu0)*sqrt(n)/sd
pv <- switch(orient,
11
bil = 2*(1-pt(abs(t),n-1)),
inf = pt(t,n-1),
sup = 1-pt(t,n-1)
)
ort <- switch(orient, bil = "bilatérale", inf = "uni gauche",
sup = "uni droite")
test.res <- data.frame(mu0, moy, t, pv, n-1, ort)
names(test.res) <- c("mu0","moy obs","t obs","p-val","ddl","orientation")
row.names(test.res) <- c("test Student")
return(test.res)
}
test_Student(est["moyenne"], mu0=3.5, est["écart-type"], n, "sup")
# valeur critique unilatérale droite au seuil alpha
alpha <- 0.01
qt(1-alpha,n-1)
test_Student(est["moyenne"], mu0=4, est["écart-type"], n)
# valeurs critiques bilatérales au seuil alpha
alpha <- 0.1
qt(alpha/2,n-1); qt(1-alpha/2,n-1)
test_Student(est["moyenne"], mu0=4.25, est["écart-type"], n, "inf")
# valeur critique unilatérale gauche au seuil alpha
alpha <- 0.1
qt(alpha,n-1)
5. Intervalles de confiance d’une variance
# fonction IC d’une variance (khi-deux), à partir de la variance observée sans biais :
# IC_var.var(var, n, niv)
IC_var.var <- function(var, n, niv=0.95) {
ic <- (n-1)*var/c(qchisq(1-(1-niv)/2,n-1),qchisq((1-niv)/2,n-1))
ic.res <- c(niv*100, ic, var)
names(ic.res) <- c("niveau %","IC inf","IC sup","variance")
return(ic.res)
}
IC_var.var(est["variance"], n) # par défaut, niv=0.95
IC_var.var(est["variance"], n, niv=0.9)
Éléments théoriques
• Tests de l’hypothèse nulle H0 : µ = µ0 (variance inconnue)
√
(X n − µ0 ) n
Puisque l’échantillon est gaussien, sous H0 la statistique de test T = ∼ St(n − 1)
√ Sbn sous H0
(x − µ0 ) n
la valeur observée de T sur l’échantillon tobs =
sbx
– pour H1 : µ > µ0 alternative unilatérale droite, la région critique au seuil α : RCα = {T ; T ≥ t1−α }
où t1−α est le quantile d’ordre 1 − α de la loi St(n − 1)
– pour H1 : µ < µ0 alternative unilatérale gauche, la région critique au seuil α : RCα = {T ; T ≤ tα }
où tα = −t1−α est le quantile d’ordre α de la loi St(n − 1)
n o
– pour H1 : µ 6= µ0 alternative bilatérale, la région critique au seuil α : RCα = T ; |T | ≥ t1−α/2
où t1−α/2 est le quantile d’ordre 1 − α/2 de la loi St(n − 1)
Règle de décision du test au seuil α à partir de la région critique ou région de rejet :
– si tobs ∈ RCα on rejette l’hypothèse nulle H0 et on valide l’alternative H1 au risque d’erreur
maximum α ;
/ RCα on conserve l’hypothèse nulle H0 au seuil α et au risque d’erreur de 2de espèce β.
– si tobs ∈
12
Conclusions
• La consommation moyenne de carburant µ est estimée à x = 4, 0441379 (l/100 km) ; elle se situe entre
3,7423621 et 4,3459137 (l/100 km) soit 4, 0441379 ± 0, 3017758 avec une confiance de 95%, et entre
3,6370481 et 4,4512278 (l/100 km) avec une confiance de 99% ;
la variance σ 2 des consommations de carburant est estimée à sb2x = 0, 6294108 ; elle se situe entre
0,3963830 et 1,1512715 avec une confiance de 95% et entre 0,4263358 et 1,0410937 avec une confiance
de 90% ; l’écart-type est estimé à sbx = 0, 7933542 (l/100 km).
• La consommation moyenne de carburant est supérieure à 3,5 litres, au risque maximum α = 1%,
puisque :
√
(4, 0441379 − 3, 5) 29
– la valeur observée tobs = = 3, 693524
0, 7933542
appartient à RC0,01 = {T ; T ≥ t0,99 = 2, 46714} ;
– ou bien, la p-valeur du test unilatéral droit de Student à n − 1 = 28 ddl,
αobs = PH0 (T ≥ 3, 693524) = 0, 0004748096 est inférieure au seuil α = 1%.
• La consommation moyenne de carburant n’est pas différente de 4 litres, au seuil α = 10% et au risque
d’erreur de seconde espèce β, puisque :
√
(4, 0441379 − 4) 29
– la valeur observée tobs = = 0, 2996014
0, 7933542
appartient à RC0,1 = {T ; |T | ≥ t0,95 = 1, 701}
où t0,95 = 1, 701 est le quantile d’ordre 1 − α/2 = 0, 95 de la loi de Student à n − 1 = 28 ddl ;
– ou bien, la p-valeur du test bilatéral de Student à n − 1 = 28 ddl,
αobs = 2 × PH0 (T ≥ 0, 2996014) = 0, 766694 est supérieure au seuil α = 10% ;
– ou bien, la valeur testée µ0 = 4 appartient à l’intervalle de confiance au niveau 90% (au risque
10%) de la moyenne µ : IC90% (µ) = [3, 7935236; 4, 2947522].
• La consommation moyenne de carburant est inférieure à 4,25 litres, au risque maximum α = 10%,
puisque :
√
(4, 0441379 − 4, 25) 29
– la valeur observée tobs = = −1, 39736
0, 7933542
appartient à RC0,1 = {T ; T ≥ t0,1 = −t0,9 = −1, 313}
où t0,1 = −1, 313 est le quantile d’ordre α = 0, 1 de la loi de Student à n − 1 = 28 ddl ;
– ou bien, la p-valeur du test unilatéral gauche de Student à n − 1 = 28 ddl,
αobs = PH0 (T ≤ −1, 39736) = 0, 08664043 est inférieure au seuil α = 10%.
13
Exercice 6
Afin d’étudier l’effet d’un nouveau médicament en vue de réduire la tension artérielle, on a mesuré la tension
(en mm de Hg) sur 12 patients avant et après traitement. Les valeurs suivantes ont été obtenues :
Avant 200 174 198 170 179 182 193 209 185 155 169 210
Après 191 170 177 167 159 151 176 193 159 156 146 197
(a) Peut-on conclure au risque 1%, que ce médicament réduit la tension artérielle ?
On supposera la différence entre les tensions avant et après traitement distribuée selon une loi normale.
(b) Le médicament réduit-il la tension artérielle de plus de 10 mm de Hg ?
Manipulations sous
1. Lire les données avec
Avant <- c(200, 174, 198, 170, 179, 182, 193, 209, 185, 155, 169, 210)
Après <- c(191, 170, 177, 167, 159, 151, 176, 193, 159, 156, 146, 197)
2. Définir la variable différence D = Avant − Après
D <- Avant-Après
length(D); mean(D); var(D); sd(D)
3. Comparaison de la moyenne de D à 0 : test de Student
mu0 <- 0
t.test(D, mu = mu0, alternative="greater")
t.test(Avant,Après, paired = TRUE, alternative="greater")
4. Comparaison de la moyenne de D à 10 : test de Student
mu0 <- 10
t.test(D, mu = mu0, alternative="greater")
t.test(Avant,Après, mu = mu0, paired = TRUE, alternative="greater")
Éléments théoriques
Les données sont les réalisations de deux échantillons appariés de même taille d’un même caractère
quantitatif :
2 inconnues ;
– (X1 , . . . , Xn ) de la v.a. quantitative X de moyenne µX et de variance σX
– (Y1 , . . . , Yn ) de la v.a. quantitative Y de moyenne µY et de variance σY2 inconnues.
On considère la variable D = X − Y : les différences observées sont les réalisations d’un échantillon
(D1 , . . . , Dn ) supposé gaussien, d’où Di i.i.d. de loi N (µ, σ 2 ) pour i = 1, . . . , n avec µ et σ 2 inconnus.
Comparer les moyennes µX et µY revient à comparer la moyenne µ de la différence D à µ0 , en général
µ0 = 0.
Conclusions
• La différence des tensions artérielles moyenne µ est estimée par d = x − y = 15, 16667 (mm de Hg) ;
la variance σ 2 des différences des tensions artérielles est estimée à sb2d = 97, 06061 et l’écart-type est
estimé à sbd = 9, 8519342 (mm de Hg).
• La moyenne de la différence des tensions artérielles est supérieure à 0 (mmHg), au risque maximum
α = 1%, puisque la p-valeur du test unilatéral droit de Student à n − 1 = 11 ddl,
αobs = PH0 (T ≥ 5, 3328) = 0, 00012 est inférieure au seuil α = 1% :
le nouveau médicament réduit donc significativement la tension artérielle, au risque maximum α = 1%
et au risque minimum αobs = 0, 012%.
• Le nouveau médicament réduit significativement la tension artérielle de plus de 10 (mmHg) au risque
maximum α = 5% et au risque minimum αobs = 4, 829% (αobs = PH0 (T ≥ 1, 8167) = 0, 04829).
14
Exercice 7
On dispose des données de demandeurs de crédits relevées sur 50 ménages, composés d’un homme, d’une
femme et éventuellement des personnes à charge (les enfants principalement). Les variables sont les suivantes :
– le logarithme (népérien) du salaire mensuel (en euros) de l’homme ;
– le logarithme (népérien) du salaire mensuel (en euros) de la femme ;
– le logarithme (népérien) du revenu mensuel (en euros) par tête : le revenu par tête correspond au
revenu du ménage (salaire homme+salaire femme) divisé par le nombre de personnes ;
– l’âge de l’homme (en années) ;
– l’accord du crédit par l’organisme prêteur ;
– la garantie supplémentaire demandée à l’emprunteur ;
– le type d’emploi occupé par l’emprunteur (la personne inscrite en premier dans le formulaire de de-
mande c.-à-d. la personne de référence).
C. Comparer les salaires moyens des hommes et des femmes des ménages demandeurs de crédit.
Manipulations sous
1. Lire les données avec du fichier Salaires_ménages.txt : tableau de données dataframe
# définir le répertoire courant
setwd("nom répertoire courant ")
getwd()
# lire le fichier
données <- read.delim("Salaires_ménages.txt")
données
str(données)
names(données)
summary(données)
attach(données)
2. Estimations ponctuelles selon l’acceptation du crédit
# âge des hommes selon si le crédit a été accepté ou non
tapply(Age,Acceptation, length)
tapply(Age,Acceptation, mean)
tapply(Age,Acceptation, var)
tapply(Age,Acceptation, sd)
3. Test de Fisher de comparaison de deux variances
var.test(Age ~ Acceptation)
# autre formulation
X <- Age[Acceptation=="oui"]
15
Y <- Age[Acceptation=="non"]
var.test(X,Y)
# RC au seuil alp du test bilatéral
alp <- 0.05
qf(alp/2,length(X)-1,length(Y)-1) # quantile d’ordre alp/2 loi de Fisher
qf(1-alp/2,length(X)-1,length(Y)-1) # quantile d’ordre 1-alp/2 loi de Fisher
4. Test de Student de comparaison de deux moyennes
t.test(Age ~ Acceptation) # par défaut, variances inégales : test de Welch
t.test(Age ~ Acceptation, var.equal=T)
t.test(X,Y, var.equal=T) # autre formulation
( t_Age <- t.test(X,Y, var.equal=T) )
attributes(t_Age)
t_Age$statistic # valeur observée de la statistique T de Student
t_Age$par # ddl de la loi de Student
t_Age$p.value # p-valeur bilatérale selon la loi de Student
t_Age$stderr # dénominateur de la statistique T de Student
s2 <- ((length(X)-1)*var(X)+(length(Y)-1)*var(Y))/(length(X)+length(Y)-2)
s2 # estimation de la variance commune
5. Étude du salaire des femmes
# salaire des femmes selon si le crédit a été accepté ou non
tapply(Sal.Femme,Acceptation, length)
tapply(Sal.Femme,Acceptation, mean)
tapply(Sal.Femme,Acceptation, var)
tapply(Sal.Femme,Acceptation, sd)
# normalité des variables
X <- Sal.Femme[Acceptation=="oui"]
Y <- Sal.Femme[Acceptation=="non"]
par(mfrow=c(2,1))
bornes <- seq(6,9,0.2)
hist(X, freq=F, breaks=bornes)
curve(dnorm(x,mean(X),sd(X)), col=’red’, lwd=2, add=T)
hist(Y, freq=F, breaks=bornes)
curve(dnorm(x,mean(Y),sd(Y)), col=’red’, lwd=2, add=T)
# égalité des variances
var.test(Sal.Femme ~ Acceptation)
var.test(X,Y)
# comparaison des moyennes
t.test(Sal.Femme ~ Acceptation, alternative="less")
t.test(Sal.Femme ~ Acceptation, alternative="less", var.equal=T)
t.test(X,Y, alternative="greater")
6. Test asymptotique gaussien de comparaison de deux moyennes : échantillons indépendants
mean(Sal.Femme); mean(Sal.Homme)
( t_Sal <- t.test(Sal.Femme, Sal.Homme) )
attributes(t.Sal)
t_Sal$statistic # valeur observée de la statistique Z
t_Sal$stderr # dénominateur de zobs : erreur-type de la différence
t_Sal$p.value # p-valeur bilatérale selon la loi de Student
2*pnorm(t_Sal$stat) # p-valeur bilatérale selon la loi N(0;1)
pnorm(t_Sal$stat) # p-valeur unilatérale selon la loi N(0;1)
# commande z.test du package BSDA
BSDA::z.test(Sal.Femme, sigma.x=sd(Sal.Femme), Sal.Homme, sigma.y=sd(Sal.Homme))
BSDA::z.test(Sal.Femme, sigma.x=sd(Sal.Femme), Sal.Homme, sigma.y=sd(Sal.Homme),
alternative="less")
16
7. Test asymptotique gaussien de comparaison de deux moyennes : échantillons appariés
( t_ap <- t.test(Sal.Femme, Sal.Homme, paired=T) )
t_ap$statistic # valeur observée de la statistique Z
t_ap$stderr # dénominateur de zobs : erreur-type de la différence
2*pnorm(t_ap$stat) # p-valeur bilatérale selon la loi N(0;1)
sd(Sal.Femme- Sal.Homme)/sqrt(length(Sal.Femme)) # erreur-type de la différence
# commande z.test du package BSDA
BSDA::z.test(Sal.Femme- Sal.Homme, sigma.x=sd(Sal.Femme- Sal.Homme))
detach(données)
Éléments théoriques
Les données sont les réalisations de deux échantillons indépendants d’un même caractère quantitatif :
2 ;
– (X1 , . . . , Xn ) de taille n de la v.a. quantitative X de moyenne µX et de variance σX
– (Y1 , . . . , Ym ) de taille m de la v.a. quantitative Y de moyenne µY et de variance σY2 .
I. On suppose que les données sont les réalisations de deux échantillons gaussiens indépendants,
2 ) pour i = 1, . . . , n
soit Xi i.i.d. de loi N (µX , σX et Yi i.i.d. de loi N (µY , σY2 ) pour i = 1, . . . , m
2 2
où µX , µY et σX , σY sont inconnus,
!
1P σX2
(i) La statistique X n = X i suit une loi normale N µ X ,
n i n
!
1 P σY2
la statistique Y m = Yi suit une loi normale N µY ,
m i m
X n (resp. Y m ) est un estimateur sans biais et convergent de µX (resp. µY )
En supposant l’égalité des variances σX 2 = σ2 = σ2
Y
X n − Y m − (µX − µY )
la statistique r suit une loi normale centrée réduite N (0; 1)
1 1
σ +
n m
(ii) Les statistiques
2 = 1 P
SbX (Xi − X n )2 (estimateur sans biais et convergent de σX 2 ) et
n−1 i
1 P
SbY2 = (Yi − Y m )2 (estimateur sans biais et convergent de σY2 )
m−1 i
sont indépendantes et telles que :
2
(n − 1)SbX (m − 1)SbY2
suit une loi χ2 (n − 1) et suit une loi χ2 (m − 1)
2
σX σY2
SbX2
σX2
donc le rapport suit une loi de Fisher à n − 1 et m − 1 ddl F(n − 1, m − 1)
SbY2
σY2
2 = σ2 = σ2,
(iii) En supposant l’égalité des variances σX Y
− X n )2 + i (Yi − Y m )2 2 + (m − 1) S
(n − 1) SbX b2
P P
i (Xi Y
– la statistique Sb2 = =
n+m−2 n+m−2
(estimateur sans biais et convergent de σ 2 )
(n + m − 2) Sb2
est telle que suit une loi du khi-deux à (n + m − 2) ddl χ2 (n + m − 2)
σ2
– les statistiques X n , Y m et Sb2 sont indépendantes
X n − Y m − (µX − µY )
– la statistique T = r suit une loi de Student St(n + m − 2)
1 1
S
b +
n m
17
2 = σ2
• Tests de l’hypothèse nulle H0 : σX Y
2
SbX
De (ii) on déduit que sous H0 la statistique de test F = suit une loi F(n − 1, m − 1)
SbY2
sb2x
la valeur observée de F sur l’échantillon fobs =
sb2y
2 > σ 2 alternative unilatérale (droite), la p-valeur α
– pour H1 : σX Y obs = PH0 (F ≥ fobs )
RCα = {F ; F ≥ f1−α } où f1−α est le quantile d’ordre 1 − α de la loi F(n − 1, m − 1)
2 < σ 2 alternative unilatérale (gauche), la p-valeur α
– pour H1 : σX Y obs = PH0 (F ≤ fobs )
RCα = {F ; F ≤ fα } où fα est le quantile d’ordre α de la loi F(n − 1, m − 1) :
1 0
fα = 0 où f1−α est le quantile d’ordre 1 − α de la loi F(m − 1, n − 1)
f1−α
2 6= σ 2 alternative bilatérale, la p-valeur α 1
– pour H1 : σX Y obs = 2 × PH0 F ≥ max fobs , fobs
n o n o
RCα = F ; F ≤ fα/2 ∪ F ; F ≥ f1−α/2
où fα/2 est le quantile d’ordre α/2 et f1−α/2 le quantile d’ordre 1 − α/2 de la loi F(n − 1, m − 1)
Règle de décision du test bilatéral au seuil α à partir de l’intervalle de confiance de la différence des
moyennes au niveau 1 − α :
– si la valeur testée de la différence sous H0 , 0 ∈
/ IC1−α (µX − µY ) on rejette l’hypothèse nulle H0
et on valide l’alternative H1 au risque d’erreur maximum α ;
– si 0 ∈ IC1−α (µX − µY ) on conserve l’hypothèse nulle H0 au seuil α et au risque d’erreur de
seconde espèce β.
18
• Tests de l’hypothèse nulle H0 : µX = µY (variances inégales)
Xn − Y m
La statistique de test de Welch T 0 = s suit approximativement une loi St(ν)
2
SbX SbY2
+
n m
où ν sont des ddl non entiers, calculés à partir des tailles des échantillons et des estimations des
variances.
II. On suppose que les tailles des échantillons n et m sont suffisamment grandes pour appliquer le TCL
(n ≥ 30 et m ≥ 30)
!
1P σX2
La statistique X n = i Xi suit approximativement une loi normale N µX ,
n n
!
1 P 2
σY
la statistique Y m = Yi suit approximativement une loi normale N µY ,
m i m
X n (resp. Y m ) est un estimateur sans biais et convergent de µX (resp. µY )
2 = 1 P
Puisque SbX (Xi − X n )2 est un estimateur sans biais, convergent de σX 2
n−1 i
1 P
et SbY2 = (Yi − Y m )2 est un estimateur sans biais, convergent de σY2
m−1 i
X n − Y m − (µX − µY )
la statistique s suit approximativement une loi normale N (0; 1)
SX
b2 Sb2
+ Y
n m
19
Conclusions
Âges des hommes selon l’acceptation du crédit
• À partir de l’échantillon des n = 34 observations des âges des hommes des ménages dont la demande
de crédit a été acceptée, l’âge moyen est estimé à x = 40, 17647 (ans) la variance des âges est estimée
à sb2x = 85, 66488 et leur écart-type à sbx = 9, 255533 (ans) pour la population des hommes des ménages
dont le crédit est accepté ;
et à partir de l’échantillon des m = 16 observations des âges des hommes des ménages dont la demande
de crédit a été refusée, l’âge moyen est estimé à y = 44, 18750 (ans) la variance des âges est estimée à
sb2y = 179, 49583 et leur écart-type à sby = 13, 397606 (ans) pour la population des hommes des ménages
dont le crédit est refusé.
• Les variances des âges des hommes selon si la demande de crédit a été acceptée ou non ne diffèrent
pas significativement, au seuil α = 5% et au risque d’erreur de seconde espèce β, puisque la valeur
85, 66488
observée de la statistique de test de Fisher étant fobs = = 0, 4772528
179, 49583
– la p-valeur du test bilatéral, αobs = 2 × PH0 (F ≤ 0, 4772528) = 0, 07542 où F suit la loi de
Fisher F(15; 33) sous H0 , est supérieure au seuil α = 5% ;
– ou bien, la valeur observée fobs n’appartient pas à la région critique au seuil 5% du test bilatéral :
RC5% =]0; 0, 4422731] ∪ [2, 622601; ∞[ où f0,025 = 0, 4422731 et f0,975 = 2, 622601 sont les
quantiles d’ordre α/2 = 0, 025 et 1 − α/2 = 0, 975 de la loi de Fisher F(15; 33).
• Les moyennes des âges des hommes selon si la demande de crédit a été acceptée ou non ne diffèrent
pas significativement, au seuil α = 5% et au risque d’erreur de seconde espèce β, puisque, les variances
étant supposées égales, la valeur observée de la statistique de test de Student T à n + m − 2 = 48 ddl
40, 17647 − 44, 18750
tobs = √ q = −1, 2338
1 1
114, 9871 34 + 16
– la p-valeur du test bilatéral, αobs = 2 × PH0 (T ≤ −1, 2338) = 0, 2233 est supérieure au seuil
α = 5% ;
– ou bien, la valeur observée tobs n’appartient pas à la région critique au seuil 5% du test bilatéral :
RC5% = {T ; |T | ≥ t0,975 = 2, 011 ' 1, 96} où t0,975 = 2, 011 ' z0,975 = 1, 96 est le quantile
d’ordre 1 − α/2 = 0, 975 de la loi de Student St(48) proche de celui d’une loi N (0; 1) ;
– ou bien, la valeur testée 0 de la différence sous H0 appartient à l’intervalle de confiance au niveau
1 − α = 0, 95 de la différence des moyennes IC95% (µX − µY ) = [−10, 54750; 2, 52544].
Une conclusion identique est obtenue avec le test de Welch qui ne présuppose pas l’égalité des variances
des âges : en effet, la valeur observée de la statistique de test de Welch
40, 17647 − 44, 18750
t0obs = r = −1, 0822 et la p-valeur associée αobs = 0, 2909 ≥ α = 0, 05.
85, 66488 179, 49583
+
34 16
Salaires des femmes selon l’acceptation du crédit
• Les variances des log des salaires des femmes selon si la demande de crédit a été acceptée ou non
diffèrent significativement, au risque maximum α = 5%, puisque la valeur observée de la statistique
0, 30062389
de test de Fisher étant fobs = = 4, 396184
0, 06838292
– la p-valeur du test bilatéral, αobs = 2 × PH0 (F ≥ 4, 396184) = 0, 003668 où F suit la loi de
Fisher F(15; 33) sous H0 , est inférieure au seuil α = 5% ;
– ou bien, la valeur observée fobs n’appartient pas à la région critique au seuil 5% du test bilatéral :
RC5% =]0; 0, 4422731] ∪ [2, 622601; ∞[ où f0,025 = 0, 4422731 et f0,975 = 2, 622601 sont les
quantiles d’ordre α/2 = 0, 025 et 1 − α/2 = 0, 975 de la loi de Fisher F(15; 33).
• La moyenne des log des salaires des femmes dont la demande de crédit a été acceptée est significati-
vement supérieure à celle des femmes dont la demande de crédit a été refusée, au risque maximum
α = 5% et au risque minimum αobs = 0, 0004405, puisque, les variances n’étant pas supposées égales,
20
la valeur observée de la statistique de test de Welch t0obs = 3, 5476 et la p-valeur du test unilatéral,
αobs = PH0 (T 0 ≥ 3, 5476) = 0, 0004405 est inférieure au seuil α = 5%.
Une conclusion identique est obtenue avec le test de Student qui présuppose l’égalité des variances des
log des salaires : en effet, la valeur observée de la statistique de test de Student tobs = 2, 8063 et la
p-valeur associée αobs = 0, 00361 ≤ α = 0, 05.
• Les deux échantillons des log des salaires des femmes et des hommes étant appariés de taille n = 50,
pour les ménages demandeurs de crédit, la moyenne des log des salaires des femmes diffère signifi-
cativement de celle des hommes, au risque maximum α = 5% et au risque minimum αobs ' 0, 0001,
puisque la valeur observée de la statistique du test asymptotique gaussien (car n = 50 ≥ 30) sur la
moyenne µ de la différence D = X − Y étant
√ √
(x − y) n (7, 3094 − 7, 4640) 50 7, 3094 − 7, 4640
zobs = = √ = = −3, 869721
sbd 0, 07980494 0, 0399512
– la p-valeur du test bilatéral, αobs = 2 × PH0 (Z ≤ −3, 869721) = 0, 000109 est inférieure au seuil
α = 5% ;
– ou bien, la valeur observée zobs appartient à la région critique au seuil 5% du test bilatéral :
RC5% = {Z; |Z| ≥ z0,975 = 1, 96} où z0,975 = 1, 96 est le quantile d’ordre 1 − α/2 = 0, 975 de la
loi N (0; 1) ;
– ou bien, la valeur testée µ = 0 de la différence D sous H0 appartient à l’intervalle de confiance au
niveau 1−α = 0, 95 de la différence des log des salaires IC95% (µD ) = [−0, 23290292; −0, 07629708].
21
Exercice 8
Une entreprise fabriquant des produits alimentaires veut élargir sa gamme de barres de céréales en lançant
une nouvelle barre sur le marché. Une pré-enquête est réalisée en faisant tester ce nouveau produit à 70
personnes, chaque personne devant se prononcer, en aveugle, sur sa préférence concernant la nouvelle barre
A et trois autres barres de céréales concurrentes B, C et D. Les résultats sont les suivants :
Barres A B C D
Nombre de préférences 26 14 20 10
(a) Au risque 5%, peut-on déduire au vu des résultats de l’échantillon que les préférences diffèrent ?
(b) Peut-on conclure au seuil 5% que deux fois plus de personnes préfèrent la nouvelle barre à chacune
des autres ?
(c) Peut-on conclure au seuil 5% que moins de 40% des personnes préfèrent la nouvelle barre ?
Manipulations sous
1. Lire les données avec
effectif <- c( 26, 14, 20, 10 )
names(effectif) <- c("A", "B", "C", "D")
effectif
n <- sum(effectif); n
effectif/n
2. Test du khi-deux d’ajustement à une loi théorique uniforme
# par défaut, khi-deux d’adéquation à la loi uniforme
( t_uni <- chisq.test(effectif) )
attributes(t_uni)
t_uni$stat # valeur observée de la statistique du khi-deux
t_uni$par # ddl de la loi du khi-deux
t_uni$p.val # p-valeur selon la loi du khi-deux
t_uni$obs # effectifs observés
t_uni$exp # effectifs attendus sous H0
t_uni$res # différences effectifs observés et attendus
rbind(observé=t_uni$obs, attendu=t_uni$exp, différence=t_uni$res)
cbind(observé=t_uni$obs, attendu=t_uni$exp, différence=t_uni$res)
sum(t_uni$obs); sum(t_uni$exp)
sum(t_uni$res)
qchisq(0.95,t_uni$par) # quantile d’ordre 0.95 d’une loi khi-deux
3. Test du khi-deux d’ajustement à une loi théorique spécifiée
prob0 <- c(2/5,rep(1/5,3)) # loi théorique
prob0 ; sum(prob0)
( t <- chisq.test(effectif, p=prob0) )
rbind(observé=t$obs, attendu=t$exp, différence=t$res)
4. Test du khi-deux sur une proportion
neweff <- c(effectif[1],sum(effectif[-1]))
names(neweff) <- c("A", "B-C-D")
neweff
p0 <- c(0.4,1-0.4)
(t_p <- chisq.test(neweff, p=p0))
rbind(observé=t_p$obs, attendu=t_p$exp)
t_p$p.val/2 # p-valeur du test unilatéral
neweff/n
# Test asymptotique gaussien unilatéral gauche sur une proportion
prop.test(effectif[1],n, p=0.4, correct=F, alternative="less")
22
Éléments théoriques
Les observations sont les réalisations d’un échantillon N = (N1 , . . . , Nk ) de la loi Multinomiale M(n, p)
P
où p = (p1 , . . . , pk ) inconnu (avec j pj = 1) d’espérance np = (np1 , . . . , npk ) :
n!
P (N1 = n1 , . . . , Nk = nk ) = p1 × · · · × pk
n1 ! · · · nk !
chaque Nj suit une loi Binomiale B(n, pj ) d’espérance E(Nj ) = npj de variance var(Nj ) = npj (1 − pj )
et de covariance cov(Nj , N` ) = −npj p` pour tout j 6= `
N1 Nk
p.s.
L’estimateur pb = ,..., est un estimateur sans biais de p tel que pb −→ p
n n n→∞
(d’après la loi forte des grands nombres)
En appliquant le TCL, il s’ensuit que chaque composante Nj suit approximativement une loi normale
N (npj , npj (1 − pj ))
N1 Nk−1 √ b0
L
En appliquant le TCL au vecteur p = b 0 ,..., on obtient que n (p − p0 ) −→ Nk−1 (0, Σ)
n n n→∞
où Σ est la matrice (k − 1, k − 1) de variance covariance du vecteur pb0
k
X (Nj − npj )2 L
et la forme quadratique n t (pb0 − p0 ) Σ−1 (pb0 − p0 ) = −→ χ2 (k − 1)
j=1
npj n→∞
−1 1 1
où Σ−1 est la matrice (k − 1, k − 1) d’élément diagonal σjj = + pour tout j = 1, . . . , k − 1 et
pj pk
−1 1
hors-diagonal σj` = j 6= ` pour tout j, ` = 1, . . . , k − 1
pk
• Test du khi-deux d’adéquation à une loi théorique
La loi théorique étant spécifiée par les proportions : p0 = (p10 , . . . , pk0 ) telles que kj=1 pj0 = 1
P
il s’agit de tester
l’hypothèse nulle H0 : p = p0 ou pj = pj0 ∀j = 1, . . . , k ou adéquation à la loi théorique
contre l’alternative bilatérale H1 : p 6= p0 ou ∃j; pj 6= pj0 ou inadéquation à la loi théorique
k
X (Nj − npj0 )2 approx.
Sous H0 la statistique de test du khi-deux Q2 = ∼ χ2 (k − 1)
j=1
npj0 sous H0
j=1
npj0
nj est l’effectif observé et npj0 = ej l’effectif attendu ("expected") sous H0 de valeur j
– la région critique (ou région de rejet) RCα au seuil α est telle que : PH0 (RCα ) = α
RCα = Q2 ; Q2 ≥ q1−α où q1−α est le quantile d’ordre 1 − α de la loi χ2 (k − 1)
Conclusions
• Les proportions p = (p1 , p2 , p3 , p4 ) de préférences pour les barres de céréales A, B, C et D sont estimées
respectivement à 37.14286%, 20%, 28.57143% et 14.28571%.
• Les proportions p = (p1 , p2 , p3 , p4 ) de préférences pour les barres A, B, C et D diffèrent au risque
maximum α = 5% et au risque minimum αobs = 3.843%, puisque :
– les conditions de validité de l’approximation du khi-deux étant vérifiées :
n = 70 ≥ 30 et npj0 = n/4 = 17.5 > 5 ;
23
– la valeur observée de la statistique de test du khi-deux d’adéquation Q2 à 3 ddl
2 2 2 2
2 = (26 − 17.5) + (14 − 17.5) + (20 − 17.5) + (10 − 17.5) = 8.4 ;
qobs
17.5 17.5 17.5 17.5
– la p-valeur du test (bilatéral) αobs = PH0 (Q2 ≥ 8.4) = 0.03843 est inférieure au seuil α = 5% ;
2 = 8.4 appartient à la région critique au seuil α = 5% :
– ou bien, la valeur observée qobs
RC5% = {Q ; Q ≥ q1−α = q0,95 = 7.815}, où q0,95 est le quantile d’ordre 95% de la loi χ2 (3).
2 2
• La proportion de préférences pour la barre A est deux fois plus élevée que celles pour les autres barres B,
C, ou D au seuil α = 5% et au risque d’erreur de 2de espèce β puisque, les conditions d’approximation
du khi-deux étant vérifiées (n = 70 ≥ 30 et n(1 − pj0 ) > 5 pour tout j = 1, . . . , 4 où p10 = 0.4 et
p20 = p30 = p40 = 0.2 car n × 0.2 = 14 > 5),
2 = 3.8571 n’appartient pas à la région critique au seuil α = 5% :
– la valeur observée qobs
RC5% = {Q2 ; Q2 ≥ 7.815}
– ou bien, la p-valeur du test, αobs = PH0 (Q2 ≥ 3.8571) = 0.2773 est supérieure au seuil α = 5%.
24
Exercice 9
On a relevé le nombre de garçons dans 50 familles de 3 enfants :
2 3 1 1 0 2 2 0 0 1 3 3 1 2 1 1 1 2 1 3 1 1 2 1 0
2 0 3 2 3 2 3 2 2 0 1 0 1 1 2 0 2 3 0 2 2 2 0 2 1
(a) Au risque 1%, le nombre de garçons par famille suit-il une loi uniforme ?
(b) Peut-on admettre au seuil de 5% que le nombre de garçons par famille obéit à une loi binomiale ?
Manipulations sous
1. Lire les données avec
X <- c(2, 3, 1, 1, 0, 2, 2, 0, 0, 1, 3, 3, 1, 2, 1, 1, 1, 2, 1, 3, 1, 1, 2, 1, 0,
2, 0, 3, 2, 3, 2, 3, 2, 2, 0, 1, 0, 1, 1, 2, 0, 2, 3, 0, 2, 2, 2, 0, 2, 1)
n <- sum(length(X)); n
table(X); table(X)/n
2. Test du khi-deux d’ajustement à une loi théorique uniforme
( t_uni <- chisq.test(table(X)) )
rbind(observé=t_uni$obs, attendu=t_uni$exp, différence=t_uni$res)
3. Test du khi-deux d’ajustement à une loi théorique binomiale
bin0 <- dbinom(0:3,3,0.5) # loi binomiale B(3,0.5)
bin0; sum(bin0)
( t_bin <- chisq.test(table(X), p=bin0) )
rbind(observé=t_bin$obs, attendu=t_bin$exp, différence=t_bin$res)
Éléments théoriques
Les observations sont les réalisations d’un échantillon (X1 , . . . , Xn ) où Xi i.i.d. de proportions p1 , . . . , pk
P
associées aux k modalités A1 , . . . , Ak où pj > 0 et j pj = 1.
Pour chaque j = 1, . . . , k on considère la variable Nj = ni=1 1{Xi =Aj } qui représente le nombre de
P
25
Exercice 10
Les nombres de clients entrant dans un supermarché pendant 180 périodes consécutives de 1 minute sont
les suivants :
nombre de clients 0 1 2 3 4 5 6 7 ou plus
nombre de périodes 15 29 44 47 21 16 6 2
Manipulations sous
1. Lire les données avec
effectif <- c(15, 29, 44, 47, 21, 16, 6, 2)
names(effectif) <- c(0:6, "7 et +")
effectif
n <- sum(effectif)
n
effectif/n
2. Test du khi-deux d’ajustement à une loi théorique de Poisson
pois <- dpois(0:6,lambda=3) # loi de Poisson P(3)
sum(pois)
pois0 <- c(pois,1-ppois(6,lambda=3))
sum(pois0)
( t_pois <- chisq.test(effectif, p=pois0) )
rbind(observé=t_pois$obs, attendu=t_pois$exp, différence=t_pois$res)
26
Exercice 11
On reprend les données de l’exercice 7 concernant 50 ménages demandeurs de crédits pour s’intéresser plus
particulièrement aux variables suivantes :
– l’accord du crédit par l’organisme prêteur ;
– la garantie supplémentaire demandée à l’emprunteur ;
– le type d’emploi occupé par l’emprunteur (la personne inscrite en premier dans le formulaire de de-
mande c.-à-d. la personne de référence).
(a) Tester au risque 1% si l’acceptation du crédit est influencée par le type d’emploi occupé par l’emprun-
teur.
(b) Au risque 5%, l’acceptation du crédit dépend-elle de l’existence d’une garantie supplémentaire (quelle
qu’elle soit) demandée à l’emprunteur ?
Manipulations sous
1. Lire les données avec du fichier Salaires_ménages.txt : tableau de données dataframe
# définir le répertoire courant
setwd("nom répertoire courant ")
getwd()
# lire le fichier
données <- read.delim("Salaires_ménages.txt")
données
str(données)
names(données)
summary(données)
attach(données)
table(Acceptation, Emploi)
addmargins(table(Acceptation, Emploi))
2. Tests du khi-deux d’indépendance
( t1 <- chisq.test(Acceptation, Emploi, correct=F) ) # sans correction de continuité
t1$stat # valeur observée de la statistique du khi-deux
addmargins(t1$obs) # effectifs observés et marges
addmargins(t1$exp) # effectifs attendus et marges
prop.table(t1$obs) # proportions jointes
prop.table(margin.table(t1$obs,1)) # proportions marginales en ligne
prop.table(margin.table(t1$obs,2)) # proportions marginales en colonne
addmargins(prop.table(t1$obs,1))[1:2,] # proportions conditionnelles en ligne
addmargins(prop.table(t1$obs,2))[,1:2] # proportions conditionnelles en colonne
t2 <- chisq.test(Acceptation, Garantie.Supp)
addmargins(t2$obs)
t2$exp
# créer une nouvelle variable garantie : oui, non
garantie <- Garantie.Supp
garantie[Garantie.Supp %in% c("caution","hypotheque")] <- "oui"
table(garantie,Acceptation)
( t3 <- chisq.test(Acceptation, garantie, correct=F) )
addmargins(t3$obs)
addmargins(t3$exp)
detach(données)
27
Éléments théoriques
Les observations sont les réalisations d’un échantillon de couples ((X1 , Y1 ) . . . , (Xn , Yn )) où (Xk , Yk )
i.i.d. de proportions (pij , i = 1, . . . , `, j = 1, . . . , c) de présenter la modalité Ai de X et Bj de Y
inconnues, où pij > 0 et `i=1 cj=1 pij = 1.
P P
n
X
Pour chaque (i, j), i = 1, . . . , `, j = 1, . . . , c on considère la variable Nij = 1{(Xk ,Yk )=(Ai ,Bj )} qui
k=1
représente le nombre de couples de variables (Xk , Yk ) qui présentent la modalité Ai de X et Bj de Y ;
Nij
la variable est l’estimateur empirique de la proportion pij
n
L’indépendance des variables X et Y est équivalent à pij = pi pj ∀(i, j), i = 1, . . . , `, j = 1, . . . , c où
Pc
pi = j=1 pij pour i = 1, . . . , ` sont les proportions marginales de X associées aux modalités
(A1 , . . . , A` ) et pj = `i=1 pij pour j = 1, . . . , c les proportions marginales de Y aux modali-
P
Conclusions
• La proportion marginale d’acceptation du crédit est estimée à 68% et celle des emplois en CDI est
estimée également à 68%.
• Les variables X acceptation du crédit et Y type d’emploi occupé par l’emprunteur ne sont pas indé-
pendantes au risque maximum α = 1% et au risque minimum αobs ' 0, 15%, puisque :
– les conditions de validité de l’approximation du khi-deux étant vérifiées :
n = 50 ≥ 30 et eij > 5 ∀(i, j) puisque min(eij ) = 16 × 16/50 = 5, 12 > 5 ;
– la valeur observée de la statistique de test du khi-deux d’indépendance Q2 à 1 ddl
2 2 2 2
2 = (10 − 5, 12) + (6 − 10, 88) + + (6 − 10, 88) + (28 − 23, 12) = 10, 059 ;
qobs
5, 12 10, 88 10, 88 23, 12
2
– la p-valeur du test (bilatéral) αobs = PH0 (Q ≥ 10, 059) = 0, 001516 ≤ α = 1% ;
2 = 10, 059 appartient à la région critique au seuil α = 5% :
– ou bien, la valeur observée qobs
RC5% = {Q ; Q ≥ q1−α = q0,95 = 3, 841}, où q0,95 est le quantile d’ordre 95% de la loi χ2 (1).
2 2
28
• Les variables X acceptation du crédit et Y existence d’une garantie supplémentaire sont indépendantes
au seuil α = 5% et au risque d’erreur de 2de espèce β puisque, les conditions d’approximation du khi-
deux étant vérifiées (n = 50 ≥ 30 et eij > 5 ∀(i, j) puisque min(eij ) = 16 × 16/50 = 5, 12 > 5),
2 = 0, 0060824 n’appartient pas à la région critique au seuil α = 5% :
– la valeur observée qobs
2 2
RC5% = {Q ; Q ≥ 3, 841}
– ou bien, la p-valeur du test, αobs = PH0 (Q2 ≥ 0, 0060824) = 0, 9378 > α = 5%.
Exercice 12
Une statistique relative aux résultats du concours d’entrée à une grande école fait ressortir les répartitions
des candidats et des admis selon la profession des parents.
Profession des parents Nombre de candidats Nombre d’admis
1 Fonctionnaires et assimilés 2244 180
2 Commerce, industrie 988 89
3 Professions libérales 575 48
4 Propriétaires rentiers 423 37
5 Propriétaires agricoles 287 13
6 Artisans, petits commerçants 210 18
7 Banque, assurance 209 17
Total 4936 402
Manipulations sous
1. Lire les données avec
prof <- c("Fonctionnaires et assimilés", "Commerce, industrie", "Professions libérales",
"Propriétaires rentiers", "Propriétaires agricoles",
"Artisans, petits commerçants", "Banque, assurance")
A <- c(180,89,48,37,13,18,17)
P <- c(2244,988,575,423,287,210,209)
sum(A); sum(P); sum(A)/sum(P)
100*A/P
R <- P-A
R
tab <- matrix(c(A,R), ncol=2)
rownames(tab) <- prof
colnames(tab) <- c("admis","non-admis")
tab
2. Test du khi-deux d’indépendance
(k2 <- chisq.test(tab))
addmargins(k2$obs)
addmargins(k2$exp)
29