Vous êtes sur la page 1sur 29

Université Paris Nanterre

Licence L3 MIASHS 2021-2022


Statistique S6 P. Bertail - A. Mollié

TD 3 - Intervalles de confiance et tests d’hypothèses

Exercice 1
On a observé sur 50 lancers d’une pièce, les résultats suivants :
face ; pile ; face ; face ; pile ; face ; pile ; pile ; pile ; face ; pile ; pile ; face ; face ; pile ; pile ; face ; pile ; face ; pile ;
face ; face ; pile ; face ; pile ; pile ; pile ; pile ; face ; face ; face ; pile ; pile ; pile ; face ; pile ; face ; face ; face ; pile ;
pile ; pile ; pile ; pile ; pile ; face ; face ; pile ; pile ; pile
(a) Estimer la proportion de pile par intervalle de confiance au niveau 95%.
(b) Au risque 5%, la pièce est-elle pipée ?
(c) Au risque 5%, la proportion de pile est-elle différente de 60%, de 70% ?
(d) Au risque 1%, la proportion de pile est-elle supérieure à 40%, inférieure à 70% ?

Manipulations sous
1. Lire les données avec
res <- c("face", "pile", "face", "face", "pile", "face", "pile", "pile", "pile",
"face", "pile", "pile", "face", "face", "pile", "pile", "face", "pile",
"face", "pile", "face", "face", "pile", "face", "pile", "pile", "pile",
"pile", "face", "face", "face", "pile", "pile", "pile", "face", "pile",
"face", "face", "face", "pile", "pile", "pile", "pile", "pile", "pile",
"face", "face", "pile", "pile", "pile" )
str(res)
X <- as.numeric(as.factor(res))-1 # "face"=0 et "pile"=1
mean(X); sum(X)
2. Test asymptotique gaussien bilatéral sur une proportion et intervalle de confiance au niveau 95%
prop.test(sum(X),length(X)) # avec correction de continuité de Yates
p0 <- 0.5
min(p0,1-p0)*length(X) # conditions pour test asymptotique
min(mean(X),1-mean(X))*length(X) # conditions pour IC asymptotique
(test_p <- prop.test(sum(X),length(X), correct=F)) # sans correction de continuité
attributes(test_p)
test_p$statistic
sqrt(test_p$statistic)
test_p$p.val # p-valeur bilatérale
1-pchisq(test_p$statistic,1) ; 2*(1-pnorm(sqrt(test_p$statistic)))
p0 <- 0.6
min(p0,1-p0)*length(X) # conditions pour test asymptotique
prop.test(sum(X),length(X), p=p0, correct=F)
p0 <- 0.7
min(p0,1-p0)*length(X) # conditions pour test asymptotique
prop.test(sum(X),length(X), p=p0, correct=F)
3. Test asymptotique gaussien unilatéral droit sur une proportion
p0 <- 0.4
min(p0,1-p0)*length(X) # conditions pour test asymptotique
(test_p <- prop.test(sum(X),length(X), p=p0, correct=F, alternative="greater"))
test_p$p.val # p-valeur unilatérale droite
(1-pchisq(test_p$statistic,1))/2 ; 1-pnorm(sqrt(test_p$statistic))

1
4. Test asymptotique gaussien unilatéral gauche sur une proportion
(test_p <- prop.test(sum(X),length(X), p=0.7, correct=F, alternative="less"))

5. Programmer une fonction : intervalles de confiance asymptotiques gaussiens d’une proportion


# fonction IC asymptotique d’une proportion : IC_prop(freq, n, niv)
IC_prop <- function(freq, n, niv=0.95) {
cond_ic <- min(freq*n,(1-freq)*n)
prec <- qnorm(1-(1-niv)/2)*sqrt(freq*(1-freq)/n)
ic <- freq + c(-prec,prec)
ic.res <- data.frame(freq, n, niv, ic[1],ic[2], cond_ic)
names(ic.res) <- c("prop obs","n", "niv_conf", "ic_inf","ic_sup","cond_ic")
row.names(ic.res) <- c("IC asymptotique")
return(ic.res)
}
IC_prop(mean(X), length(X)) # niveau 95% par défaut
IC_prop(mean(X), length(X), 0.99)

6. Programmer une fonction : tests asymptotiques gaussiens d’une proportion


# fonction test asymptotique d’une proportion : test_prop(freq, p0, n, orient)
test_prop <- function(freq, p0, n, orient=c("bil","inf","sup")) {
orient <- match.arg(orient)
cond <- min(p0*n,(1-p0)*n)
if ((cond < 5) || (n < 30))
warning("ATTENTION : approximation normale incorrecte")
z <- (freq-p0)*sqrt(n)/sqrt(p0*(1-p0))
pv <- switch(orient,
bil = 2*(1-pnorm(abs(z))),
inf = pnorm(z),
sup = 1-pnorm(z)
)
ort <- switch(orient, bil = "bilatérale", inf = "uni gauche",
sup = "uni droite")
test.res <- data.frame(p0,freq,n,z,pv,ort,cond)
names(test.res) <- c("p0","prop obs","n","z obs","p-val","orientation",
"cond_test")
row.names(test.res) <- c("test asymptotique")
return(test.res)
}
test_prop(mean(X), p0=0.5, length(X)) # par défaut, test bilatéral
# valeur critique bilatérale au seuil alpha
alpha <- 0.05
qnorm(1-alpha/2)
test_prop(mean(X), p0=0.6, length(X)) # par défaut, test bilatéral
test_prop(mean(X), p0=0.7, length(X)) # par défaut, test bilatéral
test_prop(mean(X), p0=0.4, length(X), orient="sup") # test unilatéral droit
test_prop(mean(X), p0=0.7, length(X), "inf") # test unilatéral gauche
# valeur critique unilatérale au seuil alpha
alpha <- 0.01
qnorm(1-alpha) # unilatérale droite
qnorm(alpha) # unilatérale gauche

2
Éléments théoriques
On suppose que les données sont les réalisations d’un échantillon (X1 , . . . , Xn ) où Xi i.i.d. selon une
loi de Bernoulli Be(p) d’espérance p pour i = 1, . . . , n où p est inconnu (0 ≤ p ≤ 1).
En appliquant le TCL, il s’ensuit que :
1P p(1 − p)
 
la statistique X n = X i suit approximativement une loi normale N p ,
n i √ n
(X n − p) n
et la statistique Zn = p suit approximativement une loi normale centrée réduite N (0; 1)
p(1 − p)
pour n ≥ 30, n × p > 5 et n × (1 − p) > 5
Une estimation ponctuelle sans biais de la proportion de pile p est donnée par la fréquence observée
de pile x et celle de la proportion de face 1 − p par la fréquence observée de face 1 − x
• Intervalles de confiance asymptotiques d’une proportion
En remplaçant p par X n pour estimer la variance de X n
p.s.
(puisque d’après la loi forte des grands nombres X n −→ p )
  n→∞
on déduit que : P zα/2 ≤ Zn ≤ z1−α/2 ' 1 − α
 s s 
X n (1 − X n ) X n (1 − X n ) 
P X n − z1−α/2 ≤ p ≤ X n + z1−α/2 '1−α
n n
pour zα/2 = −z1−α/2 et z1−α/2 les quantiles d’ordre α/2 et 1 − α/2 de la loi N (0; 1)
d’où l’intervalle de confiance asymptotique de la proportion p au niveau 1 − α (au risque α) :
 s 
X n (1 − X n ) 
IC1−α (p) = X n ∓ z1−α/2
n
la probabilité pour que l’intervalle aléatoire IC1−α (p) contienne la valeur p est d’environ 1 − α ;
sur l’échantillon
 son calculel’intervalle de confiance observé de la proportion p au niveau 1−α :
observé,
x(1 − x) 
ic1−α (p) = x ∓ z1−α/2 lorsque n ≥ 30, n × x > 5 et n × (1 − x) > 5
n

• Tests de l’hypothèse nulle H0 : p = p0



(X n − p0 ) n
Sous H0 la statistique de test Z = p suit approximativement une loi N (0; 1)
p0 (1 − p0 )
lorsque n ≥ 30, n × p0 > 5 et n × (1 − p0 ) > 5

(x − p0 ) n
la valeur observée de Z sur l’échantillon zobs = p
p0 (1 − p0 )
la région critique (ou région de rejet) RCα au seuil α est telle que : PH0 (RCα ) ' α
– pour H1 : p > p0 alternative unilatérale droite,
la p-valeur αobs = PH0 (Z ≥ zobs )
RCα = {Z; Z ≥ z1−α } où z1−α est le quantile d’ordre 1 − α de la loi N (0; 1)
– pour H1 : p < p0 alternative unilatérale gauche,
la p-valeur αobs = PH0 (Z ≤ zobs )
RCα = {Z; Z ≤ zα } où zα = −z1−α est le quantile d’ordre α de la loi N (0; 1)
– pour H1 : p 6= p0 alternative bilatérale,
la p-valeur αobs = 2 × PH0 (Z ≥ |zobs |)
n o
RCα = Z; |Z| ≥ z1−α/2 où z1−α/2 est le quantile d’ordre 1 − α/2 de la loi N (0; 1)

Règle de décision du test au seuil α à partir de la région critique :


– si zobs ∈ RCα on rejette l’hypothèse nulle H0 et on valide l’alternative H1 au risque d’erreur
maximum α ;
/ RCα on conserve l’hypothèse nulle H0 au seuil α et au risque d’erreur de 2de espèce β.
– si zobs ∈

3
Règle de décision du test au seuil α à partir de la p-valeur :
– si αobs ≤ α on rejette l’hypothèse nulle H0 et on valide l’alternative H1 au risque d’erreur
maximum α et au risque minimum αobs ;
– si αobs > α on conserve l’hypothèse nulle H0 au seuil α et au risque d’erreur de seconde espèce β.

Conclusions
• La proportion p de lancers tombant sur pile est estimée à x = 0, 58 ; elle se situe entre 0,4431951 et
0,7168049 avec une confiance de 95% et entre 0,4002079 et 0,7597921 avec une confiance de 99%.
• La pièce n’est pas pipée, au seuil α = 5% et au risque d’erreur de seconde espèce β, puisque :
– les conditions de validité de l’approximation normale sont vérifiées : n = 50 ≥ 30 et np0 =
n(1 − p0 ) = n × 0, 5 = 25 > 5 ;
– la p-valeur du test bilatéral asymptotique gaussien, αobs = 2√ × PH0 (Z ≥ 1, 131371) = 0, 257899
(0, 58 − 0, 5) 50
est supérieure au seuil α = 5% (en effet zobs = = 1, 131371) ;
0, 5
– ou bien, la valeur observée zobs = 1, 131371 n’appartient pas à la région critique bilatérale au
seuil α = 5% : RC5% = {Z; |z| ≥ z1−α/2 = z0,975 = 1, 96}.

• La proportion de pile n’est pas différente de 0,6 au seuil α = 5% et au risque d’erreur de 2de espèce β
puisque, les conditions étant vérifiées (n = 50 ≥ 30 et n(1 − p0 ) = n × 0, 4 = 20 > 5)
la valeur observée zobs = −0, 2886751 n’appartient pas à la région critique bilatérale au seuil α = 5% :
RC5% = {Z; |z| ≥ 1, 96}
ou bien, la p-valeur du test bilatéral, αobs = 2 × PH0 (Z ≥ | − 0, 2886751|) = 0, 77283 est supérieure au
seuil α = 5%.
• La proportion de pile n’est pas différente de 0,7 au seuil α = 5% et au risque d’erreur de 2de espèce β
puisque, les conditions étant vérifiées (n = 50 ≥ 30 et n(1 − p0 ) = n × 0, 3 = 15 > 5)
la valeur observée zobs = −1, 85164 n’appartient pas à RC5% = {Z; |z| ≥ 1, 96}
ou bien, la p-valeur du test bilatéral, αobs = 2 × PH0 (Z ≥ | − 1, 85164|) = 0, 06407751 > α = 5%.
• La proportion de pile est supérieure à 0,4 au risque maximum α = 1% et au risque minimum αobs '
0, 005 puisque, les conditions étant vérifiées (n = 50 ≥ 30 et np0 = n × 0, 4 = 20 > 5)
la valeur observée zobs = 2, 598076 appartient à la région critique unilatérale droite au seuil α = 1% :
RC1% = {Z; Z ≥ z1−α = z0,99 = 2, 325}
ou bien, la p-valeur du test unilatéral droit, αobs = PH0 (Z ≥ 2, 598076) = 0, 004687 ≤ α = 1%.
• La proportion de pile n’est pas inférieure à 0,7 au seuil α = 1% et au risque d’erreur de 2de espèce β
puisque, les conditions étant vérifiées (n = 50 ≥ 30 et n(1 − p0 ) = n × 0, 3 = 15 > 5)
la valeur observée zobs = −1, 85164 n’appartient pas à la région critique unilatérale gauche au seuil
α = 1% : RC1% = {Z; Z ≤ zα = −z0,99 = −2, 325}
ou bien, la p-valeur du test unilatéral gauche, αobs = PH0 (Z ≤ −1, 85164) = 0, 03203875 > α = 1%.

4
Exercice 2
Le pourcentage de grossesses multiples (jumeaux, triplés,...) en France en 1950, c’est-à-dire avant l’intro-
duction des contraceptifs oraux était de 1.1%. En 1991, dans un échantillon de 1000 grossesses de femmes
ayant pris par le passé des contraceptifs oraux, 21 ont été multiples 1 .
(a) Estimer par intervalle de confiance au niveau 99%, la proportion de grossesses multiples en 1991 pour
les femmes ayant pris par le passé des contraceptifs oraux.
(b) La proportion de grossesses multiples observée sur cet échantillon est-elle significativement supérieure
à celle de 1950 ?

Manipulations sous
1. Lire les données avec
n <- 1000
s <- 21
2. IC et test asymptotique avec les fonctions IC_prop et test_prop définies dans l’exercice 1
IC_prop(s/n, n, 0.99)
test_prop(s/n, p0=0.011, n) # unilatéral par défaut
3. IC et test asymptotique avec la commande prop.test
prop.test(s,n, p=0.011, correct=F, conf.level=0.99)
(test <- prop.test(s,n, p=0.011, correct=F, alternative="greater") )
test$statistic
sqrt(test$statistic)

Téléchargement d’un "package"


ä soit en utilisant le menu
* dans le menu Packages de RGui sélectionner Installer le(s) package(s)...

– dans la liste affichée, choisir un CRAN mirror, par exemple France (Lyon1) [https] et valider OK
– dans la liste affichée, choisir le Package à télécharger, par exemple BSDA et valider OK

ä soit en utilisant la commande : install.packages


* dans la fenêtre R Console taper la commande install.packages("BSDA")
pour installer le package BSDA

1. Source : INSEE Accouchements multiples de 1902 à 2018

5
Exercice 3
Un client commande à son fournisseur un lot de thermomètres. Afin de tester la qualité des thermomètres, le
client en choisit 32 au hasard et les plonge dans un liquide à 20 degrés. Il obtient les températures suivantes :

19.8, 19.6, 19.9, 20.1, 20.3, 20.0, 19.5, 20.1, 20.1, 19.9, 19.6, 19.4, 20.0, 20.2, 19.7, 20.4,
20.2, 19.9, 19.7, 20.0, 19.5, 20.0, 20.2, 19.4, 20.1, 20.3, 20.1, 20.4, 19.9, 19.6, 20.3, 20.2

Que peut-on en déduire sur la qualité des thermomètres : est-ce qu’ils donnent la bonne température en
moyenne ; avec quelle précision ?

Manipulations sous
1. Lire les données avec
X <- c( 19.8, 19.6, 19.9, 20.1, 20.3, 20.0, 19.5, 20.1, 20.1, 19.9, 19.6, 19.4,
20.0, 20.2, 19.7, 20.4, 20.2, 19.9, 19.7, 20.0, 19.5, 20.0, 20.2, 19.4,
20.1, 20.3, 20.1, 20.4, 19.9, 19.6, 20.3, 20.2)
X
str(X)
mean(X); var(X)
2. Test asymptotique gaussien bilatéral sur une moyenne et intervalles de confiance
mu0 <- 20
(a) utiliser la commande z.test du package BSDA
BSDA::z.test(X, mu = mu0, sigma.x=sd(X)) # niveau par défaut : 95%
BSDA::z.test(X, mu = mu0, sigma.x=sd(X), conf.level=0.99) # niveau 99%
# précision de l’estimation au risque 5% : demi-longueur de l’IC au niveau 95%
Ztest <- BSDA::z.test(X, mu = mu0, sigma.x=sd(X))
Ztest$conf.int
(Ztest$conf.int[2]-Ztest$conf.int[1])/2
Ztest <- BSDA::z.test(X, mu = mu0, sigma.x=sd(X), conf.level=0.99)
(Ztest$conf.int[2]-Ztest$conf.int[1])/2
(b) programmer une fonction
# fonction test et IC asymptotiques d’une moyenne : test_Z(X, mu0, niv, orient)
test_Z <- function(X, mu0, niv=0.95, orient=c("bil","inf","sup")) {
orient <- match.arg(orient)
if (length(X) < 30)
warning("ATTENTION : approximation normale incorrecte")
z <- (mean(X)-mu0)*sqrt(length(X))/sd(X)
pv <- switch(orient, bil = 2*(1-pnorm(abs(z))), inf = pnorm(z),
sup = 1-pnorm(z) )
prec <- qnorm(1-(1-niv)/2)*sd(X)/sqrt(length(X))
ic <- mean(X)+c(-prec,prec)
ort <- switch(orient, bil = "bilatérale", inf = "uni gauche",
sup = "uni droite")
print("test asymptotique sur une moyenne")
return(list(estimation=c(moyenne=mean(X), e.t.=sd(X)),
test=data.frame(mu_0=mu0, z_obs=z, p_val=pv, orientation=ort),
IC=c(niveau=niv*100, IC_inf=ic[1], IC_sup=ic[2], précision=prec)))
}
test_Z(X, mu0) # par défaut, niveau : 95% et test bilatéral
test_Z(X, mu0, niv=0.99) # niveau 99% et test bilatéral
test_Z(X, mu0, orient="inf") # niveau 95% et test unilatéral gauche
test_Z(X, 19.8, 0.99, "sup") # niveau 99% et test unilatéral droit

6
Éléments théoriques
On suppose que les données sont les réalisations d’un échantillon (X1 , . . . , Xn ) de moyenne µ et de
variance σ 2 inconnues, soit Xi i.i.d. de loi inconnue pour i = 1, . . . , n.

(X n − µ) n
Pour n ≥ 30 la statistique Zn = suit approximativement une loi N (0; 1).
Sbn
• Intervalles de confiance d’une moyenne (variance inconnue)
!
  Sbn Sbn
On déduit que : 1 − α ' P zα/2 ≤ Zn ≤ z1−α/2 = P X n − z1−α/2 √ ≤ µ ≤ X n + z1−α/2 √
n n
pour zα/2 = −z1−α/2 et z1−α/2 les quantiles d’ordre α/2 et 1 − α/2 de la loi N (0; 1)
d’où l’intervalle
" de confiance #(asymptotique) de la moyenne µ au niveau 1 − α (au risque α) :
Sbn
IC1−α (µ) = X n ∓ z1−α/2 √
n
la probabilité pour que l’intervalle aléatoire IC1−α (µ) contienne la valeur µ est d’environ 1 − α ;
sur l’échantillon observé, on calcule l’intervalle de confiance observé de la moyenne µ au niveau 1 − α :
sbx

ic1−α (µ) = x ∓ z1−α/2 √
n
• Tests de l’hypothèse nulle H0 : µ = µ0 (variance inconnue)

(X n − µ0 ) n approx.
Sous H0 la statistique de test Z = ∼ N (0; 1) lorsque n ≥ 30
Sbn sous H0

(x − µ0 ) n
la valeur observée de Z sur l’échantillon zobs =
sbx
la région critique RCα au seuil α est telle que : PH0 (RCα ) ' α
– pour H1 : µ > µ0 alternative unilatérale droite,
la p-valeur αobs = PH0 (Z ≥ zobs )
RCα = {Z; Z ≥ z1−α } où z1−α est le quantile d’ordre 1 − α de la loi N (0; 1)
– pour H1 : µ < µ0 alternative unilatérale gauche,
la p-valeur αobs = PH0 (Z ≤ zobs )
RCα = {Z; Z ≤ zα } où zα = −z1−α est le quantile d’ordre α de la loi N (0; 1)
– pour H1 : µ 6= µ0 alternative bilatérale,
la p-valeur αobs = 2 × PH0 (Z ≥ |zobs |)
n o
RCα = Z; |Z| ≥ z1−α/2 où z1−α/2 est le quantile d’ordre 1 − α/2 de la loi N (0; 1)

Conclusions
• La moyenne des températures mesurées par les thermomètres est estimée à x = 19, 95 (degrés) ; elle se
situe entre 19,84813 et 20,05187 (degrés), c’est-à-dire 19, 95 ± 0, 1018731 avec une confiance de 95%
et entre 19,81612 20,08388 (degrés) soit 19, 95 ± 0, 133884 avec une confiance de 99% ;
la variance σ 2 des températures mesurées par les thermomètres est estimée à sb2x = 0, 08645161 et
l’écart-type à sbx = 0, 2940266 degré.
• La température moyenne mesurée par les thermomètres n’est pas différente de 20 degrés, au seuil
α = 5% et au risque d’erreur de seconde espèce β, puisque :
– la p-valeur du test bilatéral, αobs =√2 × PH0 (Z ≥ 0, 96196) = 0, 33607 est supérieure au seuil
(19, 95 − 20) 32
α = 5% en effet zobs = = −0, 9619632 ;
0, 2940266
– ou bien, la valeur testée µ0 = 20 appartient à l’intervalle de confiance au niveau 95% (au risque
5%) de la moyenne µ : IC95% (µ) = [19, 84813; 20, 05187].

7
Exercice 4
Les données suivantes représentent les charges maximales (en tonnes) supportées par 20 câbles fabriqués
dans une usine :
10,1 12,2 9,3 12,4 13,7 10,8 11,6 10,1 11,2 11,3
12,2 12,6 11,5 9,2 14,2 11,1 13,3 11,8 7,1 10,5

La charge maximale est supposée suivre une loi normale.

(a) Déterminer un intervalle de confiance au niveau 95% pour la charge maximale moyenne supportée par
les câbles fabriqués par l’usine.
(b) La charge maximale moyenne supportée par les câbles fabriqués par l’usine est-elle différente de 11
tonnes, au risque 5% ; au risque 10% ?
(c) Au risque 5%, la charge maximale moyenne supportée par les câbles est-elle supérieure à 10 tonnes ?
(d) Au risque 1%, la charge maximale moyenne supportée par les câbles est-elle inférieure à 12 tonnes ?
(e) Déterminer un intervalle de confiance au niveau 95% pour la variance de la charge maximale supportée
par les câbles fabriqués par l’usine ; puis au niveau 99%.

Manipulations sous
1. Lire les données avec
X <- c( 10.1, 12.2, 9.3, 12.4, 13.7, 10.8, 11.6, 10.1, 11.2, 11.3,
12.2, 12.6, 11.5, 9.2, 14.2, 11.1, 13.3, 11.8, 7.1, 10.5 )
X
str(X)
mean(X); var(X)
2. Test de Student bilatéral sur une moyenne et intervalle de confiance au niveau 95%
t.test(X, mu=11)
# IC au niveau 90%
t.test(X, mu=11, conf.level = 0.9)
3. Test de Student unilatéral droit sur une moyenne
t.test(X, mu=10, alternative="greater")
4. Test de Student unilatéral gauche
t.test(X, mu=12, alternative="less")
5. Intervalle de confiance de la variance
# fonction IC d’une variance (khi-deux) : IC_var(x, niv)
IC_var <- function(x, niv=0.95) { (length(x)-1)*var(x)/
c(qchisq(1-(1 - niv)/2, length(x)-1), qchisq((1 - niv)/2, length(x)-1)) }
IC_var(X) # par défaut, niv=0.95
IC_var(X, niv=0.99)

Éléments théoriques
Puisque la variable X suit une loi normale, on suppose que les données sont les réalisations d’un
échantillon gaussien (X1 , . . . , Xn ) de moyenne µ et de variance σ 2 , soit Xi i.i.d. de loi N (µ, σ 2 ) pour
i = 1, . . . , n où µ et σ 2 sont inconnus. Il s’ensuit que :
!
1P σ2
(i) la statistique X n = i Xi suit une loi normale N µ,
n n
X n est un estimateur sans biais et convergent de µ

(X n − µ) n
et la statistique suit une loi normale centrée réduite N (0; 1)
σ

8
(ii) les statistiques
1P
Sn2 = (Xi − X n )2 (estimateur asymptotiquement sans biais et convergent de σ 2 )
n i
1 P n
et Sbn2 = (Xi − X n )2 = S 2 (estimateur sans biais et convergent de σ 2 )
n−1 i n−1 n
nSn2 (n − 1)Sbn2
sont telles que = suit une loi du khi-deux à (n − 1) ddl χ2 (n − 1)
σ2 σ2
(iii) les statistiques X n et Sbn2 (ou Sn2 ) sont indépendantes

(X n − µ) n
(iv) la statistique Tn = suit une loi de Student à (n − 1) ddl St(n − 1)
Sbn
• Intervalles de confiance d’une moyenne (variance inconnue)
!
  Sbn Sbn
De (iv) on déduit que : P tα/2 ≤ Tn ≤ t1−α/2 = 1−α = P X n − t1−α/2 √ ≤ µ ≤ X n + t1−α/2 √
n n
pour tα/2 = −t1−α/2 et t1−α/2 les quantiles d’ordre α/2 et 1 − α/2 de la loi St(n − 1)
" #
Sbn
d’où l’intervalle de confiance de la moyenne µ au niveau 1−α (au risque α) : IC1−α (µ) = X n ∓ t1−α/2 √
n
la probabilité pour que l’intervalle aléatoire IC1−α (µ) contienne la valeur µ est de 1 − α ;
sur l’échantillon observé, on calcule l’intervalle de confiance observé de la moyenne µ au niveau 1 − α :
sbx

ic1−α (µ) = x ∓ t1−α/2 √
n
• Intervalles de confiance d’une variance (moyenne inconnue)
! !
(n − 1)Sb2 (n − 1)Sb2 (n − 1) b2
S
n n n
De (ii) on déduit que : P x2α/2 ≤ ≤ x21−α/2 = 1 − α = P ≤ σ2 ≤
σ2 x21−α/2 x2α/2
pour x2α/2 et x21−α/2 les quantiles d’ordre α/2 et 1 − α/2 de la loi χ2 (n − 1)
d’où l’intervalle de confiance de la variance σ 2 au niveau 1 − α (au risque α) :
" # " #
2 (n − 1)Sbn2 (n − 1)Sbn2 nSn2 nSn2
IC1−α (σ ) = ; = 2 ;
x21−α/2 x2α/2 x1−α/2 x2α/2
sur l’échantillon
" observé, on calcule#l’intervalle
" de confiance
# observé de la variance σ 2 au niveau 1 − α :
(n − 1)sb2x (n − 1)sb2x ns2 ns2
ic1−α (σ 2 ) = 2 ; 2 = 2 x ; 2x
x1−α/2 xα/2 x1−α/2 xα/2

• Tests de l’hypothèse nulle H0 : µ = µ0 (variance inconnue)



(X n − µ0 ) n
De (iv) on déduit que sous H0 la statistique de test T = suit une loi St(n − 1)
√ Sbn
(x − µ0 ) n
la valeur observée de T sur l’échantillon tobs =
sbx
– pour H1 : µ > µ0 alternative unilatérale droite, la p-valeur αobs = PH0 (T ≥ tobs )
– pour H1 : µ < µ0 alternative unilatérale gauche, la p-valeur αobs = PH0 (T ≤ tobs )
– pour H1 : µ 6= µ0 alternative bilatérale, la p-valeur αobs = 2 × PH0 (T ≥ |tobs |)
Règle de décision du test au seuil α à partir de la p-valeur :
– si αobs ≤ α on rejette l’hypothèse nulle H0 et on valide l’alternative H1 au risque d’erreur
maximum α et au risque minimum αobs ;
– si αobs > α on conserve l’hypothèse nulle H0 au seuil α et au risque d’erreur de seconde espèce β.

Règle de décision du test bilatéral au seuil α à partir de l’intervalle de confiance au niveau 1 − α :


– si µ0 ∈
/ IC1−α (µ) on rejette l’hypothèse nulle H0 et on valide l’alternative H1 au risque d’erreur
maximum α ;
– si µ0 ∈ IC1−α (µ) on conserve l’hypothèse nulle H0 au seuil α et au risque d’erreur de seconde
espèce β.

9
Conclusions
• La moyenne µ des charges maximales supportées par les câbles fabriqués par l’usine est estimée à
x = 11, 31 (tonnes) ; elle se situe entre 10,52879 et 12,09121 (tonnes) avec une confiance de 95% et
entre 10,66461 et 11,95539 (tonnes) avec une confiance de 90% ;
la variance σ 2 des charges maximales supportées par les câbles fabriqués par l’usine est estimée à
sb2x = 2, 786211 ; elle se situe entre 1,611393 et 5,943738 avec une confiance de 95% et entre 1,372081
et 7,734983 avec une confiance de 99%.
• La charge maximale moyenne supportée par les câbles fabriqués par l’usine n’est pas différente de 11
tonnes, au seuil α = 5% et au risque d’erreur de seconde espèce β, puisque :
– la p-valeur du test bilatéral de Student à n − 1 = 19 ddl, αobs√= 2 × PH0 (T ≥ 0, 83056) = 0, 4165
(11, 31 − 11) 20
est supérieure au seuil α = 5% (en effet tobs = = 0, 83056) ;
1, 669195
– ou bien, la valeur testée µ0 = 11 appartient à l’intervalle de confiance au niveau 95% (au risque
5%) de la moyenne µ : IC95% (µ) = [10, 52879; 12, 09121].
Pour les mêmes raisons, la conclusion reste la même au seuil 10% : IC90% (µ) = [10, 66461; 11, 95539].
• La charge maximale moyenne supportée par les câbles fabriqués par l’usine est supérieure à 10 tonnes,
au risque maximum α = 5% et au risque minimum αobs ' 0, 0012, puisque la p-valeur du test unilatéral
droit de Student à n − 1 = 19 ddl, αobs = PH0 (T ≥ 3, 5098) = 0, 001171 est inférieure au seuil α = 5%.
• La charge maximale moyenne supportée par les câbles fabriqués par l’usine n’est pas inférieure à 12
tonnes, au seuil α = 1% et au risque d’erreur de seconde espèce β, puisque la p-valeur du test unilatéral
gauche de Student à n − 1 = 19 ddl, αobs = PH0 (T ≤ −1, 8487) = 0, 04007 est supérieure au seuil
α = 1%.

10
Exercice 5
On a relevé la consommation en carburant (en litres/100 km) xi de 29 berlines. Les données sont résumées
P P 2
par : n = 29 xi = 117, 28 xi = 491, 92.
On suppose que les données sont les réalisations d’un échantillon gaussien (X1 , . . . , Xn ) de loi N (µ, σ 2 ).

(a) Déterminer un intervalle de confiance à 95% pour la consommation moyenne µ.


(b) Peut-on, au risque α = 1%, accepter l’hypothèse que la consommation moyenne est supérieure à 3, 5
litres ?
(c) Peut-on, au risque α = 10%, accepter l’hypothèse que la consommation moyenne est différente de 4
litres ?
(d) Peut-on, au risque α = 10%, accepter l’hypothèse que la consommation moyenne est inférieure à 4, 25
litres ?
(e) Déterminer un intervalle de confiance à 95% pour la variance σ 2 .

Manipulations sous
1. Lire les données avec
n <- 29
somX <- 117.28
somX2 <- 491.92
2. Estimations ponctuelles
# fonction estimation ponctuelle : estimation(som, som2, n)
estimation <- function(som, som2, n) {
moy <- somX/n
var <- (somX2-n*moy^2)/(n-1)
sd <- sqrt(var)
estim <- c(moy,var,sd)
names(estim) <- c("moyenne","variance","écart-type")
return(estim)
}
estimation(somX,somX2,n)
est <- estimation(somX,somX2,n)
est
est[1]; est["moyenne"]; est["écart-type"]
3. Intervalles de confiance d’une moyenne (loi de Student)
# fonction IC d’une moyenne (Student) : IC_Student(moy, sd, n, niv)
IC_Student <- function(moy, sd, n, niv=0.95) {
prec <- qt(1-(1-niv)/2,n-1)*sd/sqrt(n)
ic.res <- c(niv*100, moy + c(-prec,prec), moy, prec)
names(ic.res) <- c("niveau %","IC inf","IC sup","moyenne","précision")
return(ic.res)
}
IC <- IC_Student(est["moyenne"], est["écart-type"], n)
IC # par défaut, niv=0.95
IC_Student(est["moyenne"], est["écart-type"], n, niv=0.99)
4. Tests de Student sur une moyenne
# fonction test de Student d’une moyenne : test_Student(moy, mu0, sd, n, orient)
test_Student <- function(moy, mu0, sd, n, orient=c("bil","inf","sup")) {
orient <- match.arg(orient)
t <- (moy-mu0)*sqrt(n)/sd
pv <- switch(orient,

11
bil = 2*(1-pt(abs(t),n-1)),
inf = pt(t,n-1),
sup = 1-pt(t,n-1)
)
ort <- switch(orient, bil = "bilatérale", inf = "uni gauche",
sup = "uni droite")
test.res <- data.frame(mu0, moy, t, pv, n-1, ort)
names(test.res) <- c("mu0","moy obs","t obs","p-val","ddl","orientation")
row.names(test.res) <- c("test Student")
return(test.res)
}
test_Student(est["moyenne"], mu0=3.5, est["écart-type"], n, "sup")
# valeur critique unilatérale droite au seuil alpha
alpha <- 0.01
qt(1-alpha,n-1)
test_Student(est["moyenne"], mu0=4, est["écart-type"], n)
# valeurs critiques bilatérales au seuil alpha
alpha <- 0.1
qt(alpha/2,n-1); qt(1-alpha/2,n-1)
test_Student(est["moyenne"], mu0=4.25, est["écart-type"], n, "inf")
# valeur critique unilatérale gauche au seuil alpha
alpha <- 0.1
qt(alpha,n-1)
5. Intervalles de confiance d’une variance
# fonction IC d’une variance (khi-deux), à partir de la variance observée sans biais :
# IC_var.var(var, n, niv)
IC_var.var <- function(var, n, niv=0.95) {
ic <- (n-1)*var/c(qchisq(1-(1-niv)/2,n-1),qchisq((1-niv)/2,n-1))
ic.res <- c(niv*100, ic, var)
names(ic.res) <- c("niveau %","IC inf","IC sup","variance")
return(ic.res)
}
IC_var.var(est["variance"], n) # par défaut, niv=0.95
IC_var.var(est["variance"], n, niv=0.9)

Éléments théoriques
• Tests de l’hypothèse nulle H0 : µ = µ0 (variance inconnue)

(X n − µ0 ) n
Puisque l’échantillon est gaussien, sous H0 la statistique de test T = ∼ St(n − 1)
√ Sbn sous H0
(x − µ0 ) n
la valeur observée de T sur l’échantillon tobs =
sbx
– pour H1 : µ > µ0 alternative unilatérale droite, la région critique au seuil α : RCα = {T ; T ≥ t1−α }
où t1−α est le quantile d’ordre 1 − α de la loi St(n − 1)
– pour H1 : µ < µ0 alternative unilatérale gauche, la région critique au seuil α : RCα = {T ; T ≤ tα }
où tα = −t1−α est le quantile d’ordre α de la loi St(n − 1)
n o
– pour H1 : µ 6= µ0 alternative bilatérale, la région critique au seuil α : RCα = T ; |T | ≥ t1−α/2
où t1−α/2 est le quantile d’ordre 1 − α/2 de la loi St(n − 1)
Règle de décision du test au seuil α à partir de la région critique ou région de rejet :
– si tobs ∈ RCα on rejette l’hypothèse nulle H0 et on valide l’alternative H1 au risque d’erreur
maximum α ;
/ RCα on conserve l’hypothèse nulle H0 au seuil α et au risque d’erreur de 2de espèce β.
– si tobs ∈

12
Conclusions
• La consommation moyenne de carburant µ est estimée à x = 4, 0441379 (l/100 km) ; elle se situe entre
3,7423621 et 4,3459137 (l/100 km) soit 4, 0441379 ± 0, 3017758 avec une confiance de 95%, et entre
3,6370481 et 4,4512278 (l/100 km) avec une confiance de 99% ;
la variance σ 2 des consommations de carburant est estimée à sb2x = 0, 6294108 ; elle se situe entre
0,3963830 et 1,1512715 avec une confiance de 95% et entre 0,4263358 et 1,0410937 avec une confiance
de 90% ; l’écart-type est estimé à sbx = 0, 7933542 (l/100 km).
• La consommation moyenne de carburant est supérieure à 3,5 litres, au risque maximum α = 1%,
puisque :

(4, 0441379 − 3, 5) 29
– la valeur observée tobs = = 3, 693524
0, 7933542
appartient à RC0,01 = {T ; T ≥ t0,99 = 2, 46714} ;
– ou bien, la p-valeur du test unilatéral droit de Student à n − 1 = 28 ddl,
αobs = PH0 (T ≥ 3, 693524) = 0, 0004748096 est inférieure au seuil α = 1%.

• La consommation moyenne de carburant n’est pas différente de 4 litres, au seuil α = 10% et au risque
d’erreur de seconde espèce β, puisque :

(4, 0441379 − 4) 29
– la valeur observée tobs = = 0, 2996014
0, 7933542
appartient à RC0,1 = {T ; |T | ≥ t0,95 = 1, 701}
où t0,95 = 1, 701 est le quantile d’ordre 1 − α/2 = 0, 95 de la loi de Student à n − 1 = 28 ddl ;
– ou bien, la p-valeur du test bilatéral de Student à n − 1 = 28 ddl,
αobs = 2 × PH0 (T ≥ 0, 2996014) = 0, 766694 est supérieure au seuil α = 10% ;
– ou bien, la valeur testée µ0 = 4 appartient à l’intervalle de confiance au niveau 90% (au risque
10%) de la moyenne µ : IC90% (µ) = [3, 7935236; 4, 2947522].

• La consommation moyenne de carburant est inférieure à 4,25 litres, au risque maximum α = 10%,
puisque :

(4, 0441379 − 4, 25) 29
– la valeur observée tobs = = −1, 39736
0, 7933542
appartient à RC0,1 = {T ; T ≥ t0,1 = −t0,9 = −1, 313}
où t0,1 = −1, 313 est le quantile d’ordre α = 0, 1 de la loi de Student à n − 1 = 28 ddl ;
– ou bien, la p-valeur du test unilatéral gauche de Student à n − 1 = 28 ddl,
αobs = PH0 (T ≤ −1, 39736) = 0, 08664043 est inférieure au seuil α = 10%.

13
Exercice 6
Afin d’étudier l’effet d’un nouveau médicament en vue de réduire la tension artérielle, on a mesuré la tension
(en mm de Hg) sur 12 patients avant et après traitement. Les valeurs suivantes ont été obtenues :

Avant 200 174 198 170 179 182 193 209 185 155 169 210
Après 191 170 177 167 159 151 176 193 159 156 146 197

(a) Peut-on conclure au risque 1%, que ce médicament réduit la tension artérielle ?
On supposera la différence entre les tensions avant et après traitement distribuée selon une loi normale.
(b) Le médicament réduit-il la tension artérielle de plus de 10 mm de Hg ?

Manipulations sous
1. Lire les données avec
Avant <- c(200, 174, 198, 170, 179, 182, 193, 209, 185, 155, 169, 210)
Après <- c(191, 170, 177, 167, 159, 151, 176, 193, 159, 156, 146, 197)
2. Définir la variable différence D = Avant − Après
D <- Avant-Après
length(D); mean(D); var(D); sd(D)
3. Comparaison de la moyenne de D à 0 : test de Student
mu0 <- 0
t.test(D, mu = mu0, alternative="greater")
t.test(Avant,Après, paired = TRUE, alternative="greater")
4. Comparaison de la moyenne de D à 10 : test de Student
mu0 <- 10
t.test(D, mu = mu0, alternative="greater")
t.test(Avant,Après, mu = mu0, paired = TRUE, alternative="greater")

Éléments théoriques
Les données sont les réalisations de deux échantillons appariés de même taille d’un même caractère
quantitatif :
2 inconnues ;
– (X1 , . . . , Xn ) de la v.a. quantitative X de moyenne µX et de variance σX
– (Y1 , . . . , Yn ) de la v.a. quantitative Y de moyenne µY et de variance σY2 inconnues.
On considère la variable D = X − Y : les différences observées sont les réalisations d’un échantillon
(D1 , . . . , Dn ) supposé gaussien, d’où Di i.i.d. de loi N (µ, σ 2 ) pour i = 1, . . . , n avec µ et σ 2 inconnus.
Comparer les moyennes µX et µY revient à comparer la moyenne µ de la différence D à µ0 , en général
µ0 = 0.

Conclusions
• La différence des tensions artérielles moyenne µ est estimée par d = x − y = 15, 16667 (mm de Hg) ;
la variance σ 2 des différences des tensions artérielles est estimée à sb2d = 97, 06061 et l’écart-type est
estimé à sbd = 9, 8519342 (mm de Hg).
• La moyenne de la différence des tensions artérielles est supérieure à 0 (mmHg), au risque maximum
α = 1%, puisque la p-valeur du test unilatéral droit de Student à n − 1 = 11 ddl,
αobs = PH0 (T ≥ 5, 3328) = 0, 00012 est inférieure au seuil α = 1% :
le nouveau médicament réduit donc significativement la tension artérielle, au risque maximum α = 1%
et au risque minimum αobs = 0, 012%.
• Le nouveau médicament réduit significativement la tension artérielle de plus de 10 (mmHg) au risque
maximum α = 5% et au risque minimum αobs = 4, 829% (αobs = PH0 (T ≥ 1, 8167) = 0, 04829).

14
Exercice 7
On dispose des données de demandeurs de crédits relevées sur 50 ménages, composés d’un homme, d’une
femme et éventuellement des personnes à charge (les enfants principalement). Les variables sont les suivantes :
– le logarithme (népérien) du salaire mensuel (en euros) de l’homme ;
– le logarithme (népérien) du salaire mensuel (en euros) de la femme ;
– le logarithme (népérien) du revenu mensuel (en euros) par tête : le revenu par tête correspond au
revenu du ménage (salaire homme+salaire femme) divisé par le nombre de personnes ;
– l’âge de l’homme (en années) ;
– l’accord du crédit par l’organisme prêteur ;
– la garantie supplémentaire demandée à l’emprunteur ;
– le type d’emploi occupé par l’emprunteur (la personne inscrite en premier dans le formulaire de de-
mande c.-à-d. la personne de référence).

A. On se demande si l’accord de crédit est influencé par l’âge de l’homme du ménage.


On suppose que les observations des âges selon si l’accord a été accepté ou refusé sont les réalisations
de deux échantillons indépendants gaussiens :
2 et (Y , ..., Y ) de loi N µ , σ 2
 
(X1 , ..., Xn ) de loi N µX , σX 1 m Y Y

i) Préciser la taille des échantillons et les estimations ponctuelles des paramètres.


ii) Tester au risque α = 5%, l’égalité des variances des âges des hommes selon si la demande de
crédit a été acceptée ou non.
iii) Au risque α = 5%, l’âge moyen des hommes dont la demande de crédit a été acceptée diffère t-il
de celui des hommes dont le crédit a été refusé ?
B. Un expert financier affirme que l’accord des banques est subordonné au salaire de la femme dans le
ménage. Tester cette hypothèse (préciser les conditions préalables, et les vérifier).

C. Comparer les salaires moyens des hommes et des femmes des ménages demandeurs de crédit.

Manipulations sous
1. Lire les données avec du fichier Salaires_ménages.txt : tableau de données dataframe
# définir le répertoire courant
setwd("nom répertoire courant ")
getwd()
# lire le fichier
données <- read.delim("Salaires_ménages.txt")
données
str(données)
names(données)
summary(données)
attach(données)
2. Estimations ponctuelles selon l’acceptation du crédit
# âge des hommes selon si le crédit a été accepté ou non
tapply(Age,Acceptation, length)
tapply(Age,Acceptation, mean)
tapply(Age,Acceptation, var)
tapply(Age,Acceptation, sd)
3. Test de Fisher de comparaison de deux variances
var.test(Age ~ Acceptation)
# autre formulation
X <- Age[Acceptation=="oui"]

15
Y <- Age[Acceptation=="non"]
var.test(X,Y)
# RC au seuil alp du test bilatéral
alp <- 0.05
qf(alp/2,length(X)-1,length(Y)-1) # quantile d’ordre alp/2 loi de Fisher
qf(1-alp/2,length(X)-1,length(Y)-1) # quantile d’ordre 1-alp/2 loi de Fisher
4. Test de Student de comparaison de deux moyennes
t.test(Age ~ Acceptation) # par défaut, variances inégales : test de Welch
t.test(Age ~ Acceptation, var.equal=T)
t.test(X,Y, var.equal=T) # autre formulation
( t_Age <- t.test(X,Y, var.equal=T) )
attributes(t_Age)
t_Age$statistic # valeur observée de la statistique T de Student
t_Age$par # ddl de la loi de Student
t_Age$p.value # p-valeur bilatérale selon la loi de Student
t_Age$stderr # dénominateur de la statistique T de Student
s2 <- ((length(X)-1)*var(X)+(length(Y)-1)*var(Y))/(length(X)+length(Y)-2)
s2 # estimation de la variance commune
5. Étude du salaire des femmes
# salaire des femmes selon si le crédit a été accepté ou non
tapply(Sal.Femme,Acceptation, length)
tapply(Sal.Femme,Acceptation, mean)
tapply(Sal.Femme,Acceptation, var)
tapply(Sal.Femme,Acceptation, sd)
# normalité des variables
X <- Sal.Femme[Acceptation=="oui"]
Y <- Sal.Femme[Acceptation=="non"]
par(mfrow=c(2,1))
bornes <- seq(6,9,0.2)
hist(X, freq=F, breaks=bornes)
curve(dnorm(x,mean(X),sd(X)), col=’red’, lwd=2, add=T)
hist(Y, freq=F, breaks=bornes)
curve(dnorm(x,mean(Y),sd(Y)), col=’red’, lwd=2, add=T)
# égalité des variances
var.test(Sal.Femme ~ Acceptation)
var.test(X,Y)
# comparaison des moyennes
t.test(Sal.Femme ~ Acceptation, alternative="less")
t.test(Sal.Femme ~ Acceptation, alternative="less", var.equal=T)
t.test(X,Y, alternative="greater")
6. Test asymptotique gaussien de comparaison de deux moyennes : échantillons indépendants
mean(Sal.Femme); mean(Sal.Homme)
( t_Sal <- t.test(Sal.Femme, Sal.Homme) )
attributes(t.Sal)
t_Sal$statistic # valeur observée de la statistique Z
t_Sal$stderr # dénominateur de zobs : erreur-type de la différence
t_Sal$p.value # p-valeur bilatérale selon la loi de Student
2*pnorm(t_Sal$stat) # p-valeur bilatérale selon la loi N(0;1)
pnorm(t_Sal$stat) # p-valeur unilatérale selon la loi N(0;1)
# commande z.test du package BSDA
BSDA::z.test(Sal.Femme, sigma.x=sd(Sal.Femme), Sal.Homme, sigma.y=sd(Sal.Homme))
BSDA::z.test(Sal.Femme, sigma.x=sd(Sal.Femme), Sal.Homme, sigma.y=sd(Sal.Homme),
alternative="less")

16
7. Test asymptotique gaussien de comparaison de deux moyennes : échantillons appariés
( t_ap <- t.test(Sal.Femme, Sal.Homme, paired=T) )
t_ap$statistic # valeur observée de la statistique Z
t_ap$stderr # dénominateur de zobs : erreur-type de la différence
2*pnorm(t_ap$stat) # p-valeur bilatérale selon la loi N(0;1)
sd(Sal.Femme- Sal.Homme)/sqrt(length(Sal.Femme)) # erreur-type de la différence
# commande z.test du package BSDA
BSDA::z.test(Sal.Femme- Sal.Homme, sigma.x=sd(Sal.Femme- Sal.Homme))
detach(données)

Éléments théoriques
Les données sont les réalisations de deux échantillons indépendants d’un même caractère quantitatif :
2 ;
– (X1 , . . . , Xn ) de taille n de la v.a. quantitative X de moyenne µX et de variance σX
– (Y1 , . . . , Ym ) de taille m de la v.a. quantitative Y de moyenne µY et de variance σY2 .

I. On suppose que les données sont les réalisations de deux échantillons gaussiens indépendants,
2 ) pour i = 1, . . . , n
soit Xi i.i.d. de loi N (µX , σX et Yi i.i.d. de loi N (µY , σY2 ) pour i = 1, . . . , m
2 2
où µX , µY et σX , σY sont inconnus,
!
1P σX2
(i) La statistique X n = X i suit une loi normale N µ X ,
n i n
!
1 P σY2
la statistique Y m = Yi suit une loi normale N µY ,
m i m
X n (resp. Y m ) est un estimateur sans biais et convergent de µX (resp. µY )
En supposant l’égalité des variances σX 2 = σ2 = σ2
Y
X n − Y m − (µX − µY )
la statistique r suit une loi normale centrée réduite N (0; 1)
1 1
σ +
n m
(ii) Les statistiques
2 = 1 P
SbX (Xi − X n )2 (estimateur sans biais et convergent de σX 2 ) et
n−1 i
1 P
SbY2 = (Yi − Y m )2 (estimateur sans biais et convergent de σY2 )
m−1 i
sont indépendantes et telles que :
2
(n − 1)SbX (m − 1)SbY2
suit une loi χ2 (n − 1) et suit une loi χ2 (m − 1)
2
σX σY2
SbX2

σX2
donc le rapport suit une loi de Fisher à n − 1 et m − 1 ddl F(n − 1, m − 1)
SbY2
σY2
2 = σ2 = σ2,
(iii) En supposant l’égalité des variances σX Y

− X n )2 + i (Yi − Y m )2 2 + (m − 1) S
(n − 1) SbX b2
P P
i (Xi Y
– la statistique Sb2 = =
n+m−2 n+m−2
(estimateur sans biais et convergent de σ 2 )
(n + m − 2) Sb2
est telle que suit une loi du khi-deux à (n + m − 2) ddl χ2 (n + m − 2)
σ2
– les statistiques X n , Y m et Sb2 sont indépendantes
X n − Y m − (µX − µY )
– la statistique T = r suit une loi de Student St(n + m − 2)
1 1
S
b +
n m
17
2 = σ2
• Tests de l’hypothèse nulle H0 : σX Y
2
SbX
De (ii) on déduit que sous H0 la statistique de test F = suit une loi F(n − 1, m − 1)
SbY2
sb2x
la valeur observée de F sur l’échantillon fobs =
sb2y
2 > σ 2 alternative unilatérale (droite), la p-valeur α
– pour H1 : σX Y obs = PH0 (F ≥ fobs )
RCα = {F ; F ≥ f1−α } où f1−α est le quantile d’ordre 1 − α de la loi F(n − 1, m − 1)
2 < σ 2 alternative unilatérale (gauche), la p-valeur α
– pour H1 : σX Y obs = PH0 (F ≤ fobs )
RCα = {F ; F ≤ fα } où fα est le quantile d’ordre α de la loi F(n − 1, m − 1) :
1 0
fα = 0 où f1−α est le quantile d’ordre 1 − α de la loi F(m − 1, n − 1)
f1−α
  
2 6= σ 2 alternative bilatérale, la p-valeur α 1
– pour H1 : σX Y obs = 2 × PH0 F ≥ max fobs , fobs
n o n o
RCα = F ; F ≤ fα/2 ∪ F ; F ≥ f1−α/2
où fα/2 est le quantile d’ordre α/2 et f1−α/2 le quantile d’ordre 1 − α/2 de la loi F(n − 1, m − 1)

• Intervalles de confiance de la différence de deux moyennes (variances égales)


De (iii) on déduit l’intervalle de"confiance de la différence des moyennes
# µX − µY au niveau 1 − α (au
r
1 1
risque α) : IC1−α (µX − µY ) = X n − Y m ∓ t1−α/2 Sb +
n m
pour t1−α/2 le quantile d’ordre 1 − α/2 de la loi St(n + m − 2)
sur les échantillons observés, on calcule l’intervalle
" de confiance observé
r
de# la différence des moyennes
1 1
µX − µY au niveau 1 − α : ic1−α (µX − µY ) = x − y ∓ t1−α/2 sb +
n m
− x)2 + i (yi − y)2 (n − 1) sb2x + (m − 1) sb2y
P P
i (xi
où sb2 = =
n+m−2 n+m−2

• Tests de l’hypothèse nulle H0 : µX = µY (variances égales)


Xn − Y m
De (iii) on déduit que sous H0 la statistique de test T = r suit une loi St(n + m − 2)
1 1
Sb +
n m
x−y
la valeur observée de T sur l’échantillon tobs = r
1 1
sb +
n m
(xi − x)2 + i (yi − y)2 (n − 1) sb2x + (m − 1) sb2y
P P
où sb2 = i =
n+m−2 n+m−2
– pour H1 : µX > µY alternative unilatérale droite, la p-valeur αobs = PH0 (T ≥ tobs )
– pour H1 : µX < µY alternative unilatérale gauche, la p-valeur αobs = PH0 (T ≤ tobs )
– pour H1 : µX 6= µY alternative bilatérale, la p-valeur αobs = 2 × PH0 (T ≥ |tobs |)
Règle de décision du test au seuil α à partir de la p-valeur :
– si αobs ≤ α on rejette l’hypothèse nulle H0 et on valide l’alternative H1 au risque d’erreur
maximum α et au risque minimum αobs ;
– si αobs > α on conserve l’hypothèse nulle H0 au seuil α et au risque d’erreur de seconde espèce β.

Règle de décision du test bilatéral au seuil α à partir de l’intervalle de confiance de la différence des
moyennes au niveau 1 − α :
– si la valeur testée de la différence sous H0 , 0 ∈
/ IC1−α (µX − µY ) on rejette l’hypothèse nulle H0
et on valide l’alternative H1 au risque d’erreur maximum α ;
– si 0 ∈ IC1−α (µX − µY ) on conserve l’hypothèse nulle H0 au seuil α et au risque d’erreur de
seconde espèce β.

18
• Tests de l’hypothèse nulle H0 : µX = µY (variances inégales)
Xn − Y m
La statistique de test de Welch T 0 = s suit approximativement une loi St(ν)
2
SbX SbY2
+
n m
où ν sont des ddl non entiers, calculés à partir des tailles des échantillons et des estimations des
variances.

II. On suppose que les tailles des échantillons n et m sont suffisamment grandes pour appliquer le TCL
(n ≥ 30 et m ≥ 30)
!
1P σX2
La statistique X n = i Xi suit approximativement une loi normale N µX ,
n n
!
1 P 2
σY
la statistique Y m = Yi suit approximativement une loi normale N µY ,
m i m
X n (resp. Y m ) est un estimateur sans biais et convergent de µX (resp. µY )
2 = 1 P
Puisque SbX (Xi − X n )2 est un estimateur sans biais, convergent de σX 2
n−1 i
1 P
et SbY2 = (Yi − Y m )2 est un estimateur sans biais, convergent de σY2
m−1 i
X n − Y m − (µX − µY )
la statistique s suit approximativement une loi normale N (0; 1)
SX
b2 Sb2
+ Y
n m

• Intervalles de confiance asymptotiques de la différence de deux moyennes (variances inégales)


On déduit l’intervalle deconfiance de la différence
s des moyennes
 µX − µY au niveau 1 − α (au risque
2
SbX Sb2
α) : IC1−α (µX − µY ) = X n − Y m ∓ z1−α/2 + Y
n m
pour z1−α/2 le quantile d’ordre 1 − α/2 de la loi N (0; 1)
sur les échantillons observés, on calcule l’intervalle
 de confiancesobservé de la différence des moyennes
2 2
sbx sby 
µX − µY au niveau 1 − α : ic1−α (µX − µY ) = x − y ∓ z1−α/2 +
n m

• Tests de l’hypothèse nulle H0 : µX = µY (variances inégales)


Xn − Y m
On déduit que sous H0 la statistique de test Z = s suit approximativement la loi N (0; 1)
2
SbX SbY2
+
n m
x−y
la valeur observée de Z sur l’échantillon zobs = s
sb2x sb2y
+
n m
– pour H1 : µX > µY alternative unilatérale droite, la p-valeur αobs = PH0 (Z ≥ zobs )
– pour H1 : µX < µY alternative unilatérale gauche, la p-valeur αobs = PH0 (Z ≤ zobs )
– pour H1 : µX 6= µY alternative bilatérale, la p-valeur αobs = 2 × PH0 (Z ≥ |zobs |)

19
Conclusions
Âges des hommes selon l’acceptation du crédit
• À partir de l’échantillon des n = 34 observations des âges des hommes des ménages dont la demande
de crédit a été acceptée, l’âge moyen est estimé à x = 40, 17647 (ans) la variance des âges est estimée
à sb2x = 85, 66488 et leur écart-type à sbx = 9, 255533 (ans) pour la population des hommes des ménages
dont le crédit est accepté ;
et à partir de l’échantillon des m = 16 observations des âges des hommes des ménages dont la demande
de crédit a été refusée, l’âge moyen est estimé à y = 44, 18750 (ans) la variance des âges est estimée à
sb2y = 179, 49583 et leur écart-type à sby = 13, 397606 (ans) pour la population des hommes des ménages
dont le crédit est refusé.
• Les variances des âges des hommes selon si la demande de crédit a été acceptée ou non ne diffèrent
pas significativement, au seuil α = 5% et au risque d’erreur de seconde espèce β, puisque la valeur
85, 66488
observée de la statistique de test de Fisher étant fobs = = 0, 4772528
179, 49583
– la p-valeur du test bilatéral, αobs = 2 × PH0 (F ≤ 0, 4772528) = 0, 07542 où F suit la loi de
Fisher F(15; 33) sous H0 , est supérieure au seuil α = 5% ;
– ou bien, la valeur observée fobs n’appartient pas à la région critique au seuil 5% du test bilatéral :
RC5% =]0; 0, 4422731] ∪ [2, 622601; ∞[ où f0,025 = 0, 4422731 et f0,975 = 2, 622601 sont les
quantiles d’ordre α/2 = 0, 025 et 1 − α/2 = 0, 975 de la loi de Fisher F(15; 33).
• Les moyennes des âges des hommes selon si la demande de crédit a été acceptée ou non ne diffèrent
pas significativement, au seuil α = 5% et au risque d’erreur de seconde espèce β, puisque, les variances
étant supposées égales, la valeur observée de la statistique de test de Student T à n + m − 2 = 48 ddl
40, 17647 − 44, 18750
tobs = √ q = −1, 2338
1 1
114, 9871 34 + 16

– la p-valeur du test bilatéral, αobs = 2 × PH0 (T ≤ −1, 2338) = 0, 2233 est supérieure au seuil
α = 5% ;
– ou bien, la valeur observée tobs n’appartient pas à la région critique au seuil 5% du test bilatéral :
RC5% = {T ; |T | ≥ t0,975 = 2, 011 ' 1, 96} où t0,975 = 2, 011 ' z0,975 = 1, 96 est le quantile
d’ordre 1 − α/2 = 0, 975 de la loi de Student St(48) proche de celui d’une loi N (0; 1) ;
– ou bien, la valeur testée 0 de la différence sous H0 appartient à l’intervalle de confiance au niveau
1 − α = 0, 95 de la différence des moyennes IC95% (µX − µY ) = [−10, 54750; 2, 52544].
Une conclusion identique est obtenue avec le test de Welch qui ne présuppose pas l’égalité des variances
des âges : en effet, la valeur observée de la statistique de test de Welch
40, 17647 − 44, 18750
t0obs = r = −1, 0822 et la p-valeur associée αobs = 0, 2909 ≥ α = 0, 05.
85, 66488 179, 49583
+
34 16
Salaires des femmes selon l’acceptation du crédit
• Les variances des log des salaires des femmes selon si la demande de crédit a été acceptée ou non
diffèrent significativement, au risque maximum α = 5%, puisque la valeur observée de la statistique
0, 30062389
de test de Fisher étant fobs = = 4, 396184
0, 06838292
– la p-valeur du test bilatéral, αobs = 2 × PH0 (F ≥ 4, 396184) = 0, 003668 où F suit la loi de
Fisher F(15; 33) sous H0 , est inférieure au seuil α = 5% ;
– ou bien, la valeur observée fobs n’appartient pas à la région critique au seuil 5% du test bilatéral :
RC5% =]0; 0, 4422731] ∪ [2, 622601; ∞[ où f0,025 = 0, 4422731 et f0,975 = 2, 622601 sont les
quantiles d’ordre α/2 = 0, 025 et 1 − α/2 = 0, 975 de la loi de Fisher F(15; 33).
• La moyenne des log des salaires des femmes dont la demande de crédit a été acceptée est significati-
vement supérieure à celle des femmes dont la demande de crédit a été refusée, au risque maximum
α = 5% et au risque minimum αobs = 0, 0004405, puisque, les variances n’étant pas supposées égales,

20
la valeur observée de la statistique de test de Welch t0obs = 3, 5476 et la p-valeur du test unilatéral,
αobs = PH0 (T 0 ≥ 3, 5476) = 0, 0004405 est inférieure au seuil α = 5%.
Une conclusion identique est obtenue avec le test de Student qui présuppose l’égalité des variances des
log des salaires : en effet, la valeur observée de la statistique de test de Student tobs = 2, 8063 et la
p-valeur associée αobs = 0, 00361 ≤ α = 0, 05.

Salaires des femmes et des hommes


• À partir de l’échantillon des log des salaires des n = 50 femmes et de celui des m = 50 hommes,
pour la population des femmes des ménages demandeurs de crédit, la moyenne du log du salaire est
estimée à x = 7, 3094, la variance du log du salaire est estimée à sb2x = 0, 2600466 et l’écart-type à
sbx = 0, 5099476
et pour la population des hommes des ménages demandeurs de crédit, la moyenne du log du salaire
est estimée à y = 7, 464, la variance du log du salaire est estimée à sb2y = 0, 3156898 et l’écart-type à
sby = 0, 5618628.
• Si les deux échantillons des log des salaires des n = 50 femmes et des m = 50 hommes sont considérés
comme indépendants,
pour les ménages demandeurs de crédit, la moyenne des log des salaires des femmes ne diffère pas
significativement de celle des hommes, au seuil α = 5% et au risque d’erreur de seconde espèce β,
puisque la valeur observée de la statistique de test asymptotique gaussien (car n = m = 50 ≥ 30)
7, 3094 − 7, 4640 7, 3094 − 7, 4640
zobs = t0obs = r = = −1, 4407
0, 2600466 0, 3156898 0, 1073067
+
50 50
– la p-valeur du test bilatéral, αobs = 2 × PH0 (Z ≤ −1, 4407) = 0, 1529 est supérieure au seuil
α = 5% ;
– ou bien, la valeur observée zobs n’appartient pas à la région critique au seuil 5% du test bilatéral :
RC5% = {Z; |Z| ≥ z0,975 = 1, 96} où z0,975 = 1, 96 est le quantile d’ordre 1 − α/2 = 0, 975 de la
loi N (0; 1) ;
– ou bien, la valeur testée 0 de la différence sous H0 appartient à l’intervalle de confiance au niveau
1 − α = 0, 95 de la différence des moyennes IC95% (µX − µY ) = [−0, 36491726; 0, 05571726].

• Les deux échantillons des log des salaires des femmes et des hommes étant appariés de taille n = 50,
pour les ménages demandeurs de crédit, la moyenne des log des salaires des femmes diffère signifi-
cativement de celle des hommes, au risque maximum α = 5% et au risque minimum αobs ' 0, 0001,
puisque la valeur observée de la statistique du test asymptotique gaussien (car n = 50 ≥ 30) sur la
moyenne µ de la différence D = X − Y étant
√ √
(x − y) n (7, 3094 − 7, 4640) 50 7, 3094 − 7, 4640
zobs = = √ = = −3, 869721
sbd 0, 07980494 0, 0399512

– la p-valeur du test bilatéral, αobs = 2 × PH0 (Z ≤ −3, 869721) = 0, 000109 est inférieure au seuil
α = 5% ;
– ou bien, la valeur observée zobs appartient à la région critique au seuil 5% du test bilatéral :
RC5% = {Z; |Z| ≥ z0,975 = 1, 96} où z0,975 = 1, 96 est le quantile d’ordre 1 − α/2 = 0, 975 de la
loi N (0; 1) ;
– ou bien, la valeur testée µ = 0 de la différence D sous H0 appartient à l’intervalle de confiance au
niveau 1−α = 0, 95 de la différence des log des salaires IC95% (µD ) = [−0, 23290292; −0, 07629708].

21
Exercice 8
Une entreprise fabriquant des produits alimentaires veut élargir sa gamme de barres de céréales en lançant
une nouvelle barre sur le marché. Une pré-enquête est réalisée en faisant tester ce nouveau produit à 70
personnes, chaque personne devant se prononcer, en aveugle, sur sa préférence concernant la nouvelle barre
A et trois autres barres de céréales concurrentes B, C et D. Les résultats sont les suivants :
Barres A B C D
Nombre de préférences 26 14 20 10

(a) Au risque 5%, peut-on déduire au vu des résultats de l’échantillon que les préférences diffèrent ?
(b) Peut-on conclure au seuil 5% que deux fois plus de personnes préfèrent la nouvelle barre à chacune
des autres ?
(c) Peut-on conclure au seuil 5% que moins de 40% des personnes préfèrent la nouvelle barre ?

Manipulations sous
1. Lire les données avec
effectif <- c( 26, 14, 20, 10 )
names(effectif) <- c("A", "B", "C", "D")
effectif
n <- sum(effectif); n
effectif/n
2. Test du khi-deux d’ajustement à une loi théorique uniforme
# par défaut, khi-deux d’adéquation à la loi uniforme
( t_uni <- chisq.test(effectif) )
attributes(t_uni)
t_uni$stat # valeur observée de la statistique du khi-deux
t_uni$par # ddl de la loi du khi-deux
t_uni$p.val # p-valeur selon la loi du khi-deux
t_uni$obs # effectifs observés
t_uni$exp # effectifs attendus sous H0
t_uni$res # différences effectifs observés et attendus
rbind(observé=t_uni$obs, attendu=t_uni$exp, différence=t_uni$res)
cbind(observé=t_uni$obs, attendu=t_uni$exp, différence=t_uni$res)
sum(t_uni$obs); sum(t_uni$exp)
sum(t_uni$res)
qchisq(0.95,t_uni$par) # quantile d’ordre 0.95 d’une loi khi-deux
3. Test du khi-deux d’ajustement à une loi théorique spécifiée
prob0 <- c(2/5,rep(1/5,3)) # loi théorique
prob0 ; sum(prob0)
( t <- chisq.test(effectif, p=prob0) )
rbind(observé=t$obs, attendu=t$exp, différence=t$res)
4. Test du khi-deux sur une proportion
neweff <- c(effectif[1],sum(effectif[-1]))
names(neweff) <- c("A", "B-C-D")
neweff
p0 <- c(0.4,1-0.4)
(t_p <- chisq.test(neweff, p=p0))
rbind(observé=t_p$obs, attendu=t_p$exp)
t_p$p.val/2 # p-valeur du test unilatéral
neweff/n
# Test asymptotique gaussien unilatéral gauche sur une proportion
prop.test(effectif[1],n, p=0.4, correct=F, alternative="less")

22
Éléments théoriques
Les observations sont les réalisations d’un échantillon N = (N1 , . . . , Nk ) de la loi Multinomiale M(n, p)
P
où p = (p1 , . . . , pk ) inconnu (avec j pj = 1) d’espérance np = (np1 , . . . , npk ) :
n!
P (N1 = n1 , . . . , Nk = nk ) = p1 × · · · × pk
n1 ! · · · nk !
chaque Nj suit une loi Binomiale B(n, pj ) d’espérance E(Nj ) = npj de variance var(Nj ) = npj (1 − pj )
et de covariance cov(Nj , N` ) = −npj p` pour tout j 6= `
N1 Nk
 
p.s.
L’estimateur pb = ,..., est un estimateur sans biais de p tel que pb −→ p
n n n→∞
(d’après la loi forte des grands nombres)
En appliquant le TCL, il s’ensuit que chaque composante Nj suit approximativement une loi normale
N (npj , npj (1 − pj ))
N1 Nk−1 √ b0
 
L
En appliquant le TCL au vecteur p = b 0 ,..., on obtient que n (p − p0 ) −→ Nk−1 (0, Σ)
n n n→∞
où Σ est la matrice (k − 1, k − 1) de variance covariance du vecteur pb0
k
X (Nj − npj )2 L
et la forme quadratique n t (pb0 − p0 ) Σ−1 (pb0 − p0 ) = −→ χ2 (k − 1)
j=1
npj n→∞

−1 1 1
où Σ−1 est la matrice (k − 1, k − 1) d’élément diagonal σjj = + pour tout j = 1, . . . , k − 1 et
pj pk
−1 1
hors-diagonal σj` = j 6= ` pour tout j, ` = 1, . . . , k − 1
pk
• Test du khi-deux d’adéquation à une loi théorique
La loi théorique étant spécifiée par les proportions : p0 = (p10 , . . . , pk0 ) telles que kj=1 pj0 = 1
P

il s’agit de tester
l’hypothèse nulle H0 : p = p0 ou pj = pj0 ∀j = 1, . . . , k ou adéquation à la loi théorique
contre l’alternative bilatérale H1 : p 6= p0 ou ∃j; pj 6= pj0 ou inadéquation à la loi théorique
k
X (Nj − npj0 )2 approx.
Sous H0 la statistique de test du khi-deux Q2 = ∼ χ2 (k − 1)
j=1
npj0 sous H0

lorsque n ≥ 30 et n × pj0 > 5 pour tout j = 1, . . . , k


k
X (nj − npj0 )2
la valeur observée de Q2 sur l’échantillon qobs
2 =

j=1
npj0
nj est l’effectif observé et npj0 = ej l’effectif attendu ("expected") sous H0 de valeur j
– la région critique (ou région de rejet) RCα au seuil α est telle que : PH0 (RCα ) = α
RCα = Q2 ; Q2 ≥ q1−α où q1−α est le quantile d’ordre 1 − α de la loi χ2 (k − 1)


– la p-valeur αobs = PH0 Q2 ≥ qobs


2


Règle de décision du test au seuil α à partir de la région critique :


2
– si qobs ∈ RCα on rejette l’hypothèse nulle H0 et on valide l’alternative H1 au risque d’erreur
maximum α ;
2 ∈
– si qobs / RCα on conserve l’hypothèse nulle H0 au seuil α et au risque d’erreur de 2de espèce β.

Conclusions
• Les proportions p = (p1 , p2 , p3 , p4 ) de préférences pour les barres de céréales A, B, C et D sont estimées
respectivement à 37.14286%, 20%, 28.57143% et 14.28571%.
• Les proportions p = (p1 , p2 , p3 , p4 ) de préférences pour les barres A, B, C et D diffèrent au risque
maximum α = 5% et au risque minimum αobs = 3.843%, puisque :
– les conditions de validité de l’approximation du khi-deux étant vérifiées :
n = 70 ≥ 30 et npj0 = n/4 = 17.5 > 5 ;

23
– la valeur observée de la statistique de test du khi-deux d’adéquation Q2 à 3 ddl
2 2 2 2
2 = (26 − 17.5) + (14 − 17.5) + (20 − 17.5) + (10 − 17.5) = 8.4 ;
qobs
17.5 17.5 17.5 17.5
– la p-valeur du test (bilatéral) αobs = PH0 (Q2 ≥ 8.4) = 0.03843 est inférieure au seuil α = 5% ;
2 = 8.4 appartient à la région critique au seuil α = 5% :
– ou bien, la valeur observée qobs
RC5% = {Q ; Q ≥ q1−α = q0,95 = 7.815}, où q0,95 est le quantile d’ordre 95% de la loi χ2 (3).
2 2

• La proportion de préférences pour la barre A est deux fois plus élevée que celles pour les autres barres B,
C, ou D au seuil α = 5% et au risque d’erreur de 2de espèce β puisque, les conditions d’approximation
du khi-deux étant vérifiées (n = 70 ≥ 30 et n(1 − pj0 ) > 5 pour tout j = 1, . . . , 4 où p10 = 0.4 et
p20 = p30 = p40 = 0.2 car n × 0.2 = 14 > 5),
2 = 3.8571 n’appartient pas à la région critique au seuil α = 5% :
– la valeur observée qobs
RC5% = {Q2 ; Q2 ≥ 7.815}
– ou bien, la p-valeur du test, αobs = PH0 (Q2 ≥ 3.8571) = 0.2773 est supérieure au seuil α = 5%.

• La proportion de préférences pour la barre A n’est pas inférieure à 40% au seuil α = 5% et au


risque d’erreur de 2de espèce β puisque, les conditions d’approximation du khi-deux étant vérifiées
(n = 70 ≥ 30 et n(1 − pj0 ) > 5 pour tout j = 1, 2 où p10 = 0.4 et p20 = 0.6 car n × 0.4 = 28 > 5),
– la valeur observée de la statistique de test du khi-deux d’adéquation Q2 à 1 ddl

2 (26 − 28)2 (44 − 42)2 2 2 (0.3714286 − 0.4) 70
qobs = + = 0.2381 (qobs = zobs où zobs = √ = −0.48795)
28 42 0.4 × 0.6
– la p-valeur du test bilatéral étant αobs = PH0 (Q2 ≥ 0.2381) = 0.6256
la p-valeur du test unilatéral gauche αobs /2 = 0, 3127926 est supérieure au seuil α = 5%, après
avoir vérifié que les observations sont compatibles avec l’alternative, c’est-à-dire que la proportion
de préférence observée pour la barre A 0, 3714286 est inférieure à 0,4.

24
Exercice 9
On a relevé le nombre de garçons dans 50 familles de 3 enfants :
2 3 1 1 0 2 2 0 0 1 3 3 1 2 1 1 1 2 1 3 1 1 2 1 0
2 0 3 2 3 2 3 2 2 0 1 0 1 1 2 0 2 3 0 2 2 2 0 2 1

(a) Au risque 1%, le nombre de garçons par famille suit-il une loi uniforme ?
(b) Peut-on admettre au seuil de 5% que le nombre de garçons par famille obéit à une loi binomiale ?

Manipulations sous
1. Lire les données avec
X <- c(2, 3, 1, 1, 0, 2, 2, 0, 0, 1, 3, 3, 1, 2, 1, 1, 1, 2, 1, 3, 1, 1, 2, 1, 0,
2, 0, 3, 2, 3, 2, 3, 2, 2, 0, 1, 0, 1, 1, 2, 0, 2, 3, 0, 2, 2, 2, 0, 2, 1)
n <- sum(length(X)); n
table(X); table(X)/n
2. Test du khi-deux d’ajustement à une loi théorique uniforme
( t_uni <- chisq.test(table(X)) )
rbind(observé=t_uni$obs, attendu=t_uni$exp, différence=t_uni$res)
3. Test du khi-deux d’ajustement à une loi théorique binomiale
bin0 <- dbinom(0:3,3,0.5) # loi binomiale B(3,0.5)
bin0; sum(bin0)
( t_bin <- chisq.test(table(X), p=bin0) )
rbind(observé=t_bin$obs, attendu=t_bin$exp, différence=t_bin$res)

Éléments théoriques
Les observations sont les réalisations d’un échantillon (X1 , . . . , Xn ) où Xi i.i.d. de proportions p1 , . . . , pk
P
associées aux k modalités A1 , . . . , Ak où pj > 0 et j pj = 1.
Pour chaque j = 1, . . . , k on considère la variable Nj = ni=1 1{Xi =Aj } qui représente le nombre de
P

variables Xi qui présentent la modalité Aj ;


Nj suit une loi Binomiale B(n, pj ) d’espérance E(Nj ) = npj de variance var(Nj ) = npj (1 − pj ) ;
le vecteur aléatoire N = (N1 , . . . , Nk ) suit la loi Multinomiale M(n, p) où p = (p1 , . . . , pk ) inconnu
P
(avec j pj = 1) d’espérance np = (np1 , . . . , npk ).
On teste l’hypothèse nulle H0 : p = p0 ou X suit la loi théorique
contre l’alternative bilatérale H1 : p 6= p0 ou X ne suit pas la loi théorique
Lorsque la loi théorique est une loi binomiale, p0 est le vecteur des proportions théoriques binomiales
selon la loi B(k − 1; π0 ) :
j
pj0 = P (Xi = j) = Ck−1 π0j (1 − π0 )k−1−j pour j = 0, 1, . . . , k − 1

25
Exercice 10
Les nombres de clients entrant dans un supermarché pendant 180 périodes consécutives de 1 minute sont
les suivants :
nombre de clients 0 1 2 3 4 5 6 7 ou plus
nombre de périodes 15 29 44 47 21 16 6 2

(a) Peut-on calculer le nombre moyen de clients par minute ?


(b) Peut-on admettre au seuil de 5% que le nombre de clients par minute obéit à une loi de Poisson de
moyenne 3 ?

Manipulations sous
1. Lire les données avec
effectif <- c(15, 29, 44, 47, 21, 16, 6, 2)
names(effectif) <- c(0:6, "7 et +")
effectif
n <- sum(effectif)
n
effectif/n
2. Test du khi-deux d’ajustement à une loi théorique de Poisson
pois <- dpois(0:6,lambda=3) # loi de Poisson P(3)
sum(pois)
pois0 <- c(pois,1-ppois(6,lambda=3))
sum(pois0)
( t_pois <- chisq.test(effectif, p=pois0) )
rbind(observé=t_pois$obs, attendu=t_pois$exp, différence=t_pois$res)

26
Exercice 11
On reprend les données de l’exercice 7 concernant 50 ménages demandeurs de crédits pour s’intéresser plus
particulièrement aux variables suivantes :
– l’accord du crédit par l’organisme prêteur ;
– la garantie supplémentaire demandée à l’emprunteur ;
– le type d’emploi occupé par l’emprunteur (la personne inscrite en premier dans le formulaire de de-
mande c.-à-d. la personne de référence).

(a) Tester au risque 1% si l’acceptation du crédit est influencée par le type d’emploi occupé par l’emprun-
teur.
(b) Au risque 5%, l’acceptation du crédit dépend-elle de l’existence d’une garantie supplémentaire (quelle
qu’elle soit) demandée à l’emprunteur ?

Manipulations sous
1. Lire les données avec du fichier Salaires_ménages.txt : tableau de données dataframe
# définir le répertoire courant
setwd("nom répertoire courant ")
getwd()
# lire le fichier
données <- read.delim("Salaires_ménages.txt")
données
str(données)
names(données)
summary(données)
attach(données)
table(Acceptation, Emploi)
addmargins(table(Acceptation, Emploi))
2. Tests du khi-deux d’indépendance
( t1 <- chisq.test(Acceptation, Emploi, correct=F) ) # sans correction de continuité
t1$stat # valeur observée de la statistique du khi-deux
addmargins(t1$obs) # effectifs observés et marges
addmargins(t1$exp) # effectifs attendus et marges
prop.table(t1$obs) # proportions jointes
prop.table(margin.table(t1$obs,1)) # proportions marginales en ligne
prop.table(margin.table(t1$obs,2)) # proportions marginales en colonne
addmargins(prop.table(t1$obs,1))[1:2,] # proportions conditionnelles en ligne
addmargins(prop.table(t1$obs,2))[,1:2] # proportions conditionnelles en colonne
t2 <- chisq.test(Acceptation, Garantie.Supp)
addmargins(t2$obs)
t2$exp
# créer une nouvelle variable garantie : oui, non
garantie <- Garantie.Supp
garantie[Garantie.Supp %in% c("caution","hypotheque")] <- "oui"
table(garantie,Acceptation)
( t3 <- chisq.test(Acceptation, garantie, correct=F) )
addmargins(t3$obs)
addmargins(t3$exp)
detach(données)

27
Éléments théoriques
Les observations sont les réalisations d’un échantillon de couples ((X1 , Y1 ) . . . , (Xn , Yn )) où (Xk , Yk )
i.i.d. de proportions (pij , i = 1, . . . , `, j = 1, . . . , c) de présenter la modalité Ai de X et Bj de Y
inconnues, où pij > 0 et `i=1 cj=1 pij = 1.
P P
n
X
Pour chaque (i, j), i = 1, . . . , `, j = 1, . . . , c on considère la variable Nij = 1{(Xk ,Yk )=(Ai ,Bj )} qui
k=1
représente le nombre de couples de variables (Xk , Yk ) qui présentent la modalité Ai de X et Bj de Y ;
Nij
la variable est l’estimateur empirique de la proportion pij
n
L’indépendance des variables X et Y est équivalent à pij = pi pj ∀(i, j), i = 1, . . . , `, j = 1, . . . , c où
Pc
pi = j=1 pij pour i = 1, . . . , ` sont les proportions marginales de X associées aux modalités
(A1 , . . . , A` ) et pj = `i=1 pij pour j = 1, . . . , c les proportions marginales de Y aux modali-
P

tés (B1 , . . . , Bc ) avec `i=1 pi = cj=1 pi = 1 ;


P P
n
Ni X
la variable où Ni = 1{Xk =Ai } est l’estimateur empirique de la proportion pi pour i = 1, . . . , `
n k=1
n
Nj X
la variable où Nj = 1{Yk =Bj } est l’estimateur empirique de la proportion pj pour j = 1, . . . , c
n k=1
Ni Nj
et la variable est l’estimateur de la proportion pij lorsque X et Y sont indépendantes
n2
• Test du khi-deux d’indépendance
Test de l’hypothèse nulle H0 : indépendance entre les variables X et Y
ou H0 : pij = pi pj ∀i = 1, . . . , `, j = 1, . . . , c contre l’alternative bilatérale H1 : ∃(i, j); pij 6= pi pj
 2
N N
` X
X c Nij − in j approx.
Sous H0 la statistique de test du khi-deux Q2 = Ni Nj
∼ χ2 ((` − 1)(c − 1))
sous H0
i=1 j=1 n
lorsque n ≥ 30 et eij > 5 pour tout i = 1, . . . , `, j = 1, . . . , c
` X
c
X (nij − eij )2 ni nj
la valeur observée de Q2 sur l’échantillon qobs
2 = où eij =
i=1 j=1
eij n
nij est l’effectif observé et eij l’effectif attendu ("expected") sous H0 de la case (i, j) du tableau de
contingence des effectifs
– la région critique (ou région de rejet) RCα au seuil α est telle que : PH0 (RCα ) = α
RCα = Q2 ; Q2 ≥ q1−α où q1−α est le quantile d’ordre 1 − α de la loi χ2 ((` − 1)(c − 1))


– la p-valeur αobs = PH0 Q2 ≥ qobs


2


Conclusions
• La proportion marginale d’acceptation du crédit est estimée à 68% et celle des emplois en CDI est
estimée également à 68%.
• Les variables X acceptation du crédit et Y type d’emploi occupé par l’emprunteur ne sont pas indé-
pendantes au risque maximum α = 1% et au risque minimum αobs ' 0, 15%, puisque :
– les conditions de validité de l’approximation du khi-deux étant vérifiées :
n = 50 ≥ 30 et eij > 5 ∀(i, j) puisque min(eij ) = 16 × 16/50 = 5, 12 > 5 ;
– la valeur observée de la statistique de test du khi-deux d’indépendance Q2 à 1 ddl
2 2 2 2
2 = (10 − 5, 12) + (6 − 10, 88) + + (6 − 10, 88) + (28 − 23, 12) = 10, 059 ;
qobs
5, 12 10, 88 10, 88 23, 12
2
– la p-valeur du test (bilatéral) αobs = PH0 (Q ≥ 10, 059) = 0, 001516 ≤ α = 1% ;
2 = 10, 059 appartient à la région critique au seuil α = 5% :
– ou bien, la valeur observée qobs
RC5% = {Q ; Q ≥ q1−α = q0,95 = 3, 841}, où q0,95 est le quantile d’ordre 95% de la loi χ2 (1).
2 2

28
• Les variables X acceptation du crédit et Y existence d’une garantie supplémentaire sont indépendantes
au seuil α = 5% et au risque d’erreur de 2de espèce β puisque, les conditions d’approximation du khi-
deux étant vérifiées (n = 50 ≥ 30 et eij > 5 ∀(i, j) puisque min(eij ) = 16 × 16/50 = 5, 12 > 5),
2 = 0, 0060824 n’appartient pas à la région critique au seuil α = 5% :
– la valeur observée qobs
2 2
RC5% = {Q ; Q ≥ 3, 841}
– ou bien, la p-valeur du test, αobs = PH0 (Q2 ≥ 0, 0060824) = 0, 9378 > α = 5%.

Exercice 12
Une statistique relative aux résultats du concours d’entrée à une grande école fait ressortir les répartitions
des candidats et des admis selon la profession des parents.
Profession des parents Nombre de candidats Nombre d’admis
1 Fonctionnaires et assimilés 2244 180
2 Commerce, industrie 988 89
3 Professions libérales 575 48
4 Propriétaires rentiers 423 37
5 Propriétaires agricoles 287 13
6 Artisans, petits commerçants 210 18
7 Banque, assurance 209 17
Total 4936 402

(a) Estimer le taux d’admission selon la profession des parents.


(b) Tester l’hypothèse (au seuil α = 0, 05) selon laquelle la profession des parents n’a pas d’influence sur
l’accès à cette grande école.

Manipulations sous
1. Lire les données avec
prof <- c("Fonctionnaires et assimilés", "Commerce, industrie", "Professions libérales",
"Propriétaires rentiers", "Propriétaires agricoles",
"Artisans, petits commerçants", "Banque, assurance")
A <- c(180,89,48,37,13,18,17)
P <- c(2244,988,575,423,287,210,209)
sum(A); sum(P); sum(A)/sum(P)
100*A/P
R <- P-A
R
tab <- matrix(c(A,R), ncol=2)
rownames(tab) <- prof
colnames(tab) <- c("admis","non-admis")
tab
2. Test du khi-deux d’indépendance
(k2 <- chisq.test(tab))
addmargins(k2$obs)
addmargins(k2$exp)

29

Vous aimerez peut-être aussi