Cours de Statistique (Partie 2)

Notes de cours de statistique
Hammadi Achour
ISPT
17 février 2020
Hammadi Achour (ISPT) Statistique 17 février 2020 1 / 30

Table des matières
1 Propriétés de la loi normale
2 Les tests statistiques

La loi normale
Plan
1. Représentation graphique de la distribution d’une variable
continue
2. Densité de probabilité
3. La distribution normale
4. Propriétés d’une distribution normale
5. La loi normale centrée réduite
Prérequis
Variable quantitative continue
Graphique de représentation de données
Paramètres descriptifs d’une série (position, dispersion etc.)

Variable quantitative continue
Exemple introductif : une série statistique de taille (N=30) ;variable

mesurée : diamètre en cm.
rnorm(30, mean=30, sd=2)
34.0 32.7 31.4 31.9 30.2 34.4 30.2 31.6 33.7 31.5
32.1 35.8 31.4 30.3 35.4 30.9 34.8 34.7 35.1 34.7
29.4 34.6 34.7 30.7 29.1 32.8 34.9 34.9 36.7 32.4
Classe de diamètres (cm) ni fi (%)

27.5 - 29.2 3 10
29.2 - 30.8 6 20 Pour résumer une telle
30.8 - 32.5 12 40 distribution, il fallait
32.5 - 34.2 3 10 regrouper les valeurs en
34.2 - 35.9 6 20 classes (discrétisation).
Total 30 100

p(x) fréquence relative de chaque classe = surface d’un rectangle
Total de la surface de l’histogramme = 1
8
0.25
6
0.20
Fréquence (f )
Fréquence relative (px)

0.15
4
0.10
p(x)=0.17
2
0.05
0
0.00
26 28 30 32 34
0.25
26 28 30 32 34
x
x
densité de probabilité f(x)=p(x)/a
Densité de fréque,ce relative (f(x)
0.20
C P(X<a) la probabilité qu’un individu X présente une valeur <a

est mesurée par la surface A
P(X>b) la probabilité qu’un individu X présente une valeur >b
0.15
est mesurée par la surface B

P(a<X<b) la probabilité qu’un individu X préqsente une valeur
comprise entre a et b est mesurée par la surface C
0.10
la surface C
f(x)=0.17
A
B
0.05
P(a<X<b)
P(X<a) P(X>b)
a
0.00
26
a 28 30 32
b 34

Distribution normale
densité de probabilité de X
densité de probabilité de X
2.5% 2.5%
-2 sigma u 2 sigma X
95% des valeurs sont comprises entre
-2 sigma et +2 sigma
2.5% des valeurs sont >u +2sigma
50% 50% 2.5% des valeurs sint <u-2 sigma
u=moyenne X

Loi normale centrée-réduite
Exemple
Soit la série statistique X suivante : (14.1, 15.8, 17.5, 8.1, 16,2, 17.3). Le
centrage réduction de cette série consiste à calculer :
Xi − µ
Z=
σ
ce qui donne la série X’ suivante : (-0.87, 1.0, -0.3, 0.05, 1.3, -1.2) avec
ν = 0 et σ = 1

Propriétés de la distribution normale
centrée réduite Z
il y a une probabilté de 2.5%

que la valeur de Z est >2
2.5%
2.5%
-2 -1.96 -1 0 1 1.96 2
95% des valeurs de Z sont comprises entre -2 et +2
Loi normale centrée réduite : Z N(0,1)

la variable centrée réduite Z=(X-µ)/σ
courbe symétrique par rapport à Z=0
P(Z≤ 0)=P(Z>0)=0.5
P(-1≤Z≤1)=0.68
P(-1.96≤Z≤1.96)=0.95
La table de Z (α unilatéral)
Z 0.84 1.28 1.64 1.96 2.33 2.58 3.09 3.72

α 20% 10% 5% 2.5% 1% 0.5% 0.1% 0.01%
La probabilité que Z > 1.96 = 2.5%

La probabilité que Z > 3.72 = 0.01%
Plus les valeurs de Z sont élevées plus la probabilité de trouver une
valeur supérieure est faible.
La table de |Z| ( α bilatéral)
|Z| 0.84 1.28 1.64 1.96 2.33 2.58 3.09 3.72

α 40% 20% 10% 5% 2% 1% 0.2% 0.02%
La probabilité que la valeur absolue de Z > 1.96 = 5%

La probabilité que la valeur absolue de Z > 3.72 = 0.02%

Exemple
On suppose qu’une certaine variable X N (11, 2). Chercher P(X ≤
14) ?
X − 11
X=
2
On centre et on réduit
X − 11 14 − 11
P (X ≤ 14) = P ( ≤ )
2 2
= P(Z≤ 1.5)
Commandes R
pnorm(1.5, mean = 0, sd = 1, lower.tail = TRUE)
La probabilité que Z soit < à 1.5 = 0.9331928
pnorm(1.5, mean = 0, sd = 1, lower.tail = FALSE) La probabilité que
Z soit > à 1.5 = 0.0668072
2 * pnorm(1.5, lower.tail = FALSE)
La probabilité que la |Z| soit > à 1.65 = 0.1336144
Les tests statistiques
Plan
1. Principe des tests statistiques
Exemples introductifs
Étapes de formulation d’un test d’hypothèse
2. Comparaison de 2 moyennes (grands échantillons n ≥ 30)
Comparaison d’une moyenne observée à une moyenne théorique
Comparaison de deux moyennes / Échantillons indépendants
Comparaison de deux moyennes / Échantillons appariés

Exemple 1. On souhaite tester l’effi-

cacité d’un nouveau traitement biolo-
gique par un rapport un traitement chi-
mique couramment utilisé, et ce pour
éradiquer la chenille processionnaire du
pin Thaumetopoea pityocampa .
On dispose d’un échantillon de 70 arbres divisé en 2 groupes :

Groupe A (35 individus) : nouveau traitement (biologique)
Groupe B (35 individus) : traitement classique (chimique)
3 mois plus tard, nous avons observé la guérison des arbres infectés :
Groupe A : 76 % de guérison
Groupe B : Groupe B : 62 % de guérison

Le nouveau traitement est-il plus efficace que le traitement classique ?

D’un point de vue descriptif → OUI
Si on tire un autre échantillon, retrouve-t-on la même différence
d’efficacité ? (fluctuations d’échantillonnage)
Peut-on extrapoler cette différence d’efficacité à la population ?
Les tests statistiques permettent de fixer une règle de décision objective.

Exemple 2. Un technicien forestier a mesuré

les hauteurs de 60 arbres par un dendromètre.
Pour vérifier la qualité de cette méthode, les
mêmes arbres ont été abattus et mesurés au
sol.
Méthode A : Arbres debouts :
dendroromètre
Méthode B : Arbres abattus : décamètre
ruban
Existe-t-il une différence significative de hauteur entre les arbres mesurés
debout ou après abattage ?

Les tests d’hypothèse, quels que soient leurs types, se formulent de la même
façon :
On se pose une question
Le nouveau traitement est-il plus efficace que le traitement
classique ?
On pose l’hypothèse nulle H0 et l’hypothèse alternative H1
H0 : Le traitement classique et le nouveau traitement ont la même
efficacité.
H1 : Les deux traitements ont des efficacités différentes.
On fixe un seuil de signification α à ne pas dépasser pour rejeter
l’hypothèse nulle (le risque standard est égal à 5%).

Apha = 5%
2.5% 2.5%
X
-1.96 0 1.96
Rejet de H0 Non rejet de H0 Rejet de H0
On collecte des données d’un échantillon que l’on suppose tiré au

hasard de la population étudiée.
On détermine la statistique de test et sa loi de probabilité.

On calcule la probabilité d’obtenir les écarts observées en utilisant

la loi suivie par la statistique de test. Cette probabilité est appelée
p-value (degré de signification).
On conclue au rejet ou non rejet de l’hypothèse nulle en fonction
du résultat de la comparaison de la valeur de la probabilité p-value
au risque seuil α :
Si p-value ≤ α on rejette H0 en faveur de H1.
S p-value > on accepte H0 et H1 sera rejetée.

Comparaison de 2 moyennes
Il existe trois types de tests pour comparer 2 moyennes :
Les tests de conformité. Comparaison d’une moyenne observée x̄ d’un
(échantillon) à une moyenne exacte ν d’une population de référence.
La moyenne x̄ est-elle conforme à la valeur ν ?
La différence entre x̄ et ν est significative sous l’hypothèse H0 : m=
ν
Les tests d’homogénéité. Comparaison d’une moyenne d’échantillon 1
(x¯1 ) avec celle d’un deuxième échantillon (x¯2 ). Les 2 échantillons sont
indépendants.
On se demande si les 2 moyennes observées proviennent de
populations caractérisées par des moyennes identiques.
La différence entre x¯1 et x¯2 est significative sous l’hypothèse H0 :
ν1= ν2.
Les tests sur une série appariée. Comparaison de 2 séries du même
échantillon.
La moyenne des différences d¯ des valeurs de 2 séries est
significativement différente de 0 sous H0 : νd =0.
Le test-t de Student
Le test T de student n’est applicable que si et seulement si la série de valeurs

X suit une loi normale ! X N (µ, σ)
Il existe plusieurs variants du test-t de Student :
1. Le test-t de Student pour échantillon unique (test de conformité).
2. Le test-t de Student comparant deux groupes d’échantillons dépendants
(on parle de test de Student apparié).
3. Le test-t de Student comparant deux groupes d’échantillons
indépendants (test d’homogénéité ; test de Student non apparié).

Test de Student pour échantillon unique
Soit X une série de valeurs de taille n, de moyenne x̄ et d’écart-type (s). La

comparaison de la moyenne observée x̄ à une valeur théorique µ est donnée par
par la formule :
x̄ − µ
t=
√s
n
Pour savoir si la différence est significative, il faut tout d’abord lire dans la
table t, la valeur critique correspondant au risque alpha = 5% pour un degré
de liberté : d.d.l = n − 1.
Si la valeur absolue de t (|t|) est > à la valeur critique W , alors la différence est
significative. Dans le cas contraire, elle ne l’est pas.

Exemple. Soit un échantillon de 10 arbres choisi au hasard d’une population
distribuée selon une loi normale de moyenne de diamètres : µ = 22.5 cm et
d’écart-type σ. La moyenne empirique des diamètres de l’échantillon x̄ = 15.8
cm et l’écart-type empirique s = 6 cm.
1. Choix des hypothèses
H0 : le diamètre moyen des arbres est identique à celui de la
population (H0 : x̄ = µ)
H1 : le diamètre moyen des arbres est différent à celui de la
population (H1 : x̄ 6= µ)
2. Choix du risque α=5%
3. Détermination de la région critique (W =2.26 ; lecture à partir de la
table t)
4. Calcul de T sur l’échantillon
x̄ − µ 15.8 − 22.5
t= s = 6 = −3.53
√ √
n 10
5. Conclusion : | − 3.53| > 2.26 → La moyenne observée sur l’échantillon

est significativement différente de la moyenne théorique.
Exemple. Calcul du test de Student avec R

Lancer R et générer une série aléatoire n=15, de moyenne x̄ = 10.6 et
d’écart-type s = 2.3.
Vérifier la normalité de cette série.
Vérifier si la moyenne x̄ de cette série est significativement différente de
µ = 8.9
x<-rnorm(15, mean=10.6, sd=2.3)# série aléatoire

qqnorm(x) # comparer la distribution d’un échantillon avec une distribution
normale.
shapiro.test(x) # test permettant de savoir si une série de données suit une
loi normale.
abline(mean(x),sd(x)),col=”red”)
t.test(x,mu=8.9)# test-t de Student
La p-value du test est de 0.01736. Ce qui est < à 0.05. On rejette l’hypothèse 0 et
on conclut que x̄ est significativement différent de µ avec une p-value = 0.01736.
Test de Student pour séries appariées
Pour comparer les moyennes de deux séries appariées, on calcule la différence

(d) des deux mesures pour chaque paire.
La moyenne de la différence d est comparée à la valeur 0. S’il y a une
différence significative entre les deux séries appariées, la moyenne de d
devrait être très éloignée de la valeur 0.
La valeur t de Student est donnée par :
m
t=
√s
n
m et s représentent la moyenne et l’écart-type de la différence d. n

est la taille de la série d.
Pour savoir si la différence est significative, il faut tout d’abord lire
dans la table t, la valeur critique correspondant au risque alpha =
5% pour un degré de liberté : d.d.l = n − 1.

On a mesuré la hauteur (en m) de 12 arbres selon deux méthodes différentes
(dendromètre vs. décamètre ruban), avant et après la coupe de l’arbre.
Lancer R et saisir les mesures relatives à chaque méthode.
Vérifier graphiquement/statistiquement la normalité des mesures de
chaque méthode.
Vérifier si la différence entre les deux méthodes de mesure est significative.
debout 20.4 25.4 25.6 25.6 26.6 28.6 28.7 29.0 29.8 30.5 30.9
abattu 21.7 26.3 26.8 28.1 26.2 27.3 29.5 32.0 30.9 32.3 32.3
Solution
debout <- c(20.4,25.4,25.6,25.6,26.6,28.6,28.7,29.0,29.8,30.5,30.9)
abattu <- c(21.7,26.3,26.8,28.1,26.2,27.3,29.5,32.0,30.9,32.3,32.3)
shapiro.test(debout)# vérification de la normalité
W = 0.89693, p-value = 0.169 # p-value>0.05 ; distribution normale
shapiro.test(abattu)# vérification de la normalité
W = 0.91728, p-value = 0.2966 # p-value>0.05 ; distribution normale
par(mfrow=c(2,1))# découper la fenêtre graphique en 2 lignes et 1 colonne

qqnorm(debout,pch=16,col=”blue”)# diagramme Quantile-Quantile permettant de
comparer la pertinence de l’ajustement de données à un modèle théorique gaussien.
qqline(debout,col=”red”,lwd=2)# droite de Henry ; dans le cas d’une distribution
normale les points sont alignés sur la droite.
legend(bottomright, legend=c(”debout”))#légende du graphique
qqnorm(abattu,pch=16,col=”blue”)
qqline(abattu,col=”red”,lwd=2)
legend(bottomright, legend=c(”abattu”))
t.test(debout, abattu, paired=TRUE)#test t sur une série appariée
t = -3.0973, df = 10, p-value = 0.0113 # | − 3.0973| > 2.228 | p-value<0.05 ;la
différence entre les deux méthodes est statistiquement significative.

Test de Student pour échantillons appariés
Normal Q−Q Plot

Sample Quantiles
28
24
debout
20
−1.5 −1.0 −0.5 0.0 0.5 1.0 1.5
Theoretical Quantiles
Normal Q−Q Plot

Sample Quantiles
30
26
abattu
22
−1.5 −1.0 −0.5 0.0 0.5 1.0 1.5

Test de Student pour échantillons indépendants
Soit A et B deux groupes différents à comparer.
Soit mA et mB la moyenne du groupe A et celui du groupe B,
respectivement.
La valeur t de Student est donnée par la formule suivante :
mA − mB
t= q
S2 S2
nA + nB
S 2 est la variance commune des 2 groupes. Elle est calculée par la formule
suivante :
(x − mA )2 + (x − mB )2
P P
2
S =
nA + nB − 2
Pour savoir si la différence est significative, il faut lire dans la table t, la

valeur critique correspondant au risque alpha = 5% pour un degré de
liberté : d.d.l = nA + nB − 2.

Des mesures sont effectuées sur la longueur de la mâchoire inférieure (en mm)
de 10 chacals mâles et 10 chacals femelles.
mâle 120 107 110 116 114 111 113 117 114 112
femelle 110 111 107 108 110 105 107 106 111 111
La variable mesurée diffère-t-elle entre les sexes dans cette espèce ?
Solution
mâle <- c(120, 107, 110, 116, 114, 111, 113, 117, 114, 112)
femelle <- c(110, 111, 107, 108, 110, 105, 107, 106, 111, 111)
On range les données dans le tableau chac et on ajoute une variable qualitative
binaire pour noter le sexe des individus.
mâch <- c(mâle, femelle)
chac <- data.frame(mâch)
chac$plan <- gl(n = 2, k = 10, lab = c(”mâle”, ”femelle”))
head(chac)
moy <- with(chac, tapply(mâch, plan, mean))
par(mfrow = c(1, 2))
with(chac, dotchart(mâch, groups = plan, gdata = moy, gpch = 19, xlab = ”Mâchoire
[mm]”))
boxplot(mâch∼plan, chac,col = c(”lightblue”, ”pink”), notch = TRUE, las = 1,ylab
= ”Mâchoire [mm]”)
mâle 120
115
Mâchoire [mm]
femelle
110
105
105 110 115 120 mâle femelle
Mâchoire [mm]
On constate que la mâchoire des mâles est en moyenne plus longue que celle des
femelles. Les encoches des boites à moustaches nous indiquent que l’on est à la limite
de la significativité. Un test d’hypothèse serait le bienvenu.
with(chac, tapply(mâch, plan, shapiro.test))

W = 0.88085, p-value = 0.1335 ; p-value>0.05 ; on accepte l’hypothèse de normalité.
var.test(mâch∼ plan, data = chac)
p-value = 0.1579 ; p-value>0.05 ; on accepte l’hypothèse nulle d’égalité des variances
t.test(mâch∼plan, var.equal = TRUE, data = chac)
p-value = 0.002647
Conclusion : La longueur de la mâchoire inférieure des chacals diffère selon le sexe
puisque p-value<0.05.

Cours de Statistique (Partie 2)

Transféré par

Informations du document

Titre original

Copyright

Formats disponibles

Partager ce document

Partager ou intégrer le document

Options de partage

Avez-vous trouvé ce document utile ?

Ce contenu est-il inapproprié ?

Droits d'auteur :

Formats disponibles

Cours de Statistique (Partie 2)

Transféré par

Droits d'auteur :

Formats disponibles

Notes de cours de statistique

Hammadi Achour (ISPT) Statistique 17 février 2020 1 / 30

1 Propriétés de la loi normale

2 Les tests statistiques

Hammadi Achour (ISPT) Statistique 17 février 2020 2 / 30

Hammadi Achour (ISPT) Statistique 17 février 2020 3 / 30

Exemple introductif : une série statistique de taille (N=30) ;variable

Classe de diamètres (cm) ni fi (%)

Hammadi Achour (ISPT) Statistique 17 février 2020 4 / 30

Fréquence relative (px)

C P(X<a) la probabilité qu’un individu X présente une valeur <a

est mesurée par la surface B

Hammadi Achour (ISPT) Statistique 17 février 2020 5 / 30

Hammadi Achour (ISPT) Statistique 17 février 2020 6 / 30

Hammadi Achour (ISPT) Statistique 17 février 2020 7 / 30

il y a une probabilté de 2.5%

95% des valeurs de Z sont comprises entre -2 et +2

Loi normale centrée réduite : Z N(0,1)

Z 0.84 1.28 1.64 1.96 2.33 2.58 3.09 3.72

La probabilité que Z > 1.96 = 2.5%

|Z| 0.84 1.28 1.64 1.96 2.33 2.58 3.09 3.72

La probabilité que la valeur absolue de Z > 1.96 = 5%

Hammadi Achour (ISPT) Statistique 17 février 2020 9 / 30

Hammadi Achour (ISPT) Statistique 17 février 2020 11 / 30

Exemple 1. On souhaite tester l’effi-

On dispose d’un échantillon de 70 arbres divisé en 2 groupes :

Hammadi Achour (ISPT) Statistique 17 février 2020 12 / 30

Le nouveau traitement est-il plus efficace que le traitement classique ?

Hammadi Achour (ISPT) Statistique 17 février 2020 13 / 30

Exemple 2. Un technicien forestier a mesuré

Hammadi Achour (ISPT) Statistique 17 février 2020 14 / 30

Hammadi Achour (ISPT) Statistique 17 février 2020 15 / 30

Rejet de H0 Non rejet de H0 Rejet de H0

On collecte des données d’un échantillon que l’on suppose tiré au

Hammadi Achour (ISPT) Statistique 17 février 2020 16 / 30

On calcule la probabilité d’obtenir les écarts observées en utilisant

Hammadi Achour (ISPT) Statistique 17 février 2020 17 / 30

Le test T de student n’est applicable que si et seulement si la série de valeurs

Hammadi Achour (ISPT) Statistique 17 février 2020 19 / 30

Soit X une série de valeurs de taille n, de moyenne x̄ et d’écart-type (s). La

Hammadi Achour (ISPT) Statistique 17 février 2020 20 / 30

5. Conclusion : | − 3.53| > 2.26 → La moyenne observée sur l’échantillon

Exemple. Calcul du test de Student avec R

x<-rnorm(15, mean=10.6, sd=2.3)# série aléatoire

Pour comparer les moyennes de deux séries appariées, on calcule la différence

m et s représentent la moyenne et l’écart-type de la différence d. n

Exemple. Calcul du test de Student avec R

par(mfrow=c(2,1))# découper la fenêtre graphique en 2 lignes et 1 colonne

Hammadi Achour (ISPT) Statistique 17 février 2020 25 / 30

Normal Q−Q Plot

−1.5 −1.0 −0.5 0.0 0.5 1.0 1.5

Normal Q−Q Plot

−1.5 −1.0 −0.5 0.0 0.5 1.0 1.5

Pour savoir si la différence est significative, il faut lire dans la table t, la

Exemple. Calcul du test de Student avec R

La variable mesurée diffère-t-elle entre les sexes dans cette espèce ?

105 110 115 120 mâle femelle

with(chac, tapply(mâch, plan, shapiro.test))

Hammadi Achour (ISPT) Statistique 17 février 2020 30 / 30

Vous aimerez peut-être aussi