Vous êtes sur la page 1sur 30

Notes de cours de statistique

Hammadi Achour

ISPT

17 février 2020

Hammadi Achour (ISPT) Statistique 17 février 2020 1 / 30


Table des matières

1 Propriétés de la loi normale

2 Les tests statistiques

Hammadi Achour (ISPT) Statistique 17 février 2020 2 / 30


La loi normale

Plan
1. Représentation graphique de la distribution d’une variable
continue
2. Densité de probabilité
3. La distribution normale
4. Propriétés d’une distribution normale
5. La loi normale centrée réduite

Prérequis
Variable quantitative continue
Graphique de représentation de données
Paramètres descriptifs d’une série (position, dispersion etc.)

Hammadi Achour (ISPT) Statistique 17 février 2020 3 / 30


Variable quantitative continue

Exemple introductif : une série statistique de taille (N=30) ;variable


mesurée : diamètre en cm.
rnorm(30, mean=30, sd=2)

34.0 32.7 31.4 31.9 30.2 34.4 30.2 31.6 33.7 31.5
32.1 35.8 31.4 30.3 35.4 30.9 34.8 34.7 35.1 34.7
29.4 34.6 34.7 30.7 29.1 32.8 34.9 34.9 36.7 32.4

Classe de diamètres (cm) ni fi (%)


27.5 - 29.2 3 10
29.2 - 30.8 6 20 Pour résumer une telle
30.8 - 32.5 12 40 distribution, il fallait
32.5 - 34.2 3 10 regrouper les valeurs en
34.2 - 35.9 6 20 classes (discrétisation).
Total 30 100

Hammadi Achour (ISPT) Statistique 17 février 2020 4 / 30


p(x) fréquence relative de chaque classe = surface d’un rectangle
Total de la surface de l’histogramme = 1
8

0.25
6

0.20
Fréquence (f )

Fréquence relative (px)


0.15
4

0.10

p(x)=0.17
2

0.05
0

0.00
26 28 30 32 34
0.25

26 28 30 32 34
x
x
densité de probabilité f(x)=p(x)/a
Densité de fréque,ce relative (f(x)

0.20

C P(X<a) la probabilité qu’un individu X présente une valeur <a


est mesurée par la surface A
P(X>b) la probabilité qu’un individu X présente une valeur >b
0.15

est mesurée par la surface B


P(a<X<b) la probabilité qu’un individu X préqsente une valeur
comprise entre a et b est mesurée par la surface C
0.10

la surface C
f(x)=0.17

A
B
0.05

P(a<X<b)
P(X<a) P(X>b)
a
0.00

26
a 28 30 32
b 34

Hammadi Achour (ISPT) Statistique 17 février 2020 5 / 30


Distribution normale

densité de probabilité de X

densité de probabilité de X

2.5% 2.5%

-2 sigma u 2 sigma X
95% des valeurs sont comprises entre
-2 sigma et +2 sigma
2.5% des valeurs sont >u +2sigma
50% 50% 2.5% des valeurs sint <u-2 sigma

u=moyenne X

Hammadi Achour (ISPT) Statistique 17 février 2020 6 / 30


Loi normale centrée-réduite

Exemple
Soit la série statistique X suivante : (14.1, 15.8, 17.5, 8.1, 16,2, 17.3). Le
centrage réduction de cette série consiste à calculer :
Xi − µ
Z=
σ
ce qui donne la série X’ suivante : (-0.87, 1.0, -0.3, 0.05, 1.3, -1.2) avec
ν = 0 et σ = 1

Hammadi Achour (ISPT) Statistique 17 février 2020 7 / 30


Propriétés de la distribution normale
centrée réduite Z

il y a une probabilté de 2.5%


que la valeur de Z est >2

2.5%
2.5%

-2 -1.96 -1 0 1 1.96 2

95% des valeurs de Z sont comprises entre -2 et +2

Loi normale centrée réduite : Z N(0,1)


la variable centrée réduite Z=(X-µ)/σ
courbe symétrique par rapport à Z=0
P(Z≤ 0)=P(Z>0)=0.5
P(-1≤Z≤1)=0.68
P(-1.96≤Z≤1.96)=0.95
Hammadi Achour (ISPT) Statistique 17 février 2020 8 / 30
La table de Z (α unilatéral)

Z 0.84 1.28 1.64 1.96 2.33 2.58 3.09 3.72


α 20% 10% 5% 2.5% 1% 0.5% 0.1% 0.01%

La probabilité que Z > 1.96 = 2.5%


La probabilité que Z > 3.72 = 0.01%
Plus les valeurs de Z sont élevées plus la probabilité de trouver une
valeur supérieure est faible.
La table de |Z| ( α bilatéral)

|Z| 0.84 1.28 1.64 1.96 2.33 2.58 3.09 3.72


α 40% 20% 10% 5% 2% 1% 0.2% 0.02%

La probabilité que la valeur absolue de Z > 1.96 = 5%


La probabilité que la valeur absolue de Z > 3.72 = 0.02%

Hammadi Achour (ISPT) Statistique 17 février 2020 9 / 30


Exemple
On suppose qu’une certaine variable X N (11, 2). Chercher P(X ≤
14) ?
X − 11
X=
2
On centre et on réduit
X − 11 14 − 11
P (X ≤ 14) = P ( ≤ )
2 2
= P(Z≤ 1.5)

Commandes R
pnorm(1.5, mean = 0, sd = 1, lower.tail = TRUE)
La probabilité que Z soit < à 1.5 = 0.9331928
pnorm(1.5, mean = 0, sd = 1, lower.tail = FALSE) La probabilité que
Z soit > à 1.5 = 0.0668072
2 * pnorm(1.5, lower.tail = FALSE)
La probabilité que la |Z| soit > à 1.65 = 0.1336144
Hammadi Achour (ISPT) Statistique 17 février 2020 10 / 30
Les tests statistiques

Plan
1. Principe des tests statistiques
Exemples introductifs
Étapes de formulation d’un test d’hypothèse
2. Comparaison de 2 moyennes (grands échantillons n ≥ 30)
Comparaison d’une moyenne observée à une moyenne théorique
Comparaison de deux moyennes / Échantillons indépendants
Comparaison de deux moyennes / Échantillons appariés

Hammadi Achour (ISPT) Statistique 17 février 2020 11 / 30


Exemples introductifs

Exemple 1. On souhaite tester l’effi-


cacité d’un nouveau traitement biolo-
gique par un rapport un traitement chi-
mique couramment utilisé, et ce pour
éradiquer la chenille processionnaire du
pin Thaumetopoea pityocampa .

On dispose d’un échantillon de 70 arbres divisé en 2 groupes :


Groupe A (35 individus) : nouveau traitement (biologique)
Groupe B (35 individus) : traitement classique (chimique)
3 mois plus tard, nous avons observé la guérison des arbres infectés :
Groupe A : 76 % de guérison
Groupe B : Groupe B : 62 % de guérison

Hammadi Achour (ISPT) Statistique 17 février 2020 12 / 30


Exemples introductifs

Le nouveau traitement est-il plus efficace que le traitement classique ?


D’un point de vue descriptif → OUI
Si on tire un autre échantillon, retrouve-t-on la même différence
d’efficacité ? (fluctuations d’échantillonnage)
Peut-on extrapoler cette différence d’efficacité à la population ?
Les tests statistiques permettent de fixer une règle de décision objective.

Hammadi Achour (ISPT) Statistique 17 février 2020 13 / 30


Exemples introductifs

Exemple 2. Un technicien forestier a mesuré


les hauteurs de 60 arbres par un dendromètre.
Pour vérifier la qualité de cette méthode, les
mêmes arbres ont été abattus et mesurés au
sol.
Méthode A : Arbres debouts :
dendroromètre
Méthode B : Arbres abattus : décamètre
ruban
Existe-t-il une différence significative de hauteur entre les arbres mesurés
debout ou après abattage ?

Hammadi Achour (ISPT) Statistique 17 février 2020 14 / 30


Étapes de formulation d’un test d’hypothèse

Les tests d’hypothèse, quels que soient leurs types, se formulent de la même
façon :
On se pose une question
Le nouveau traitement est-il plus efficace que le traitement
classique ?
On pose l’hypothèse nulle H0 et l’hypothèse alternative H1
H0 : Le traitement classique et le nouveau traitement ont la même
efficacité.
H1 : Les deux traitements ont des efficacités différentes.
On fixe un seuil de signification α à ne pas dépasser pour rejeter
l’hypothèse nulle (le risque standard est égal à 5%).

Hammadi Achour (ISPT) Statistique 17 février 2020 15 / 30


Étapes de formulation d’un test d’hypothèse

Apha = 5%

2.5% 2.5%
X
-1.96 0 1.96

Rejet de H0 Non rejet de H0 Rejet de H0

On collecte des données d’un échantillon que l’on suppose tiré au


hasard de la population étudiée.
On détermine la statistique de test et sa loi de probabilité.

Hammadi Achour (ISPT) Statistique 17 février 2020 16 / 30


Étapes de formulation d’un test d’hypothèse

On calcule la probabilité d’obtenir les écarts observées en utilisant


la loi suivie par la statistique de test. Cette probabilité est appelée
p-value (degré de signification).
On conclue au rejet ou non rejet de l’hypothèse nulle en fonction
du résultat de la comparaison de la valeur de la probabilité p-value
au risque seuil α :
Si p-value ≤ α on rejette H0 en faveur de H1.
S p-value > on accepte H0 et H1 sera rejetée.

Hammadi Achour (ISPT) Statistique 17 février 2020 17 / 30


Comparaison de 2 moyennes
Il existe trois types de tests pour comparer 2 moyennes :
Les tests de conformité. Comparaison d’une moyenne observée x̄ d’un
(échantillon) à une moyenne exacte ν d’une population de référence.
La moyenne x̄ est-elle conforme à la valeur ν ?
La différence entre x̄ et ν est significative sous l’hypothèse H0 : m=
ν
Les tests d’homogénéité. Comparaison d’une moyenne d’échantillon 1
(x¯1 ) avec celle d’un deuxième échantillon (x¯2 ). Les 2 échantillons sont
indépendants.
On se demande si les 2 moyennes observées proviennent de
populations caractérisées par des moyennes identiques.
La différence entre x¯1 et x¯2 est significative sous l’hypothèse H0 :
ν1= ν2.
Les tests sur une série appariée. Comparaison de 2 séries du même
échantillon.
La moyenne des différences d¯ des valeurs de 2 séries est
significativement différente de 0 sous H0 : νd =0.
Hammadi Achour (ISPT) Statistique 17 février 2020 18 / 30
Le test-t de Student

Le test T de student n’est applicable que si et seulement si la série de valeurs


X suit une loi normale ! X N (µ, σ)
Il existe plusieurs variants du test-t de Student :
1. Le test-t de Student pour échantillon unique (test de conformité).
2. Le test-t de Student comparant deux groupes d’échantillons dépendants
(on parle de test de Student apparié).
3. Le test-t de Student comparant deux groupes d’échantillons
indépendants (test d’homogénéité ; test de Student non apparié).

Hammadi Achour (ISPT) Statistique 17 février 2020 19 / 30


Test de Student pour échantillon unique

Soit X une série de valeurs de taille n, de moyenne x̄ et d’écart-type (s). La


comparaison de la moyenne observée x̄ à une valeur théorique µ est donnée par
par la formule :
x̄ − µ
t=
√s
n

Pour savoir si la différence est significative, il faut tout d’abord lire dans la
table t, la valeur critique correspondant au risque alpha = 5% pour un degré
de liberté : d.d.l = n − 1.
Si la valeur absolue de t (|t|) est > à la valeur critique W , alors la différence est
significative. Dans le cas contraire, elle ne l’est pas.

Hammadi Achour (ISPT) Statistique 17 février 2020 20 / 30


Test de Student pour échantillon unique
Exemple. Soit un échantillon de 10 arbres choisi au hasard d’une population
distribuée selon une loi normale de moyenne de diamètres : µ = 22.5 cm et
d’écart-type σ. La moyenne empirique des diamètres de l’échantillon x̄ = 15.8
cm et l’écart-type empirique s = 6 cm.
1. Choix des hypothèses
H0 : le diamètre moyen des arbres est identique à celui de la
population (H0 : x̄ = µ)
H1 : le diamètre moyen des arbres est différent à celui de la
population (H1 : x̄ 6= µ)
2. Choix du risque α=5%
3. Détermination de la région critique (W =2.26 ; lecture à partir de la
table t)
4. Calcul de T sur l’échantillon
x̄ − µ 15.8 − 22.5
t= s = 6 = −3.53
√ √
n 10

5. Conclusion : | − 3.53| > 2.26 → La moyenne observée sur l’échantillon


est significativement différente de la moyenne théorique.
Hammadi Achour (ISPT) Statistique 17 février 2020 21 / 30
Test de Student pour échantillon unique

Exemple. Calcul du test de Student avec R


Lancer R et générer une série aléatoire n=15, de moyenne x̄ = 10.6 et
d’écart-type s = 2.3.
Vérifier la normalité de cette série.
Vérifier si la moyenne x̄ de cette série est significativement différente de
µ = 8.9

x<-rnorm(15, mean=10.6, sd=2.3)# série aléatoire


qqnorm(x) # comparer la distribution d’un échantillon avec une distribution
normale.
shapiro.test(x) # test permettant de savoir si une série de données suit une
loi normale.
abline(mean(x),sd(x)),col=”red”)
t.test(x,mu=8.9)# test-t de Student
La p-value du test est de 0.01736. Ce qui est < à 0.05. On rejette l’hypothèse 0 et
on conclut que x̄ est significativement différent de µ avec une p-value = 0.01736.
Hammadi Achour (ISPT) Statistique 17 février 2020 22 / 30
Test de Student pour séries appariées

Pour comparer les moyennes de deux séries appariées, on calcule la différence


(d) des deux mesures pour chaque paire.
La moyenne de la différence d est comparée à la valeur 0. S’il y a une
différence significative entre les deux séries appariées, la moyenne de d
devrait être très éloignée de la valeur 0.
La valeur t de Student est donnée par :
m
t=
√s
n

m et s représentent la moyenne et l’écart-type de la différence d. n


est la taille de la série d.
Pour savoir si la différence est significative, il faut tout d’abord lire
dans la table t, la valeur critique correspondant au risque alpha =
5% pour un degré de liberté : d.d.l = n − 1.
Si la valeur absolue de t (|t|) est > à la valeur critique W , alors la différence est
significative. Dans le cas contraire, elle ne l’est pas.
Hammadi Achour (ISPT) Statistique 17 février 2020 23 / 30
Test de Student pour séries appariées

Exemple. Calcul du test de Student avec R


On a mesuré la hauteur (en m) de 12 arbres selon deux méthodes différentes
(dendromètre vs. décamètre ruban), avant et après la coupe de l’arbre.
Lancer R et saisir les mesures relatives à chaque méthode.
Vérifier graphiquement/statistiquement la normalité des mesures de
chaque méthode.
Vérifier si la différence entre les deux méthodes de mesure est significative.

debout 20.4 25.4 25.6 25.6 26.6 28.6 28.7 29.0 29.8 30.5 30.9
abattu 21.7 26.3 26.8 28.1 26.2 27.3 29.5 32.0 30.9 32.3 32.3

Solution
debout <- c(20.4,25.4,25.6,25.6,26.6,28.6,28.7,29.0,29.8,30.5,30.9)
abattu <- c(21.7,26.3,26.8,28.1,26.2,27.3,29.5,32.0,30.9,32.3,32.3)
shapiro.test(debout)# vérification de la normalité
W = 0.89693, p-value = 0.169 # p-value>0.05 ; distribution normale
shapiro.test(abattu)# vérification de la normalité
W = 0.91728, p-value = 0.2966 # p-value>0.05 ; distribution normale
Hammadi Achour (ISPT) Statistique 17 février 2020 24 / 30
Test de Student pour séries appariées

par(mfrow=c(2,1))# découper la fenêtre graphique en 2 lignes et 1 colonne


qqnorm(debout,pch=16,col=”blue”)# diagramme Quantile-Quantile permettant de
comparer la pertinence de l’ajustement de données à un modèle théorique gaussien.
qqline(debout,col=”red”,lwd=2)# droite de Henry ; dans le cas d’une distribution
normale les points sont alignés sur la droite.
legend(bottomright, legend=c(”debout”))#légende du graphique
qqnorm(abattu,pch=16,col=”blue”)
qqline(abattu,col=”red”,lwd=2)
legend(bottomright, legend=c(”abattu”))
t.test(debout, abattu, paired=TRUE)#test t sur une série appariée
t = -3.0973, df = 10, p-value = 0.0113 # | − 3.0973| > 2.228 | p-value<0.05 ;la
différence entre les deux méthodes est statistiquement significative.

Hammadi Achour (ISPT) Statistique 17 février 2020 25 / 30


Test de Student pour échantillons appariés

Normal Q−Q Plot


Sample Quantiles

28
24

debout
20

−1.5 −1.0 −0.5 0.0 0.5 1.0 1.5

Theoretical Quantiles

Normal Q−Q Plot


Sample Quantiles

30
26

abattu
22

−1.5 −1.0 −0.5 0.0 0.5 1.0 1.5


Hammadi Achour (ISPT) Statistique 17 février 2020 26 / 30
Test de Student pour échantillons indépendants
Soit A et B deux groupes différents à comparer.
Soit mA et mB la moyenne du groupe A et celui du groupe B,
respectivement.
La valeur t de Student est donnée par la formule suivante :
mA − mB
t= q
S2 S2
nA + nB

S 2 est la variance commune des 2 groupes. Elle est calculée par la formule
suivante :
(x − mA )2 + (x − mB )2
P P
2
S =
nA + nB − 2

Pour savoir si la différence est significative, il faut lire dans la table t, la


valeur critique correspondant au risque alpha = 5% pour un degré de
liberté : d.d.l = nA + nB − 2.
Si la valeur absolue de t (|t|) est > à la valeur critique W , alors la différence est
significative. Dans le cas contraire, elle ne l’est pas.
Hammadi Achour (ISPT) Statistique 17 février 2020 27 / 30
Test de Student pour échantillons indépendants

Exemple. Calcul du test de Student avec R


Des mesures sont effectuées sur la longueur de la mâchoire inférieure (en mm)
de 10 chacals mâles et 10 chacals femelles.
mâle 120 107 110 116 114 111 113 117 114 112
femelle 110 111 107 108 110 105 107 106 111 111

La variable mesurée diffère-t-elle entre les sexes dans cette espèce ?

Solution
mâle <- c(120, 107, 110, 116, 114, 111, 113, 117, 114, 112)
femelle <- c(110, 111, 107, 108, 110, 105, 107, 106, 111, 111)
On range les données dans le tableau chac et on ajoute une variable qualitative
binaire pour noter le sexe des individus.
mâch <- c(mâle, femelle)
chac <- data.frame(mâch)
chac$plan <- gl(n = 2, k = 10, lab = c(”mâle”, ”femelle”))
head(chac)
moy <- with(chac, tapply(mâch, plan, mean))
par(mfrow = c(1, 2))
Hammadi Achour (ISPT) Statistique 17 février 2020 28 / 30
Test de Student pour échantillons indépendants
with(chac, dotchart(mâch, groups = plan, gdata = moy, gpch = 19, xlab = ”Mâchoire
[mm]”))
boxplot(mâch∼plan, chac,col = c(”lightblue”, ”pink”), notch = TRUE, las = 1,ylab
= ”Mâchoire [mm]”)

mâle 120

115

Mâchoire [mm]
femelle

110

105

105 110 115 120 mâle femelle

Mâchoire [mm]

On constate que la mâchoire des mâles est en moyenne plus longue que celle des
femelles. Les encoches des boites à moustaches nous indiquent que l’on est à la limite
de la significativité. Un test d’hypothèse serait le bienvenu.
Hammadi Achour (ISPT) Statistique 17 février 2020 29 / 30
Test de Student pour échantillons indépendants

with(chac, tapply(mâch, plan, shapiro.test))


W = 0.88085, p-value = 0.1335 ; p-value>0.05 ; on accepte l’hypothèse de normalité.
var.test(mâch∼ plan, data = chac)
p-value = 0.1579 ; p-value>0.05 ; on accepte l’hypothèse nulle d’égalité des variances
t.test(mâch∼plan, var.equal = TRUE, data = chac)
p-value = 0.002647
Conclusion : La longueur de la mâchoire inférieure des chacals diffère selon le sexe
puisque p-value<0.05.

Hammadi Achour (ISPT) Statistique 17 février 2020 30 / 30

Vous aimerez peut-être aussi