Académique Documents
Professionnel Documents
Culture Documents
Master SNV
Graiche Farid
Dans le cas continu, les xi sont les centres des classes (intervalles) qu’on peut noter ci .
On a deux type de paramètres, de position et de dispersion.
Paramètres de position
1
Cours de Biostatistique pour Licence et Master SNV Graiche Farid
Remarque : Le centre de la classe modale peut constituer une valeur approchée du mode.
La médiane : C’est la valeur du caractère qui partage la série en deux parties de même
effectif et elle est notée M e.
Dans le cas continu, on cherche d’abord la classe médiane et le centre de cette classe
médiane peut constituer une valeur approchée de la médiane.
2
Cours de Biostatistique pour Licence et Master SNV Graiche Farid
Paramètres de dispersion
La variance : Elle est notée V (X).
N
xi 2
P
x1 2 + x2 2 + ... + xN 2 i=1
V (X) = [ ] − x̄2 = − x̄2
N N
Si les xi se repètent ni fois, on a
k
ni xi 2
P
n1 x1 2 + n2 x2 2 + ... + nk xk 2 i=1
V (X) = [ ] − x̄2 = − x̄2
N N
L’écart-type : C’est la racine carrée de la variance.
p
σX = V (X)
3
Cours de Biostatistique pour Licence et Master SNV Graiche Farid
4
Cours de Biostatistique pour Licence et Master SNV Graiche Farid
Remarques :
1- −1 ≤ r ≤ 1.
2- Si r est proche de 1 ou −1, on dit qu’il y a une corrélation (liaison) linéaire forte entre
X et Y .
3- Si r est proche de 0, on dit qu’il y a abscence de corrélation linéaire entre X et Y (mais
on peut avoir un autre type de liaison entre X et Y ).
5
Chapitre 2
Lois de probabilité
2.1 Définitions
Une expérience aléatoire est une expérience dont le résultat n’est pas prévisible à
l’avance.
Une variable aléatoire est une application de l’ensemble fendamental Ω (ensemble de toutes
les possibilités d’une expérience aléatoire) dans un ensemble E de R.
X : Ω −→ E = X(Ω)
E est l’ensemble des valeurs de X.
On a X
E(X 2 ) = x2i P (X = xi )
xi ∈E
Exemple : On jette deux fois une pièce de monaie et on s’intéresse au nombre de piles
obtenus.
On note X le nombre de piles obtenus.
6
Cours de Biostatistique pour Licence et Master SNV Graiche Farid
Ω = {(p, p), (p, F ), (F, p), (F, F )} (p=pile et F =face) et E = {0, 1, 2}.
P (X = 0) = P (F, F ) = 12 × 12 = 41 .
P (X = 1) = P {(F, p), (p, F )} = 12 × 12 + 21 × 12 = 12 .
P (X = 2) = P (F, F ) = 12 × 12 = 41 .
La loi de X est donnée par
x 0 1 2 Total
1 1 1
P (X = x) 4 2 4
1
E(X) = PxP (X = x) = 0 × 14 + 1 × 21 + 2 × 41 = 1
P
E(X 2 ) = x2 P (X = x) = 02 × 14 + 12 × 12 + 22 × 14 = 23 .
V (X) = E(X 2 ) − [E(X)]2 = 32 − 1 = 21 .
où
n!
Cnx = .
x!(n − x)!
Exemple : On jette 20 fois une pièce de monnaie. On s’intéresse à la probabilité d’avoir 5
fois pile.
On note X le nombre de ”piles” obtenus.
On a X ∼ B(20, p), où p = P (avoir pile) = 12 .
La loi de X est
x 1 x 1 20−x
P (X = x) = C20 ( ) (1 − ) , x ∈ {0, 1, 2, 3, ..., 20}
2 2
La probabilité d’avoir 5 fois pile est
15
5 1 5 1 5 1 20
P (X = 5) = C20 ( ) ( ) = C20 ( ) = 0.015
2 2 2
7
Cours de Biostatistique pour Licence et Master SNV Graiche Farid
R +∞
2- −∞
f (x)dx = 1
Remarques :
1- Si X est une variable aléatoire continue, alors pour
R a tout a, on a P (X = a) = 0 et on
calcule souvent P (X ≤ a) = FX (x) par P (X ≤ a) = −∞ f (x)dx.
1 1 x−m 2
f (x) = √ exp{− ( ) }, x ∈ R.
σ 2π 2 σ
b- Loi normale centrée et réduite N (0, 1) :
La fonction de densité est donnée par
1 1
f (x) = √ exp{− x2 }, x ∈ R.
2π 2
8
Cours de Biostatistique pour Licence et Master SNV Graiche Farid
Remarques :
1- La loi N (0, 1) est une loi tabulée c.a.d. on a une table qui donne les probabilités du type
P (X ≤ a) contrairement à la loi normale N (m, σ).
2- Si X ∼ N (m, σ), alors X−m σ
∼ N (0, 1).
Exemple : Soit X une variable aléatoire suivant la loi normale N (2, 3). On veut cal-
culer P (X ≤ 8).
Puisque X ∼ N (2, 3), alors X−2
3
∼ N (0, 1).
P (X ≤ 8) = P ( X−2
3
≤ 8−2
3
) = P (N (0, 1) ≤ 2) = 0.9772 en lisant dans la table de la loi
normale N (0, 1).
9
Chapitre 3
Estimation
Soit X une variable alétoire dont la loi possède un ou plusieurs paramètres inconnus.
A partir d’un échantillon, on peut estimer ces paramètres inconnus de deux façons : esti-
mation ponctuelle et par intervalles de confiance.
10
Cours de Biostatistique pour Licence et Master SNV Graiche Farid
Exercice : Soit un échantillon de 10 femmes ayant les taux de cholestérol (en g/l) sui-
vants :
3, 1.8, 2.1, 2.7, 1.4, 1.9, 2.2, 2.5, 1.7, 2
Donner un IDC pour le taux de cholestérol moyen au niveau 95%.
11
Cours de Biostatistique pour Licence et Master SNV Graiche Farid
12
Cours de Biostatistique pour Licence et Master SNV Graiche Farid
13
Chapitre 4
4.1 Définitions
Un test statistique est une méthode permettant de prendre une décision à partir d’infor-
mation fournie par un échantillon sur deux hypothèses notées H0 et H1 avec un risque
d’erreur fixé.
H0 est dite hypothèse nulle et H1 hypothèse alternative ou contraire.
H0 et H1 s’excluent mutuellement c.a.d. si H0 est rejetée alors H1 est acceptée et inverse-
ment.
La décision prise dépend donc de l’échantillon. Ainsi qu’elle soit décision prise, on court
deux sortes de risques :
Le risque de première espèce α = P (rejeter H0 /H0 est vraie) qui est dit seuil de significa-
tion.
Le risque de deuxième espèce β = P (accepter H0 /H0 est fausse).
Les étapes à suivre dans un test statistique sont :
1- Définir les hypothèses H0 et H1 .
2- Choisir une statistique de test notée Tn ou Zn .
3- Définir la loi de Tn sous H0 .
4- Ecrire la région critique du test (région ou H0 est rejetée).
5- Calculer pour un échantillon donné la valeur de Tn qu’on notera Tobs et une valeur seuil
lue à partir de la table de loi de Tn sous H0 .
6- Comparer la valeur Tobs avec la valeur seuil et prendre une décision à partir de la région
critique.
On a deux types de tests : paramètriques (la statistique du test dépend d’un paramètre)
et non paramètriques (la statistique du test ne dépend pas d’un paramètre).
14
Cours de Biostatistique pour Licence et Master SNV Graiche Farid
15
Cours de Biostatistique pour Licence et Master SNV Graiche Farid
(ou bien il n’y a pas de différence significative entre la moyenne de l’échantillon et celle de
la population).
Exercice : La glycémie d’une population suit une loi normale de moyenne 1 g/l et d’écart-
type 0.1 g/l. On relève les glycémie chez 9 personnes et on trouve une moyenne de 1.12
g/l. Cet échantillon est-il représentatif de la population ?
16
Cours de Biostatistique pour Licence et Master SNV Graiche Farid
17
Cours de Biostatistique pour Licence et Master SNV Graiche Farid
S1∗ 2
Fobs = , avec S1∗ 2 > S2∗ 2
S2∗ 2
S∗2
Si S2∗ 2 > S1∗ 2 , alors Fobs = S2∗ 2 .
1
La valeur seuil Fα est lue de la table de Fisher-Snedecor à (n1 − 1, n2 − 1) degrès de liberté.
Si Fobs > Fα , on rejette H0 et on dit que les deux échantillons proviennent de deux popu-
lations ayant différentes variances.
Si Fobs ≤ Fα , on accepte H0 et on dit que les deux échantillons proviennent de deux popu-
lations ayant la même variance.
Exercice : Dans une étude en biologie, on mesure la longueur (en mm) des spécimens
mâles et femelles de poissons adultes appartenant à la même espèce. On obtient :
Mâles : 120-107-110-116-114-111-113-117-114-112
Femelles : 110-111-107-108-110-105-107-106-111-111
Les deux populations ont-elles des variabilités différentes au risque 5% ?
18
Cours de Biostatistique pour Licence et Master SNV Graiche Farid
On calcule
x̄1 − x̄2
Tobs = q
σˆ2 ( n11 + n12 )
n S12 +n2 S22
σˆ2 = n1 1 +n2 −2
est l’estimateur de σ 2 .
La valeur seuil tα est lue dans la table de la loi de Student à n1 + n2 − 2 degrès de liberté.
Si |Tobs | > tα , alors on rejette H0 au risque α et on dit que les deux échantillons proviennent
de deux populations de différentes moyennes m1 et m2 .
Si |Tobs | ≤ tα , alors on accepte H0 au risque α et on dit que les deux échantillons pro-
viennent de deux populations de même moyenne.
La valeur seuil zα est lue dans la table de la loi normale N (0, 1).
Si |Tobs | > zα , alors on rejette H0 au risque α et on dit que les deux échantillons proviennent
de deux populations de différentes moyennes m1 et m2 .
Si |Tobs | ≤ zα , alors on accepte H0 au risque α et on dit que les deux échantillons pro-
viennent de deux populations de même moyenne.
19
Cours de Biostatistique pour Licence et Master SNV Graiche Farid
Exercice : Vérifier dans l’Exercice précédent si la longueur moyenne des spécimens diffère
entre les deux sexes de cette espèce au risque 5%.
La valeur seuil tα est lue dans la table de la loi de Student à n − 1 degrès de liberté.
Si |Tobs | > tα , alors on rejette H0 au risque α et on dit qu’il y a une différence significative
entre les deux moyennes.
Si |Tobs | ≤ tα , alors on accepte H0 au risque α et on dit qu’il n’y a pas de différence signi-
ficative entre les deux moyennes.
Condition d’application : Pour appliquer ce test, on doit avoir la normalité de la va-
riable X1 − X2 .
Exercice : Un médecin mesure la tension de 9 patients volontaires le matin et le soir. Les
résultats en centimètres de mercure sont :
Matin 13.12 13.54 15.12 14.51 12.12 13.10 13.98 11.21 14.44
Soir 13.92 13.89 14.51 14.78 10.97 13.58 14.52 11.54 13.54
Peut-on affirmer, au risque 5%, qu’en moyenne la tension du soir est différente de celle du
matin ?
20
Cours de Biostatistique pour Licence et Master SNV Graiche Farid
On calcule
| nk11 − k2
n2
|
Tobs = q
p̂q̂( n11 + 1
n2
)
k1 et k2 sont respectivement le nombre d’individus possédant la modalité A dans le premier
et le deuxième échantillon, p̂ = nk11 +k
+n2
2
et q̂ = 1 − p̂
La valeur seuil zα est lue dans la table de la loi normale N (0, 1).
Si |Tobs | > zα , alors on rejette H0 au risque α et on dit que les deux échantillons proviennent
de deux populations de différentes proportions p1 et p2 (ou bien il y a une différence
significative entre les deux proportions).
Si |Tobs | ≤ zα , alors on accepte H0 au risque α et on dit que les deux échantillons proviennent
de deux populations de même proportion (ou bien il n’y a pas de différence significative
entre les deux proportions).
Conditions d’application : n1 p̂ > 5, n1 q̂ > 5, n2 p̂ > 5 et n2 q̂ > 5.
Exercice : Dans la même catégorie sociale, un échantillon de 40 hommes a fourni 8 fumeurs
et un échantillon de 60 femmes 18 fumeuses. On se demande s’il y a autant de fumeurs
chez les hommes que chez les femmes au risque 5%.
21
Cours de Biostatistique pour Licence et Master SNV Graiche Farid
Si |Tobs | > tα , on rejette H0 et on dit que X et Y sont liés (ou bien la liaison est si-
gnificative).
Si |Tobs | ≤ tα , on accepte H0 et on dit que X et Y ne sont pas liés (ou bien la liaison n’est
pas significative).
Conditions d’application
X et Y sont normalement distribuées ou n > 30 et X et Y sont continues.
Exercice : Pour 10 enfants, on donne la pointure des chaussures (X) et le quotient intel-
lectuel (Y).
xi 31 31 32 33 33 34 35 36 37 38
yi 50 55 52 56 63 65 69 90 110 150
Y a-t-il une liaison significative entre la longueur du pied et l’intelligence au risque 5% ?
Remarques :
1- Pour les tests paramétriques, on appelle :
Z-tests ou Tests de l’écart-réduit : Les tests pour lesquels la statistique suit une loi
normale centrée et réduite N (0, 1).
Tests de Student : Les tests pour lesquels la statistique suit une loi de Student.
Tests de Fisher : Les tests pour lesquels la statistique suit une loi de Fisher.
2- Si le test est unilatéral à droite (on remplace 6= par > dans l’hypothèse H1 ), on re-
jette H0 si Tobs > kα , où kα est la valeur seuil donnée par P (Tobs < kα ) = 1 − α.
3- Si le test est unilatéral à gauche (on remplace 6= par < dans l’hypothèse H1 ), on rejette
H0 si Tobs < kα , où kα est la valeur seuil donné par P (Tobs < kα ) = α.
22
Cours de Biostatistique pour Licence et Master SNV Graiche Farid
23
Cours de Biostatistique pour Licence et Master SNV Graiche Farid
ni. × n.j
n0ij =
N
Le χ2 observé est donné par
X X (nij − n0ij )2
χ2obs =
i j
n0ij
La valeur seuil χα est lue dans la table de khi-deux à (k − 1)(l − 1) degrès de liberté.
Si χ2obs > χα , on rejette H0 et on dit que X et Y sont liés.
Si χ2obs ≤ χα , on accepte H0 et on dit que X et Y sont indépendants.
Remarque : Ce test est applicable si N > 50 et tous les n0ij > 5, sinon on procède à
un regroupement en lignes ou en colonnes.
Exercice : On veut étudier la liaison entre les caractères ”être fumeur” (plus de 20 ciga-
rettes par jour pendant 10 ans) et ”avoir un cancer de gorge” sur une population de 1000
personnes dont 500 sont atteints. on a le tableau suivant
Faire un test d’indépendance pour établir la liaison entre ces deux caractères au seuil
α = 0.05.
Tests d’ajustement de khi-deux
On cherche à vérifier au risque α si les valeurs x1 , x2 , ..., xn dont on dispose proviennent
d’une population distribuée selon une loi particulière F (x, θ).
On teste au seuil α
H0 : X suit la loi F (x, θ) contre H1 : X ne suit pas la loi F (x, θ).
24
Cours de Biostatistique pour Licence et Master SNV Graiche Farid
On range les valeurs ou les classes dans un tableau dont la forme est
Es ce que la distribution du nombre de garçons observés suit une loi binomiale B(2, 12 ) ?
Approche graphique
1- Histogramme des fréquences : On va représenter les données à l’aide d’un histo-
gramme pour voir si elles semblent s’ajuster selon une distribution normale.
25
Cours de Biostatistique pour Licence et Master SNV Graiche Farid
P (N (0, 1) ≤ ti ) = Fi
Si les données sont normales, alors les points (xi , ti ) seront alignés.
Exemple précédent : On écrit avec le logiciel R :
qqnorm(x,datax=TRUE,main=”x”)
qqline(x,datax=TRUE)
On obtient le graphe suivant
26
Cours de Biostatistique pour Licence et Master SNV Graiche Farid
Tests statistiques
Test de Shapiro-Wilk (n ≤ 50) : Soit x1 , x2 , ..., xk un échantillon de la variable aléatoire
considérée. On veut tester au seuil α
H0 : Les données sont issues d’une loi normale
contre
H1 : Les données ne sont pas issues d’une loi normale.
On calcule la statistique du test notée W à partir de l’échantillon et on cherche la valeur
seuil wα à partir d’une table.
Si W ≤ wα , on rejette H0 sinon on l’accepte.
Avec logiciel R : on aura la p-value (PH0 (W ≤ wα )) en écrivant
shapiro.test(x)$p.value
Si p-value< α, on rejette H0 c’est à dire on n’a pas la normalité des données.
Si p-value≥ α, on accepte H0 c’est à dire on a la normalité des données.
Exemple précédent :
La p-value= 0.751598 > 0.05, donc on accepte la normalité des données.
Test de Kolmogorov-Smirnov (n > 50) : On mesure l’écart maximum entre la fonction
de répartition observée (ou des fréquences relatives cumulées) et la fonction de répartition
théorique et on obtient la statistique D = max|Fobs − Ftheo | et on lit la valeur seuil dα dans
une table.
Si D > dα , on rejette H0 sinon on l’accepte.
Avec logiciel R : On aura la p-value en écrivant
ks.test(x)$p.value
Si p-value< α, on rejette H0 c’est à dire on n’a pas la normalité des données.
Si p-value≥ α, on accepte H0 c’est à dire on a la normalité des données.
27
Chapitre 5
5.1 introduction
L’ANOVA est une technique statistique qui vise à comparer des moyennes sur plusieurs
échantillons en testant l’effet d’un facteur qualitatif A sur une variable quantitative X.
On suppose que les échantillons sont indépendants et l’ensemble des individus est réparti
au hasard entre les p modalités du facteur A.
On suppose aussi que les échantillons sont issus d’une loi normale N (µ, σ) (à vérifier avec
un test de normalité) et ont la même variance (hypothèse d’homoscédasticité qu’on peut
utiser le test de Bartlett pour le vérifier).
Remarques :
1- Si la normalité n’est pas vérifiée, on peut transformer la variable comme suit
28
Cours de Biostatistique pour Licence et Master SNV Graiche Farid
29
Cours de Biostatistique pour Licence et Master SNV Graiche Farid
Sorte de variation Somme des carrées Degrés de liberté Carrée moyen Test de Fisher
Inter groupe SCE p−1 CM E = SCEp−1
Intra groupe SCR n−p CM R = SCRn−p
CM E
Total SCT n−1 Fobs = CM R
30
Cours de Biostatistique pour Licence et Master SNV Graiche Farid
Examinateur A B C
Notes 10 8 10
11 11 13
11 11 14
12 13 14
13 14 15
15 15 16
16 16
16
On veut savoir au risque 5% si le facteur ”examinateur” a un effet sur la moyenne des
notes des étudiants. Pour cela, on teste au seuil α = 0.05
H0 : Le facteur n’a pas d’effet sur la moyenne des notes (mA = mB = mC = m)
contre
H1 : Le facteur a un effet sur la moyenne des notes (mA 6= mB ou mA 6= mC ou mB 6= mC ).
Par calcul :
on aura x̄A = 12, x̄B = 13, x̄C = 14, x̄ = 13.047, CM E = 6.48 et CM R = 5.44.
CM E 6.48
Fobs = = = 1.19
CM R 5.44
La valeur seuil lue dans la table de Fisher-Snedecor à (2, 18) degrés de liberté est Fα = 3.55.
Fobs < Fα , donc on accepte H0 ce qui implique que le facteur ”examinateur” n’a pas d’effet
sur la moyenne des notes des étudiants.
Avec logiciel R :
On écrit
A = c(10, 11, 11, 12, 13, 15)
B = c(8, 11, 11, 13, 14, 15, 16, 16)
C = c(10, 13, 14, 14, 15, 16, 16)
On vérifie d’abord la normalité des 3 échantillons en utilisant le test de Shapiro-Wilk en
écrivant
x=c(A,B,C)
group=factor(c(rep(”A”,6),rep(”B”,8),rep(”C”,7)))
tapply(x,group,shapiro.test)
31
Cours de Biostatistique pour Licence et Master SNV Graiche Farid
Affichage
A
Shapiro-Wilk normality test
data : X[[1L]]
W = 0.9334, p-value = 0.6067
B
Shapiro-Wilk normality test
data : X[[2L]]
W = 0.9203, p-value = 0.4323
C
Shapiro-Wilk normality test
data : X[[3L]]
W = 0.882, p-value = 0.2356
Les trois p-values sont supérieures à 0.05, donc on admet l’hypothèse de normalité des
3 échantillons.
On vérifie ensuite l’homoscédasticité avec le test de Bartlett en écrivant
bartlett.test(x,group)$pvalue
Affichage
0.5382
La p-value est supérieure à 0.05, donc on ne peut pas rejeter au seuil 0.05 l’égalité des
variances (homoscédasticité).
32
Cours de Biostatistique pour Licence et Master SNV Graiche Farid
Af f ichage
df SC CM F value
group 2 12.95 6.4762 1.1895 0.3272
residual 18 98 5.4444
On a la p-value = 0.5382 > 0.05, donc on ne peut pas rejeter au seuil 5% l’hypothèse
H0 , ce qui implique que le facteur ”examinateur” n’a pas d’effet sur la moyenne des notes
des étudiants.
Remarque : F value est la valeur de la statistique du test.
33
Table de lois usuelles
34
Cours de Biostatistique pour Licence et Master SNV Graiche Farid
Table de Student
35
Cours de Biostatistique pour Licence et Master SNV Graiche Farid
Table de khi-deux
36
Cours de Biostatistique pour Licence et Master SNV Graiche Farid
Table de Fisher-Snedecor
37
Références
[1] Graiche F., Biostatistique, cours, applications, exercices corrigés et examens corrigés,
éditions pages bleues, 2019.
38