Vous êtes sur la page 1sur 39

Cours de Biostatistique pour Licence et

Master SNV

Graiche Farid

Université Mouloud Mammeri de Tizi Ouzou

Année universitaire : 2019/2020


Chapitre 1

Rappels de Statistique Descriptive

1.1 Statistique descriptive à une dimension


Définitions
La population est l’ensemble des individus sur lesquel on fait l’étude statistique.
Une partie de la population est dite ´´echantillon.
Le caractère est l’objet de l’étude statistique.
Un caractère est dit qualitatif s’il n’est pas mesurable.
Exemple : Couleur des yeux, sexe, groupe sanguin...
Un caractère est dit quantitatif s’il est mesurable.
Exemple : Nombre d’enfants, age, taille, taux de glycémie,...
On a deux types de caractères quantitatifs :
Quantitatif discret ou discontinu : S’il ne peut prendre que des valeurs isolées dans
son domaine de variation.
Exemple : Nombre d’enfants d’une famille, nombre de pièces d’un logement,...
Quantitatif continu : S’il peut prendre toutes les valeurs de son domaine de variation.
Exemple : Age, poids, taille,...
Caractéristiques numériques Soit x1 , x2 , ..., xk les différentes valeurs d’un caractère
quantitatif X étudié sur une population (ou échantillon) de taille N .

Dans le cas continu, les xi sont les centres des classes (intervalles) qu’on peut noter ci .
On a deux type de paramètres, de position et de dispersion.

Paramètres de position

Le mode : C’est la valeur du caractère la plus répétée et elle est notée M o


Dns le cas discret, le mode est la valeur du caractère qui a le plus grand effectif partiel.
Dans le cas continue, on cherche d’abord la classe modale puis on calcule le mode comme
suit
∆1
M o = x m + am
∆1 + ∆2

1
Cours de Biostatistique pour Licence et Master SNV Graiche Farid

xm est la limite inférieur de la classe modale et son amplitude.


∆1 est la différence entre l’effectif de la classe modale et celle d’avant.
∆2 est la différence entre l’effectif de la classe modale et celle d’après.

Remarque : Le centre de la classe modale peut constituer une valeur approchée du mode.

La médiane : C’est la valeur du caractère qui partage la série en deux parties de même
effectif et elle est notée M e.
Dans le cas continu, on cherche d’abord la classe médiane et le centre de cette classe
médiane peut constituer une valeur approchée de la médiane.

Généralisation : Les 3 quartiles Q1 , Q2 = M e et Q3 partagent la série en 4 parties


de même effectif. Q1 , Q2 et Q3 correspondent respectivement à 25%, 50% et 75% des ob-
servations.

La moyenne arithmétique : elle est notée x̄.


N
P
xi
x1 + x2 + ... + xN i=1
x̄ = =
N N
Si les xi se repètent ni fois, on a
k
P
n i xi
n1 x1 + n2 x2 + ... + nk xk i=1
x̄ = =
N N

Relation entre les paramètres de position :


Si x̄ = M e = M o, on dit que la distribution est symetrique.
Si x̄ < M e < M o, on dit que la distribution est étalée à gauche.
Si x̄ > M e > M o, on dit que la distribution est étalée à droite.

2
Cours de Biostatistique pour Licence et Master SNV Graiche Farid

Paramètres de dispersion
La variance : Elle est notée V (X).
N
xi 2
P
x1 2 + x2 2 + ... + xN 2 i=1
V (X) = [ ] − x̄2 = − x̄2
N N
Si les xi se repètent ni fois, on a
k
ni xi 2
P
n1 x1 2 + n2 x2 2 + ... + nk xk 2 i=1
V (X) = [ ] − x̄2 = − x̄2
N N
L’écart-type : C’est la racine carrée de la variance.
p
σX = V (X)

1.2 Statistique descriptive à deux dimensions (Deux


caractères)
Soient X et Y deux caractères quantitatifs étudiés sur la même population de taille N . On
veut savoir s’il y a une liaison entre X et Y .
Pour chaque individu de la population, on aura un couple de valeurs (xi , yi ) et pour l’en-
semble des individus on aura le tableau suivant :
X x1 x2 . . xN
Y y1 y2 . . yN

1.2.1 Représentation graphique


Chaque couple est représenté dans le plan par un point et l’ensemble de tous les points
est dit nuage de points.

3
Cours de Biostatistique pour Licence et Master SNV Graiche Farid

1.2.2 Moyennes et variances marginales


Les moyennes marginales de X et Y sont données par
N
P N
P
xi yi
i=1 i=1
x̄ = , ȳ =
N N
On peut calculer aussi les variances marginales de X et Y Par
N N
xi 2 yi 2
P P
i=1 i=1
V (X) = − x̄2 , V (Y ) = − ȳ 2
N N

1.2.3 Covariance et coéfficient de corrélation linéaire


La covariance de (X, Y ) est calculée par
k
P
xi y i
x1 y1 + x1 y2 + x1 y3 ... + xN yN i=1
Cov(X, Y ) = − x̄ȳ = − x̄ȳ
N N
Le coefficient de correlation linéaire est donné par
Cov(X, Y )
r=
σX σY
Exercice : Sur un échantillon de 6 sujets d’âges différents, on a recueilli les données
suivantes : Age (X) en années et concentration de cholestérol dans le sang (Y) en g/L.
xi 30 60 40 20 50 30
yi 1.6 2.5 2.2 1.4 2.7 1.8

4
Cours de Biostatistique pour Licence et Master SNV Graiche Farid

Calculer le coéfficient de corrélation linéaire.

Remarques :
1- −1 ≤ r ≤ 1.
2- Si r est proche de 1 ou −1, on dit qu’il y a une corrélation (liaison) linéaire forte entre
X et Y .
3- Si r est proche de 0, on dit qu’il y a abscence de corrélation linéaire entre X et Y (mais
on peut avoir un autre type de liaison entre X et Y ).

1.2.4 Droite de régression


Si une liaison linéaire entre X et Y est établie, on cherche l’équation de la droite qui lie X
à Y .
L’équation de la droite de régression de Y en X donnée par la méthode des moindres
carrées est
Dy/x : Y = âX + b̂.
Cov(X,Y )
â = V (X)
et b̂ = ȳ − âx̄.

Exercice : Pour l’Exercice précédent, donner la droite de régression de Y en X.

5
Chapitre 2

Lois de probabilité

2.1 Définitions
Une expérience aléatoire est une expérience dont le résultat n’est pas prévisible à
l’avance.
Une variable aléatoire est une application de l’ensemble fendamental Ω (ensemble de toutes
les possibilités d’une expérience aléatoire) dans un ensemble E de R.

X : Ω −→ E = X(Ω)
E est l’ensemble des valeurs de X.

2.2 variable aléatoire discrète


Si E est discontinu (un ensemble fini ou infini), on dit que la v.a. X est discontinue ou
discrète.
La loi d’une variable discrète X est donnée par les couples (xi , P (X = xi )).
L’esperence d’une variable discrète X est donnée par
X
E(X) = xi P (X = xi )
xi ∈E

On a X
E(X 2 ) = x2i P (X = xi )
xi ∈E

La variance de X est donnée par

V (X) = E(X 2 ) − [E(X)]2 .

Exemple : On jette deux fois une pièce de monaie et on s’intéresse au nombre de piles
obtenus.
On note X le nombre de piles obtenus.

6
Cours de Biostatistique pour Licence et Master SNV Graiche Farid

Ω = {(p, p), (p, F ), (F, p), (F, F )} (p=pile et F =face) et E = {0, 1, 2}.
P (X = 0) = P (F, F ) = 12 × 12 = 41 .
P (X = 1) = P {(F, p), (p, F )} = 12 × 12 + 21 × 12 = 12 .
P (X = 2) = P (F, F ) = 12 × 12 = 41 .
La loi de X est donnée par

x 0 1 2 Total
1 1 1
P (X = x) 4 2 4
1

E(X) = PxP (X = x) = 0 × 14 + 1 × 21 + 2 × 41 = 1
P
E(X 2 ) = x2 P (X = x) = 02 × 14 + 12 × 12 + 22 × 14 = 23 .
V (X) = E(X 2 ) − [E(X)]2 = 32 − 1 = 21 .

Exemple de lois discrètes :


Loi binomiale B(n, p) : On repète n fois une expérience alétoire et on note X le nombre
de fois qu’un événement A fixé se réalise.
On écrit X ∼ B(n, p), où p est la probabilité que l’événement A se réalise.

La loi de X est donnée par

P (X = x) = Cnx px (1 − P )n−x , x ∈ {0, 1, 2, 3, ..., n},

où
n!
Cnx = .
x!(n − x)!
Exemple : On jette 20 fois une pièce de monnaie. On s’intéresse à la probabilité d’avoir 5
fois pile.
On note X le nombre de ”piles” obtenus.
On a X ∼ B(20, p), où p = P (avoir pile) = 12 .
La loi de X est

x 1 x 1 20−x
P (X = x) = C20 ( ) (1 − ) , x ∈ {0, 1, 2, 3, ..., 20}
2 2
La probabilité d’avoir 5 fois pile est
15
5 1 5 1 5 1 20
P (X = 5) = C20 ( ) ( ) = C20 ( ) = 0.015
2 2 2

2.3 variable aléatoire continue


Si E est l’ensemble R ou un intervalle de R, on dit que la v.a. est continue.
La loi de X est donnée par une fonction dite fonction de densité de probabilité notée f
vérifiant :
1- f est positive sur E.

7
Cours de Biostatistique pour Licence et Master SNV Graiche Farid

R +∞
2- −∞
f (x)dx = 1

Remarques :
1- Si X est une variable aléatoire continue, alors pour
R a tout a, on a P (X = a) = 0 et on
calcule souvent P (X ≤ a) = FX (x) par P (X ≤ a) = −∞ f (x)dx.

2- P (a ≤ X ≤ b) = P (X ≤ b) − P (X ≤ a) = FX (b) − FX (a), pout tout a < b.

L’esperence d’une variable continue X est donnée par


Z +∞
E(X) = xf (x)dx
−∞
Z +∞
E(X 2 ) = x2 f (x)dx
−∞
La variance de X est donnée par
Z +∞ Z +∞
2 2 2
V (X) = E(X ) − [E(X)] = x f (x)dx − [ xf (x)dx]2 .
−∞ −∞
1
Exemple : Soit X une v.a. continue de densité f (x) = 2
si x ∈ [0, 2] et f (x) = 0 sinon.
R +∞ R2
E(X) = −∞ xf (x)dx = 0 21 xdx = 12 [ 12 x2 ]20 = 1
R +∞ R2
E(X 2 ) = −∞ x2 f (x)dx = 0 21 x2 dx = 12 [ 13 x3 ]20 = 68 .
V (X) = E(X 2 ) − [E(X)]2 = 68 − 1 = 62 .

Exemples de lois continues :


a- Loi normale N (m, σ),m ∈ R, σ ≥ 0 :
La fonction de densité est donnée par

1 1 x−m 2
f (x) = √ exp{− ( ) }, x ∈ R.
σ 2π 2 σ
b- Loi normale centrée et réduite N (0, 1) :
La fonction de densité est donnée par
1 1
f (x) = √ exp{− x2 }, x ∈ R.
2π 2

8
Cours de Biostatistique pour Licence et Master SNV Graiche Farid

Remarques :
1- La loi N (0, 1) est une loi tabulée c.a.d. on a une table qui donne les probabilités du type
P (X ≤ a) contrairement à la loi normale N (m, σ).
2- Si X ∼ N (m, σ), alors X−m σ
∼ N (0, 1).

Exemple : Soit X une variable aléatoire suivant la loi normale N (2, 3). On veut cal-
culer P (X ≤ 8).
Puisque X ∼ N (2, 3), alors X−2
3
∼ N (0, 1).
P (X ≤ 8) = P ( X−2
3
≤ 8−2
3
) = P (N (0, 1) ≤ 2) = 0.9772 en lisant dans la table de la loi
normale N (0, 1).

Autres lois tabulées : Loi de Student, loi khi-deux, loi de Fisher,...

9
Chapitre 3

Estimation

Soit X une variable alétoire dont la loi possède un ou plusieurs paramètres inconnus.
A partir d’un échantillon, on peut estimer ces paramètres inconnus de deux façons : esti-
mation ponctuelle et par intervalles de confiance.

3.1 Estimation ponctuelle


On va attribuer une valeur à chaque paramètre inconnu.
Exemple : Si X ∼ N (m, σ), où m et σ sont inconnus. Pn
Xi
L’estimateur de la moyenne m est la moyenne empirique X̄ = i=1
n
.
P n 2
2 i=1 (Xi −m)
L’estimateur de la variance σ est Pnn
si m est connu.
P n 2 2
i=1 (Xi −X̄) i=1 Xi
Si m est inconnu, S 2 = n
= n
− X̄ 2 est un estimateur de la variance σ 2 .
Le meilleur estimateur de σ 2 est donné par
n
S∗2 = n−1 S 2.

Estimation d’une proportion : Soit p la proportion des individus de la population


possédant la modalité A d’un caractère qualitatif.
L’estimateur de p est p̂ représentant la proportion des individus de l’échantillon possédant
la modalité A.

3.2 Estimation par intervalles de confiance


On cherche un intervalle contenant le paramètre inconnu avec un niveau de confiance 1 − α
(α fixé).
α est dit risque et représente la probabilité que le paramètre inconnu n’appartient pas à
l’intervalle. On fixe α petit (en général α = 0.05).

10
Cours de Biostatistique pour Licence et Master SNV Graiche Farid

3.2.1 Intervalle de confiance d’une moyenne


Soit X une variable alétoire suivant la loi normale N (m, σ).
a- Si σ est connu : L’IDC de m au risque α est donné par
σ σ
[x̄ − zα √ , x̄ + zα √ ]
n n
zα est lue dans la table de la loi normale N (0, 1) par P (zα ) = 1 − α2 .

a- Si σ est inconnu : On remplace σ par son meilleur estimateur S ∗ 2 = n


n−1
S2 et l’IDC
de m au risque α est donné par
S∗ S∗
[x̄ − tα √ , x̄ + tα √ ]
n n
t α2 est lu dans la table de la loi de Student à n − 1 degrès de liberté par
P (|tn−1 | < tα ) = P (−tα < tn−1 < tα ) = 1 − α.

Exercice : Soit un échantillon de 10 femmes ayant les taux de cholestérol (en g/l) sui-
vants :
3, 1.8, 2.1, 2.7, 1.4, 1.9, 2.2, 2.5, 1.7, 2
Donner un IDC pour le taux de cholestérol moyen au niveau 95%.

Remarque : Si n > 30, l’hypothèse de normalité de X n’est pas nécessaire et l’IDC


de m est
S∗ S∗
[x̄ − zα √ , x̄ + zα √ ]
n n

11
Cours de Biostatistique pour Licence et Master SNV Graiche Farid

Marge d’erreur : C’est la motié de l’amplitude de l’IDC.


Exemple : Si l’IDC est [x̄ − zα √σn , x̄ + zα √σn ], la marge d’erreur est e = |zα √σn |.

3.2.2 Intervalle de confiance d’une variance


Soit X une v.a. suivant une loi normale N (m, σ).
a- Si m est connu : L’IDC de σ 2 au rsque α est donné par
Pn 2
Pn
i=1 (xi − m) (xi − m)2
[ , i=1 ]
k2 k1
k1 et k2 sont obtenus à partir de la table de la loi khi-deux à n degrès de liberté par
P (χ2n ≥ k1 ) = 1 − α2 et P (χ2n ≥ k2 ) = α2 (ou P (χ2n ≤ k1 ) = α2 et P (χ2n ≤ k2 ) = 1 − α2 )

b- Si m est inconnu : L’IDC de σ 2 au rsque α est donné par


Pn 2
Pn
i=1 (xi − x̄) (xi − x̄)2 nS 2 nS 2
[ , i=1 ]=[ , ]
k2 k1 k2 k1
k1 et k2 sont obtenus à partir de la table de la loi khi-deux à n − 1 degrès de liberté par
P (χ2n−1 ≥ k1 ) = 1− α2 et P (χ2n−1 ≥ k2 ) = α2 (ou P (χ2n−1 ≤ k1 ) = α2 et P (χ2n−1 ≤ k2 ) = 1− α2 )

3.2.3 Intervalle de confiance d’une proportion :


L’IDC d’une proportion p d’individus de la population possédant la modalité A d’un ca-
ractère qualitatif est donné par
r r
p̂(1 − p̂) p̂(1 − p̂)
[p̂ − zα , p̂ + zα ]
n n

12
Cours de Biostatistique pour Licence et Master SNV Graiche Farid

Conditions d’application : n grand, np̂ > 5 et np̂(1 − p̂) > 5.


Exercice : On veut estimer la proportion des individus touchés par une anomalie génétique
en France. On prélève un échantillon aléatoire de 5000 personnes et on constate que 50
sont atteintes de cette anomalie.
Estimer par IDC au risque 5$cetteproportion.

13
Chapitre 4

Les tests d’hypothèses

4.1 Définitions
Un test statistique est une méthode permettant de prendre une décision à partir d’infor-
mation fournie par un échantillon sur deux hypothèses notées H0 et H1 avec un risque
d’erreur fixé.
H0 est dite hypothèse nulle et H1 hypothèse alternative ou contraire.
H0 et H1 s’excluent mutuellement c.a.d. si H0 est rejetée alors H1 est acceptée et inverse-
ment.
La décision prise dépend donc de l’échantillon. Ainsi qu’elle soit décision prise, on court
deux sortes de risques :
Le risque de première espèce α = P (rejeter H0 /H0 est vraie) qui est dit seuil de significa-
tion.
Le risque de deuxième espèce β = P (accepter H0 /H0 est fausse).
Les étapes à suivre dans un test statistique sont :
1- Définir les hypothèses H0 et H1 .
2- Choisir une statistique de test notée Tn ou Zn .
3- Définir la loi de Tn sous H0 .
4- Ecrire la région critique du test (région ou H0 est rejetée).
5- Calculer pour un échantillon donné la valeur de Tn qu’on notera Tobs et une valeur seuil
lue à partir de la table de loi de Tn sous H0 .
6- Comparer la valeur Tobs avec la valeur seuil et prendre une décision à partir de la région
critique.

On a deux types de tests : paramètriques (la statistique du test dépend d’un paramètre)
et non paramètriques (la statistique du test ne dépend pas d’un paramètre).

14
Cours de Biostatistique pour Licence et Master SNV Graiche Farid

4.2 Tests paramètriques


C’est des tests dont la statistique du test dépend d’un paramètre d’une loi (moyenne,
variance, proportion,...).

4.2.1 Tests de conformité


Ils sont distinés à vérifier si un échantillon est extrait d’une population donnée ou représentatif
de cette population.
1- Test relatif à une moyenne : On veut savoir si un échantillon de taille n provient
d’une population de moyenne m0 connue. On note m la moyenne de la population dont est
issu l’échantillon.
On teste au risque α
H0 : m = m0 contre H1 : m 6= m0

1er cas : Si la variance σ 2 est connue


La statistique du test est
X̄ − m
Tn =
√σ
n

Si la variable considérée est normale ou si n ≥ 30 (sans l’hypothèse de normalité), on a


sous H0 (m = m0 )
X̄ − m0
Tn = σ ∼ N (0, 1).

n
x̄−m0
Pour un échantillon donné, on calcule Tobs = √σ
n
On rejette H0 si |Tobs | > zα , où zα est lu dans la table de la loi normale N (0, 1). Dans ce
cas, on dit que l’échantillon n’est pas représentatif de la population (ou bien il y a une
différence significative entre la moyenne de l’échantillon et celle de la population).
Si |Tobs | ≤ zα , on accepte H0 et on dit que l’échantillon est représentatif de la population

15
Cours de Biostatistique pour Licence et Master SNV Graiche Farid

(ou bien il n’y a pas de différence significative entre la moyenne de l’échantillon et celle de
la population).
Exercice : La glycémie d’une population suit une loi normale de moyenne 1 g/l et d’écart-
type 0.1 g/l. On relève les glycémie chez 9 personnes et on trouve une moyenne de 1.12
g/l. Cet échantillon est-il représentatif de la population ?

2ème cas : Si la variance σ 2 est inconnue


On remplace σ par son meilleur estimateur S ∗ (S ∗ 2 = n−1
n
S 2 ) et on aura sous l’hypothèse
de normalité
X̄ − m0
Tn = S∗
∼ tn−1

n
x̄−m0
Pour un échantillon donné, on calcule Tobs = S∗

et la valeur seuil tα est lue dans la table
n
de Student à n − 1 degrès de liberté.
Si |Tobs | > tα , on rejette H0 et on dit que l’échantillon n’est pas représentatif de la popu-
lation .
Si |Tobs | ≤ tα , on accepte H0 et on dit que l’échantillon est représentatif de la population.
Exercice : Un biochimiste étudie un type de moisissure qui attaque les cultures de blé.
La toxine contenue dans cette moisissure est obtenue sous forme d’une solution organique.
On mesure la quantité de substance toxique en milligrammes par gramme de solution. Sur
9 extraits, on a obtenu les mesures suivantes :
1.2 - 0.8 - 0.6 - 1.1 - 1.2 - 0.9 - 1.5 - 0.9 - 1
Es ce qu’on peut affirmer au risque 5% que la quantité moyenne de substance toxique est
différente de 1mg ?
Remarque : Si n ≥ 30, l’hypothèse de normalité n’est pas nécessaire et la loi de student
peut être remplacée par la loi normale N (0, 1).

2- Test relatif à une proportion (ou pourcentage) : On a une population dont la


proportion p0 des individus possédant la modalité A d’un caractère qualitatif est connue.
Le but est de vérifier si un échantillon de taille n de proportion p est issu ou représentatif
de la poppulation.
On teste au risque α
H0 : p = p0 contre H1 : p 6= p0

16
Cours de Biostatistique pour Licence et Master SNV Graiche Farid

La statistique du test est


K
−p
Tn = np pq ,
n

où q = 1 − p et K est la variable aléatoire représentant le nombre de réalisation de la


modalité A dans l’échantillon.
Sous H0 (p = p0 ), Tn suit une loi normale N (0, 1).
k
−p
Tobs = √n p0 q00 et la valeur seuil zα est lue sur la table de la loi N (0, 1).
n
Si |Tobs | > zα , on rejette H0 et on dit que l’échantillon n’est pas représentatif de la popu-
lation.
Si |Tobs | ≤ zα , on accepte H0 et on dit que l’échantillon est représentatif de la population.
1
Exercice : Une anomalie génétique touche en France 1000 des individus . On a constaté dans
une région 57 personnes atteintes sur 50000 naissances. Cette région est-elle représentative
de la France entière ?

4.2.2 Tests d’homogéneité (ou d’égalité)


Ils sont distinés à comparer deux populations à l’aide de deux échantillons ou de dire
si deux échantillons proviennent de la même population.

17
Cours de Biostatistique pour Licence et Master SNV Graiche Farid

1- Test de comparaison de deux variances : On suppose que la variable aléatoire


X obsevée sur les deux population suit une loi normale N (m, σ) et les deux échantillons
sont indépendants.
Ce test est nécessaire avant le test de comparaison de deux moyennes lorsque les deux
variances σ12 et σ22 sont inconnues.
On teste au risque α
H0 : σ12 = σ22 contre H1 : σ12 6= σ22 (σ12 et σ12 inconnues)
Sous H0 (σ12 = σ22 ), on calcule

S1∗ 2
Fobs = , avec S1∗ 2 > S2∗ 2
S2∗ 2
S∗2
Si S2∗ 2 > S1∗ 2 , alors Fobs = S2∗ 2 .
1
La valeur seuil Fα est lue de la table de Fisher-Snedecor à (n1 − 1, n2 − 1) degrès de liberté.
Si Fobs > Fα , on rejette H0 et on dit que les deux échantillons proviennent de deux popu-
lations ayant différentes variances.
Si Fobs ≤ Fα , on accepte H0 et on dit que les deux échantillons proviennent de deux popu-
lations ayant la même variance.
Exercice : Dans une étude en biologie, on mesure la longueur (en mm) des spécimens
mâles et femelles de poissons adultes appartenant à la même espèce. On obtient :
Mâles : 120-107-110-116-114-111-113-117-114-112
Femelles : 110-111-107-108-110-105-107-106-111-111
Les deux populations ont-elles des variabilités différentes au risque 5% ?

Test de comparaison de deux moyennes On veut savoir au risque α si deux échantillons


proviennent de deux populations de même moyenne ou non.
On va tester au risque α
H0 : m1 = m2 contre H0 : m1 6= m2 (m1 et m2 inconnues)

18
Cours de Biostatistique pour Licence et Master SNV Graiche Farid

Cas d’échantillons indépendants


1er cas : σ12 et σ22 sont connues
On calcule
x̄1 − x̄2
Tobs = q 2
σ1 σ2
n1
+ n22
La valeur seuil zα est lue dans la table de la loi normale N (0, 1).
Si |Tobs | > zα , alors on rejette H0 au risque α et on dit que les deux échantillons proviennent
de deux populations de différentes moyennes m1 et m2 (ou bien il y a une différence signi-
ficative entre les deux moyennes).
Si |Tobs | ≤ zα , alors on accepte H0 au risque α et on dit que les deux échantillons proviennent
de deux populations de même moyenne (ou bien il n’y a pas de différence significative entre
les deux moyennes).
Remarque : Si n1 ou n2 < 30, on doit supposer que la normalité de la variable étudiée.

2ème cas : σ12 et σ22 sont inconnues et égales (σ12 = σ22 = σ 2 )

On calcule
x̄1 − x̄2
Tobs = q
σˆ2 ( n11 + n12 )
n S12 +n2 S22
σˆ2 = n1 1 +n2 −2
est l’estimateur de σ 2 .
La valeur seuil tα est lue dans la table de la loi de Student à n1 + n2 − 2 degrès de liberté.
Si |Tobs | > tα , alors on rejette H0 au risque α et on dit que les deux échantillons proviennent
de deux populations de différentes moyennes m1 et m2 .
Si |Tobs | ≤ tα , alors on accepte H0 au risque α et on dit que les deux échantillons pro-
viennent de deux populations de même moyenne.

3ème cas : σ12 et σ22 sont inconnues et inégales (σ12 6= σ22 )


On a deux cas
Cas 1 : n1 > 30 et n2 > 30 On calcule
x̄1 − x̄2
Tobs = q ∗ 2
S1 S∗2
n1
+ n22

La valeur seuil zα est lue dans la table de la loi normale N (0, 1).
Si |Tobs | > zα , alors on rejette H0 au risque α et on dit que les deux échantillons proviennent
de deux populations de différentes moyennes m1 et m2 .
Si |Tobs | ≤ zα , alors on accepte H0 au risque α et on dit que les deux échantillons pro-
viennent de deux populations de même moyenne.

19
Cours de Biostatistique pour Licence et Master SNV Graiche Farid

Cas 2 : n1 < 30 et/ou n2 < 30


Dans ce cas on a recours à des tests non paramétriques.

Exercice : Vérifier dans l’Exercice précédent si la longueur moyenne des spécimens diffère
entre les deux sexes de cette espèce au risque 5%.

Cas d’échantillons appariés


L’objectif de l’appariement est de réduire la variabilité due aux observations.
On étudie les valeurs par paires :
- mesure avant-après pour les mêmes sujets.
- Mesure de deux caractères sur les mêmes sujets.
Ici ce n’est pas nécessaire de tester l’égalité des variance avant de tester l’égalité des
moyennes.
(1) (2)
On note di = xi − xi les differences de n paires de valeurs du caractère.
On calcule
n n
d¯ 1X 1 X
Tobs = S∗
, avec d¯ = di = x¯1 − x¯2 et Sd∗ 2 = ¯2
(di − d)
√d n i=1 n − 1 i=1
n

La valeur seuil tα est lue dans la table de la loi de Student à n − 1 degrès de liberté.
Si |Tobs | > tα , alors on rejette H0 au risque α et on dit qu’il y a une différence significative
entre les deux moyennes.
Si |Tobs | ≤ tα , alors on accepte H0 au risque α et on dit qu’il n’y a pas de différence signi-
ficative entre les deux moyennes.
Condition d’application : Pour appliquer ce test, on doit avoir la normalité de la va-
riable X1 − X2 .
Exercice : Un médecin mesure la tension de 9 patients volontaires le matin et le soir. Les
résultats en centimètres de mercure sont :

Matin 13.12 13.54 15.12 14.51 12.12 13.10 13.98 11.21 14.44
Soir 13.92 13.89 14.51 14.78 10.97 13.58 14.52 11.54 13.54
Peut-on affirmer, au risque 5%, qu’en moyenne la tension du soir est différente de celle du
matin ?

Test de comparaison de deux proportions : On veut savoir si deux échantillons


indépendants provenant de deux populations ont la même proportion des individus possédant
la modalit’A d’un caractère qualitatif.
On va tester au risque α
H0 : p1 = p2 contre H1 : p1 6= p2 (p1 et p2 inconnues)

20
Cours de Biostatistique pour Licence et Master SNV Graiche Farid

On calcule
| nk11 − k2
n2
|
Tobs = q
p̂q̂( n11 + 1
n2
)
k1 et k2 sont respectivement le nombre d’individus possédant la modalité A dans le premier
et le deuxième échantillon, p̂ = nk11 +k
+n2
2
et q̂ = 1 − p̂
La valeur seuil zα est lue dans la table de la loi normale N (0, 1).
Si |Tobs | > zα , alors on rejette H0 au risque α et on dit que les deux échantillons proviennent
de deux populations de différentes proportions p1 et p2 (ou bien il y a une différence
significative entre les deux proportions).
Si |Tobs | ≤ zα , alors on accepte H0 au risque α et on dit que les deux échantillons proviennent
de deux populations de même proportion (ou bien il n’y a pas de différence significative
entre les deux proportions).
Conditions d’application : n1 p̂ > 5, n1 q̂ > 5, n2 p̂ > 5 et n2 q̂ > 5.
Exercice : Dans la même catégorie sociale, un échantillon de 40 hommes a fourni 8 fumeurs
et un échantillon de 60 femmes 18 fumeuses. On se demande s’il y a autant de fumeurs
chez les hommes que chez les femmes au risque 5%.

4.2.3 Test de significativité du coéfficient de corrélation


Soient X et Y deux caractères quantitatifs. L’indicateur de liaison entre X et Y est le
coéfficient de corrélation linéaire
Cov(X, Y )
r= .
σX σY
La liaison entre X et Y est significative si le coéfficient de corrélation inconnu r peut être
considéré significativement non nul.
On va tester au seuil α

21
Cours de Biostatistique pour Licence et Master SNV Graiche Farid

H0 : r = 0 (X et Y sont indépendants) contre H1 : r 6= 0 (X et Y sont liés).


Pour un échantillon (x1 , y1 ), (x2 , y2 ), ..., (xn , yn ), on calcule
ρ
Tobs = q
1−ρ2
n−2

Où ρ est le coéfficient de corrélation linéaire calculé à partir de l’échantillon.


La valeur seuil tα est lue dans la table de la loi de Student à n − 1 degrès de liberté.

Si |Tobs | > tα , on rejette H0 et on dit que X et Y sont liés (ou bien la liaison est si-
gnificative).
Si |Tobs | ≤ tα , on accepte H0 et on dit que X et Y ne sont pas liés (ou bien la liaison n’est
pas significative).
Conditions d’application
X et Y sont normalement distribuées ou n > 30 et X et Y sont continues.

Exercice : Pour 10 enfants, on donne la pointure des chaussures (X) et le quotient intel-
lectuel (Y).

xi 31 31 32 33 33 34 35 36 37 38
yi 50 55 52 56 63 65 69 90 110 150
Y a-t-il une liaison significative entre la longueur du pied et l’intelligence au risque 5% ?

Remarques :
1- Pour les tests paramétriques, on appelle :
Z-tests ou Tests de l’écart-réduit : Les tests pour lesquels la statistique suit une loi
normale centrée et réduite N (0, 1).
Tests de Student : Les tests pour lesquels la statistique suit une loi de Student.
Tests de Fisher : Les tests pour lesquels la statistique suit une loi de Fisher.

2- Si le test est unilatéral à droite (on remplace 6= par > dans l’hypothèse H1 ), on re-
jette H0 si Tobs > kα , où kα est la valeur seuil donnée par P (Tobs < kα ) = 1 − α.

3- Si le test est unilatéral à gauche (on remplace 6= par < dans l’hypothèse H1 ), on rejette
H0 si Tobs < kα , où kα est la valeur seuil donné par P (Tobs < kα ) = α.

22
Cours de Biostatistique pour Licence et Master SNV Graiche Farid

Exercice : Dans la même catégorie sociale, un échantillon de 40 hommes a fourni 8 fumeurs


et un échantillon de 60 femmes 18 fumeuses. On se demande s’il y a moins de fumeurs chez
les hommes que chez les femmes au risque 5%.

4.3 Test non paramétriques :


4.3.1 Tests de khi-deux
Tests d’indépendance de khi-deux
Soient X et Y deux variables qualitatives ou quantitatives groupées en classes.
On veut tester au seuil α
H0 : X et Y sont indépendantes contre H1 : X et Y sont dépendantes (ou liées).
On construit le tableau de contingence suivant

XY modalité 1 modalité 2 . modalité l ni.


modalité 1 n11 n12 . n1l n1.
modalité 2 n21 n22 . n2l n2.
. . . . . .
modalité k nk1 . . nkl nk.
n.j n.1 n.2 . n.l N

23
Cours de Biostatistique pour Licence et Master SNV Graiche Farid

On calcule les effectifs théoriques n0ij (effectifs sous H0 ) par

ni. × n.j
n0ij =
N
Le χ2 observé est donné par
X X (nij − n0ij )2
χ2obs =
i j
n0ij

La valeur seuil χα est lue dans la table de khi-deux à (k − 1)(l − 1) degrès de liberté.
Si χ2obs > χα , on rejette H0 et on dit que X et Y sont liés.
Si χ2obs ≤ χα , on accepte H0 et on dit que X et Y sont indépendants.

Remarque : Ce test est applicable si N > 50 et tous les n0ij > 5, sinon on procède à
un regroupement en lignes ou en colonnes.
Exercice : On veut étudier la liaison entre les caractères ”être fumeur” (plus de 20 ciga-
rettes par jour pendant 10 ans) et ”avoir un cancer de gorge” sur une population de 1000
personnes dont 500 sont atteints. on a le tableau suivant

Observé Cancer Non cancer


Fumeur 342 258
Non fumeur 158 242

Faire un test d’indépendance pour établir la liaison entre ces deux caractères au seuil
α = 0.05.
Tests d’ajustement de khi-deux
On cherche à vérifier au risque α si les valeurs x1 , x2 , ..., xn dont on dispose proviennent
d’une population distribuée selon une loi particulière F (x, θ).
On teste au seuil α
H0 : X suit la loi F (x, θ) contre H1 : X ne suit pas la loi F (x, θ).

24
Cours de Biostatistique pour Licence et Master SNV Graiche Farid

On range les valeurs ou les classes dans un tableau dont la forme est

Valeurs xi x1 x2 ... xk Total


Effectif observé(ni ) n1 n3 ... nk n
Effectif attendu(ti ) t1 t2 ... tk n

ti : Effectif théorique ou attendu de xi sous H0 donné par


ti = npi où pi = P (X = xi /H0 est vraie).
On calcule
X (ni − ti )2
χ2obs =
i
ti
La valeur seuil χα est lue dans la table de khi-deux à k − p − 1 degrès de liberté, où p est
le nombre de paramètres inconnus de la loi F (x, θ).
Si χ2obs > χα , on rejette H0 et on dit que la distribution observée n’est pas conforme à la
distribution théorique.
Si χ2obs ≤ χα , on accepte H0 et on dit que la distribution observée est conforme à la
distribution théorique.
Remarque : Ce test est applicable si n > 50 et tous les ti > 5, sinon on regroupe les
valeurs ou les classes pour avoir cette condition.
Exercice : On observe 50 fratries de 2 enfants et on obtient le tableau suivant :
Nombre de garçons(xi ) 0 1 2
Nombre de fratries(ni ) 15 18 17

Es ce que la distribution du nombre de garçons observés suit une loi binomiale B(2, 12 ) ?

4.3.2 Tests de normalité :


Pour utiliser les tests classiques, il faut s’assurer que les variables continues sont distribuées
selon une loi normale. Si c’est le cas, les tests classiques sont applicables sinon il faut trouver
une alternative dite non paramétrique du test à réaliser.

Approche graphique
1- Histogramme des fréquences : On va représenter les données à l’aide d’un histo-
gramme pour voir si elles semblent s’ajuster selon une distribution normale.

2- Boite à moustaches : Elle représente la distribution à l’aide des paramètres : mi-


nimum, maximum, Q1, Q2=Me et Q3. La boite à moustaches permet d’avoir une idée sur
la symétrie de la distribution. La symétrie n’affirme pas la normalité mais une distribution
normale est forcément symétrique. La boite à moustache est symétrique si la médiane est
au milieu de la boite et les moustaches ont la même longueur.
Exemple : Les poids de 20 plaquettes de beurre en grammes sont :
247, 247.8, 250.2, 251.3, 251.9, 249.4, 248.8, 247.1, 255, 247, 254.8, 244.8, 250.7, 250.7,

25
Cours de Biostatistique pour Licence et Master SNV Graiche Farid

252.6, 251.1, 254.1, 249.2, 252,254.


Avec le logiciel R, on écrit
boxplot(x)
On obtient le graphe suivant

3- QQ plot avec droite de Henry : Soit x1 , x2 , ..., xk un échantillon de la variable


aléatoire considérée. On calcule d’abord les fréquences relatives cumulées F1 , F2 , ..., Fk cor-
respondantes puis on calcule les quantiles t1 , t2 , ..., tk d’ordre F1 , F2 , ..., Fk par

P (N (0, 1) ≤ ti ) = Fi

Si les données sont normales, alors les points (xi , ti ) seront alignés.
Exemple précédent : On écrit avec le logiciel R :
qqnorm(x,datax=TRUE,main=”x”)
qqline(x,datax=TRUE)
On obtient le graphe suivant

26
Cours de Biostatistique pour Licence et Master SNV Graiche Farid

Tests statistiques
Test de Shapiro-Wilk (n ≤ 50) : Soit x1 , x2 , ..., xk un échantillon de la variable aléatoire
considérée. On veut tester au seuil α
H0 : Les données sont issues d’une loi normale
contre
H1 : Les données ne sont pas issues d’une loi normale.
On calcule la statistique du test notée W à partir de l’échantillon et on cherche la valeur
seuil wα à partir d’une table.
Si W ≤ wα , on rejette H0 sinon on l’accepte.
Avec logiciel R : on aura la p-value (PH0 (W ≤ wα )) en écrivant
shapiro.test(x)$p.value
Si p-value< α, on rejette H0 c’est à dire on n’a pas la normalité des données.
Si p-value≥ α, on accepte H0 c’est à dire on a la normalité des données.
Exemple précédent :
La p-value= 0.751598 > 0.05, donc on accepte la normalité des données.
Test de Kolmogorov-Smirnov (n > 50) : On mesure l’écart maximum entre la fonction
de répartition observée (ou des fréquences relatives cumulées) et la fonction de répartition
théorique et on obtient la statistique D = max|Fobs − Ftheo | et on lit la valeur seuil dα dans
une table.
Si D > dα , on rejette H0 sinon on l’accepte.
Avec logiciel R : On aura la p-value en écrivant
ks.test(x)$p.value
Si p-value< α, on rejette H0 c’est à dire on n’a pas la normalité des données.
Si p-value≥ α, on accepte H0 c’est à dire on a la normalité des données.

27
Chapitre 5

Analyse de la variance (ANOVA) à


un facteur

5.1 introduction
L’ANOVA est une technique statistique qui vise à comparer des moyennes sur plusieurs
échantillons en testant l’effet d’un facteur qualitatif A sur une variable quantitative X.
On suppose que les échantillons sont indépendants et l’ensemble des individus est réparti
au hasard entre les p modalités du facteur A.
On suppose aussi que les échantillons sont issus d’une loi normale N (µ, σ) (à vérifier avec
un test de normalité) et ont la même variance (hypothèse d’homoscédasticité qu’on peut
utiser le test de Bartlett pour le vérifier).
Remarques :
1- Si la normalité n’est pas vérifiée, on peut transformer la variable comme suit

Type de distribution Transformation



Asymetrie positive modérée xi
Asymetrie positive importante √ log10 (xi )
Asymetrie négative modérée k − xi , k = 1 + max(xi )
Asymetrie négative importante log10 (k − xi ), k = 10 + max(xi )

2- Si la transformation ne règle pas le problème de normalité ou/d’homoscédasticité, on


peut utiliser l’équivalent non paramétrique de l’ANOVA, le test de Kruskall-Wallis.

Les données relatives à l’ANOVA à un facteur sont structurées comme suit :

28
Cours de Biostatistique pour Licence et Master SNV Graiche Farid

Modalité 1 ..... Modalité i .... Modalité p


x11 ..... xi1 .... xp1
x12 ..... xi2 .... xp2
. ..... . .... .
. ..... . .... .
x1n1 ..... xini .... xpnp
Effectif n1 ..... ni .... np
p
P
Moyenne x̄1 ..... x̄i .... x̄p x̄ = ni x̄i
i=1

5.2 Principe de l’ANOVA


On décompose la variabilité totale en 2 composantes inter groupe (dispersion des
moyennes de chaque groupe) et intragroupe ou résiduelle (dispersion des moyennes dans
chacun des groupes).
p ni p p ni
X X X X X
2 2
(xij − x̄) = ni (x̄i − x̄) + (xij − x̄i )2
i=1 j=1 i=1 i=1 j=1

SCT = SCE + SCR


SC : Somme des carrées.

5.3 Procédure de l’ANOVA


On teste au seuil α
H0 : m1 = m2 = ... = mp = m (Il n’y a pas d’effet significatif du facteur A sur la variable
X)
contre
H1 : ∃i, j, mi 6= mj (Il y a d’effet significatif du facteur A sur la variable X)

29
Cours de Biostatistique pour Licence et Master SNV Graiche Farid

La statistique du test est


CM E SCE SCR
Fobs = =
CM R p−1n−p
CM : Carrée Moyen.
La valeur seuil Fα est lue dans la table de Fisher-Snedecor à (p − 1, n − p) degrés de liberté.
Si Fobs > Fα , on rejette H0 et on dit que le facteur A a un effet significatif sur la variable
X.
Si Fobs ≤ Fα , on accepte H0 et on dit que le facteur A n’a pas d’effet significatif sur la
variable X.
Remarque : Si H0 est rejetée, pour savoir quelles sont les moyennes qui sont significati-
vement différentes, on peut utiliser la méthode de Scheffé.

5.4 Table de l’ANOVA

Sorte de variation Somme des carrées Degrés de liberté Carrée moyen Test de Fisher
Inter groupe SCE p−1 CM E = SCEp−1
Intra groupe SCR n−p CM R = SCRn−p
CM E
Total SCT n−1 Fobs = CM R

30
Cours de Biostatistique pour Licence et Master SNV Graiche Farid

5.5 Exemple d’application


Le tableau suivant fournit les notes de 21 étudiants données par 3 examinateurs

Examinateur A B C
Notes 10 8 10
11 11 13
11 11 14
12 13 14
13 14 15
15 15 16
16 16
16
On veut savoir au risque 5% si le facteur ”examinateur” a un effet sur la moyenne des
notes des étudiants. Pour cela, on teste au seuil α = 0.05
H0 : Le facteur n’a pas d’effet sur la moyenne des notes (mA = mB = mC = m)
contre
H1 : Le facteur a un effet sur la moyenne des notes (mA 6= mB ou mA 6= mC ou mB 6= mC ).

Par calcul :
on aura x̄A = 12, x̄B = 13, x̄C = 14, x̄ = 13.047, CM E = 6.48 et CM R = 5.44.
CM E 6.48
Fobs = = = 1.19
CM R 5.44
La valeur seuil lue dans la table de Fisher-Snedecor à (2, 18) degrés de liberté est Fα = 3.55.
Fobs < Fα , donc on accepte H0 ce qui implique que le facteur ”examinateur” n’a pas d’effet
sur la moyenne des notes des étudiants.

Avec logiciel R :
On écrit
A = c(10, 11, 11, 12, 13, 15)
B = c(8, 11, 11, 13, 14, 15, 16, 16)
C = c(10, 13, 14, 14, 15, 16, 16)
On vérifie d’abord la normalité des 3 échantillons en utilisant le test de Shapiro-Wilk en
écrivant
x=c(A,B,C)
group=factor(c(rep(”A”,6),rep(”B”,8),rep(”C”,7)))
tapply(x,group,shapiro.test)

31
Cours de Biostatistique pour Licence et Master SNV Graiche Farid

Affichage
A
Shapiro-Wilk normality test
data : X[[1L]]
W = 0.9334, p-value = 0.6067
B
Shapiro-Wilk normality test
data : X[[2L]]
W = 0.9203, p-value = 0.4323
C
Shapiro-Wilk normality test
data : X[[3L]]
W = 0.882, p-value = 0.2356

Les trois p-values sont supérieures à 0.05, donc on admet l’hypothèse de normalité des
3 échantillons.
On vérifie ensuite l’homoscédasticité avec le test de Bartlett en écrivant
bartlett.test(x,group)$pvalue
Affichage
0.5382

La p-value est supérieure à 0.05, donc on ne peut pas rejeter au seuil 0.05 l’égalité des
variances (homoscédasticité).

Pour visualiser les boites à moustaches des trois échantillons, on écrit


boxplot(x group)
On aura le graphe suivant :

On va faire maintenant une ANOVA, on écrit


data=data.frame(x=x,group=factor(group))

32
Cours de Biostatistique pour Licence et Master SNV Graiche Farid

fit=lm(x ∼ group, data)


anova(fit)

Af f ichage
df SC CM F value
group 2 12.95 6.4762 1.1895 0.3272
residual 18 98 5.4444
On a la p-value = 0.5382 > 0.05, donc on ne peut pas rejeter au seuil 5% l’hypothèse
H0 , ce qui implique que le facteur ”examinateur” n’a pas d’effet sur la moyenne des notes
des étudiants.
Remarque : F value est la valeur de la statistique du test.

33
Table de lois usuelles

Table de loi normale centrée et réduite N (0, 1)

34
Cours de Biostatistique pour Licence et Master SNV Graiche Farid

Table de Student

35
Cours de Biostatistique pour Licence et Master SNV Graiche Farid

Table de khi-deux

36
Cours de Biostatistique pour Licence et Master SNV Graiche Farid

Table de Fisher-Snedecor

37
Références

[1] Graiche F., Biostatistique, cours, applications, exercices corrigés et examens corrigés,
éditions pages bleues, 2019.

[2] Mercier M., Biostatistique et Probabilités, exercices, problèmes et épreuves corrigés,


éditions ellipses.

[3] Mouchiroud D., Cours Deug SV UCBL, université de Lyon 1.

[4] Oukacha B. et al., Statistique et Probabilités, éditions pages bleues.

38

Vous aimerez peut-être aussi