Cours Biostat Licence Et Master

Cours de Biostatistique pour Licence et
Master SNV
Graiche Farid
Université Mouloud Mammeri de Tizi Ouzou
Année universitaire : 2019/2020

Chapitre 1
Rappels de Statistique Descriptive
1.1 Statistique descriptive à une dimension

Définitions
La population est l’ensemble des individus sur lesquel on fait l’étude statistique.
Une partie de la population est dite ´´echantillon.
Le caractère est l’objet de l’étude statistique.
Un caractère est dit qualitatif s’il n’est pas mesurable.
Exemple : Couleur des yeux, sexe, groupe sanguin...
Un caractère est dit quantitatif s’il est mesurable.
Exemple : Nombre d’enfants, age, taille, taux de glycémie,...
On a deux types de caractères quantitatifs :
Quantitatif discret ou discontinu : S’il ne peut prendre que des valeurs isolées dans
son domaine de variation.
Exemple : Nombre d’enfants d’une famille, nombre de pièces d’un logement,...
Quantitatif continu : S’il peut prendre toutes les valeurs de son domaine de variation.
Exemple : Age, poids, taille,...
Caractéristiques numériques Soit x1 , x2 , ..., xk les différentes valeurs d’un caractère
quantitatif X étudié sur une population (ou échantillon) de taille N .
Dans le cas continu, les xi sont les centres des classes (intervalles) qu’on peut noter ci .
On a deux type de paramètres, de position et de dispersion.
Paramètres de position
Le mode : C’est la valeur du caractère la plus répétée et elle est notée M o

Dns le cas discret, le mode est la valeur du caractère qui a le plus grand effectif partiel.
Dans le cas continue, on cherche d’abord la classe modale puis on calcule le mode comme
suit
∆1
M o = x m + am
∆1 + ∆2
1
Cours de Biostatistique pour Licence et Master SNV Graiche Farid
xm est la limite inférieur de la classe modale et son amplitude.

∆1 est la différence entre l’effectif de la classe modale et celle d’avant.
∆2 est la différence entre l’effectif de la classe modale et celle d’après.
Remarque : Le centre de la classe modale peut constituer une valeur approchée du mode.
La médiane : C’est la valeur du caractère qui partage la série en deux parties de même
effectif et elle est notée M e.
Dans le cas continu, on cherche d’abord la classe médiane et le centre de cette classe
médiane peut constituer une valeur approchée de la médiane.
Généralisation : Les 3 quartiles Q1 , Q2 = M e et Q3 partagent la série en 4 parties

de même effectif. Q1 , Q2 et Q3 correspondent respectivement à 25%, 50% et 75% des ob-
servations.
La moyenne arithmétique : elle est notée x̄.

N
P
xi
x1 + x2 + ... + xN i=1
x̄ = =
N N
Si les xi se repètent ni fois, on a
k
P
n i xi
n1 x1 + n2 x2 + ... + nk xk i=1
x̄ = =
N N
Relation entre les paramètres de position :

Si x̄ = M e = M o, on dit que la distribution est symetrique.
Si x̄ < M e < M o, on dit que la distribution est étalée à gauche.
Si x̄ > M e > M o, on dit que la distribution est étalée à droite.
2
Paramètres de dispersion
La variance : Elle est notée V (X).
N
xi 2
P
x1 2 + x2 2 + ... + xN 2 i=1
V (X) = [ ] − x̄2 = − x̄2
N N
Si les xi se repètent ni fois, on a
k
ni xi 2
P
n1 x1 2 + n2 x2 2 + ... + nk xk 2 i=1
V (X) = [ ] − x̄2 = − x̄2
N N
L’écart-type : C’est la racine carrée de la variance.
p
σX = V (X)
1.2 Statistique descriptive à deux dimensions (Deux

caractères)
Soient X et Y deux caractères quantitatifs étudiés sur la même population de taille N . On
veut savoir s’il y a une liaison entre X et Y .
Pour chaque individu de la population, on aura un couple de valeurs (xi , yi ) et pour l’en-
semble des individus on aura le tableau suivant :
X x1 x2 . . xN
Y y1 y2 . . yN
1.2.1 Représentation graphique

Chaque couple est représenté dans le plan par un point et l’ensemble de tous les points
est dit nuage de points.
3
1.2.2 Moyennes et variances marginales

Les moyennes marginales de X et Y sont données par
N
P N
P
xi yi
i=1 i=1
x̄ = , ȳ =
N N
On peut calculer aussi les variances marginales de X et Y Par
N N
xi 2 yi 2
P P
i=1 i=1
V (X) = − x̄2 , V (Y ) = − ȳ 2
N N
1.2.3 Covariance et coéfficient de corrélation linéaire

La covariance de (X, Y ) est calculée par
k
P
xi y i
x1 y1 + x1 y2 + x1 y3 ... + xN yN i=1
Cov(X, Y ) = − x̄ȳ = − x̄ȳ
N N
Le coefficient de correlation linéaire est donné par
Cov(X, Y )
r=
σX σY
Exercice : Sur un échantillon de 6 sujets d’âges différents, on a recueilli les données
suivantes : Age (X) en années et concentration de cholestérol dans le sang (Y) en g/L.
xi 30 60 40 20 50 30
yi 1.6 2.5 2.2 1.4 2.7 1.8
4
Calculer le coéfficient de corrélation linéaire.
Remarques :
1- −1 ≤ r ≤ 1.
2- Si r est proche de 1 ou −1, on dit qu’il y a une corrélation (liaison) linéaire forte entre
X et Y .
3- Si r est proche de 0, on dit qu’il y a abscence de corrélation linéaire entre X et Y (mais
on peut avoir un autre type de liaison entre X et Y ).
1.2.4 Droite de régression

Si une liaison linéaire entre X et Y est établie, on cherche l’équation de la droite qui lie X
à Y .
L’équation de la droite de régression de Y en X donnée par la méthode des moindres
carrées est
Dy/x : Y = âX + b̂.
Cov(X,Y )
â = V (X)
et b̂ = ȳ − âx̄.
Exercice : Pour l’Exercice précédent, donner la droite de régression de Y en X.
5
Chapitre 2
Lois de probabilité
2.1 Définitions
Une expérience aléatoire est une expérience dont le résultat n’est pas prévisible à
l’avance.
Une variable aléatoire est une application de l’ensemble fendamental Ω (ensemble de toutes
les possibilités d’une expérience aléatoire) dans un ensemble E de R.
X : Ω −→ E = X(Ω)
E est l’ensemble des valeurs de X.
2.2 variable aléatoire discrète

Si E est discontinu (un ensemble fini ou infini), on dit que la v.a. X est discontinue ou
discrète.
La loi d’une variable discrète X est donnée par les couples (xi , P (X = xi )).
L’esperence d’une variable discrète X est donnée par
X
E(X) = xi P (X = xi )
xi ∈E
On a X
E(X 2 ) = x2i P (X = xi )
xi ∈E
La variance de X est donnée par
V (X) = E(X 2 ) − [E(X)]2 .
Exemple : On jette deux fois une pièce de monaie et on s’intéresse au nombre de piles
obtenus.
On note X le nombre de piles obtenus.
6
Ω = {(p, p), (p, F ), (F, p), (F, F )} (p=pile et F =face) et E = {0, 1, 2}.
P (X = 0) = P (F, F ) = 12 × 12 = 41 .
P (X = 1) = P {(F, p), (p, F )} = 12 × 12 + 21 × 12 = 12 .
P (X = 2) = P (F, F ) = 12 × 12 = 41 .
La loi de X est donnée par
x 0 1 2 Total
1 1 1
P (X = x) 4 2 4
1
E(X) = PxP (X = x) = 0 × 14 + 1 × 21 + 2 × 41 = 1
P
E(X 2 ) = x2 P (X = x) = 02 × 14 + 12 × 12 + 22 × 14 = 23 .
V (X) = E(X 2 ) − [E(X)]2 = 32 − 1 = 21 .
Exemple de lois discrètes :

Loi binomiale B(n, p) : On repète n fois une expérience alétoire et on note X le nombre
de fois qu’un événement A fixé se réalise.
On écrit X ∼ B(n, p), où p est la probabilité que l’événement A se réalise.
La loi de X est donnée par
P (X = x) = Cnx px (1 − P )n−x , x ∈ {0, 1, 2, 3, ..., n},
où
n!
Cnx = .
x!(n − x)!
Exemple : On jette 20 fois une pièce de monnaie. On s’intéresse à la probabilité d’avoir 5
fois pile.
On note X le nombre de ”piles” obtenus.
On a X ∼ B(20, p), où p = P (avoir pile) = 12 .
La loi de X est
x 1 x 1 20−x
P (X = x) = C20 ( ) (1 − ) , x ∈ {0, 1, 2, 3, ..., 20}
2 2
La probabilité d’avoir 5 fois pile est
15
5 1 5 1 5 1 20
P (X = 5) = C20 ( ) ( ) = C20 ( ) = 0.015
2 2 2
2.3 variable aléatoire continue

Si E est l’ensemble R ou un intervalle de R, on dit que la v.a. est continue.
La loi de X est donnée par une fonction dite fonction de densité de probabilité notée f
vérifiant :
1- f est positive sur E.
7
R +∞
2- −∞
f (x)dx = 1
Remarques :
1- Si X est une variable aléatoire continue, alors pour
R a tout a, on a P (X = a) = 0 et on
calcule souvent P (X ≤ a) = FX (x) par P (X ≤ a) = −∞ f (x)dx.
2- P (a ≤ X ≤ b) = P (X ≤ b) − P (X ≤ a) = FX (b) − FX (a), pout tout a < b.
L’esperence d’une variable continue X est donnée par

Z +∞
E(X) = xf (x)dx
−∞
Z +∞
E(X 2 ) = x2 f (x)dx
−∞
La variance de X est donnée par
Z +∞ Z +∞
2 2 2
V (X) = E(X ) − [E(X)] = x f (x)dx − [ xf (x)dx]2 .
−∞ −∞
1
Exemple : Soit X une v.a. continue de densité f (x) = 2
si x ∈ [0, 2] et f (x) = 0 sinon.
R +∞ R2
E(X) = −∞ xf (x)dx = 0 21 xdx = 12 [ 12 x2 ]20 = 1
R +∞ R2
E(X 2 ) = −∞ x2 f (x)dx = 0 21 x2 dx = 12 [ 13 x3 ]20 = 68 .
V (X) = E(X 2 ) − [E(X)]2 = 68 − 1 = 62 .
Exemples de lois continues :

a- Loi normale N (m, σ),m ∈ R, σ ≥ 0 :
La fonction de densité est donnée par
1 1 x−m 2
f (x) = √ exp{− ( ) }, x ∈ R.
σ 2π 2 σ
b- Loi normale centrée et réduite N (0, 1) :
La fonction de densité est donnée par
1 1
f (x) = √ exp{− x2 }, x ∈ R.
2π 2
8
Remarques :
1- La loi N (0, 1) est une loi tabulée c.a.d. on a une table qui donne les probabilités du type
P (X ≤ a) contrairement à la loi normale N (m, σ).
2- Si X ∼ N (m, σ), alors X−m σ
∼ N (0, 1).
Exemple : Soit X une variable aléatoire suivant la loi normale N (2, 3). On veut cal-
culer P (X ≤ 8).
Puisque X ∼ N (2, 3), alors X−2
3
∼ N (0, 1).
P (X ≤ 8) = P ( X−2
3
≤ 8−2
3
) = P (N (0, 1) ≤ 2) = 0.9772 en lisant dans la table de la loi
normale N (0, 1).
Autres lois tabulées : Loi de Student, loi khi-deux, loi de Fisher,...
9
Chapitre 3
Estimation
Soit X une variable alétoire dont la loi possède un ou plusieurs paramètres inconnus.
A partir d’un échantillon, on peut estimer ces paramètres inconnus de deux façons : esti-
mation ponctuelle et par intervalles de confiance.
3.1 Estimation ponctuelle

On va attribuer une valeur à chaque paramètre inconnu.
Exemple : Si X ∼ N (m, σ), où m et σ sont inconnus. Pn
Xi
L’estimateur de la moyenne m est la moyenne empirique X̄ = i=1
n
.
P n 2
2 i=1 (Xi −m)
L’estimateur de la variance σ est Pnn
si m est connu.
P n 2 2
i=1 (Xi −X̄) i=1 Xi
Si m est inconnu, S 2 = n
= n
− X̄ 2 est un estimateur de la variance σ 2 .
Le meilleur estimateur de σ 2 est donné par
n
S∗2 = n−1 S 2.
Estimation d’une proportion : Soit p la proportion des individus de la population

possédant la modalité A d’un caractère qualitatif.
L’estimateur de p est p̂ représentant la proportion des individus de l’échantillon possédant
la modalité A.
3.2 Estimation par intervalles de confiance

On cherche un intervalle contenant le paramètre inconnu avec un niveau de confiance 1 − α
(α fixé).
α est dit risque et représente la probabilité que le paramètre inconnu n’appartient pas à
l’intervalle. On fixe α petit (en général α = 0.05).
10
3.2.1 Intervalle de confiance d’une moyenne

Soit X une variable alétoire suivant la loi normale N (m, σ).
a- Si σ est connu : L’IDC de m au risque α est donné par
σ σ
[x̄ − zα √ , x̄ + zα √ ]
n n
zα est lue dans la table de la loi normale N (0, 1) par P (zα ) = 1 − α2 .
a- Si σ est inconnu : On remplace σ par son meilleur estimateur S ∗ 2 = n

n−1
S2 et l’IDC
de m au risque α est donné par
S∗ S∗
[x̄ − tα √ , x̄ + tα √ ]
n n
t α2 est lu dans la table de la loi de Student à n − 1 degrès de liberté par
P (|tn−1 | < tα ) = P (−tα < tn−1 < tα ) = 1 − α.
Exercice : Soit un échantillon de 10 femmes ayant les taux de cholestérol (en g/l) sui-
vants :
3, 1.8, 2.1, 2.7, 1.4, 1.9, 2.2, 2.5, 1.7, 2
Donner un IDC pour le taux de cholestérol moyen au niveau 95%.
Remarque : Si n > 30, l’hypothèse de normalité de X n’est pas nécessaire et l’IDC

de m est
S∗ S∗
[x̄ − zα √ , x̄ + zα √ ]
n n
11
Marge d’erreur : C’est la motié de l’amplitude de l’IDC.

Exemple : Si l’IDC est [x̄ − zα √σn , x̄ + zα √σn ], la marge d’erreur est e = |zα √σn |.
3.2.2 Intervalle de confiance d’une variance

Soit X une v.a. suivant une loi normale N (m, σ).
a- Si m est connu : L’IDC de σ 2 au rsque α est donné par
Pn 2
Pn
i=1 (xi − m) (xi − m)2
[ , i=1 ]
k2 k1
k1 et k2 sont obtenus à partir de la table de la loi khi-deux à n degrès de liberté par
P (χ2n ≥ k1 ) = 1 − α2 et P (χ2n ≥ k2 ) = α2 (ou P (χ2n ≤ k1 ) = α2 et P (χ2n ≤ k2 ) = 1 − α2 )
b- Si m est inconnu : L’IDC de σ 2 au rsque α est donné par

Pn 2
Pn
i=1 (xi − x̄) (xi − x̄)2 nS 2 nS 2
[ , i=1 ]=[ , ]
k2 k1 k2 k1
k1 et k2 sont obtenus à partir de la table de la loi khi-deux à n − 1 degrès de liberté par
P (χ2n−1 ≥ k1 ) = 1− α2 et P (χ2n−1 ≥ k2 ) = α2 (ou P (χ2n−1 ≤ k1 ) = α2 et P (χ2n−1 ≤ k2 ) = 1− α2 )
3.2.3 Intervalle de confiance d’une proportion :

L’IDC d’une proportion p d’individus de la population possédant la modalité A d’un ca-
ractère qualitatif est donné par
r r
p̂(1 − p̂) p̂(1 − p̂)
[p̂ − zα , p̂ + zα ]
n n
12
Conditions d’application : n grand, np̂ > 5 et np̂(1 − p̂) > 5.

Exercice : On veut estimer la proportion des individus touchés par une anomalie génétique
en France. On prélève un échantillon aléatoire de 5000 personnes et on constate que 50
sont atteintes de cette anomalie.
Estimer par IDC au risque 5$cetteproportion.
13
Chapitre 4
Les tests d’hypothèses
4.1 Définitions
Un test statistique est une méthode permettant de prendre une décision à partir d’infor-
mation fournie par un échantillon sur deux hypothèses notées H0 et H1 avec un risque
d’erreur fixé.
H0 est dite hypothèse nulle et H1 hypothèse alternative ou contraire.
H0 et H1 s’excluent mutuellement c.a.d. si H0 est rejetée alors H1 est acceptée et inverse-
ment.
La décision prise dépend donc de l’échantillon. Ainsi qu’elle soit décision prise, on court
deux sortes de risques :
Le risque de première espèce α = P (rejeter H0 /H0 est vraie) qui est dit seuil de significa-
tion.
Le risque de deuxième espèce β = P (accepter H0 /H0 est fausse).
Les étapes à suivre dans un test statistique sont :
1- Définir les hypothèses H0 et H1 .
2- Choisir une statistique de test notée Tn ou Zn .
3- Définir la loi de Tn sous H0 .
4- Ecrire la région critique du test (région ou H0 est rejetée).
5- Calculer pour un échantillon donné la valeur de Tn qu’on notera Tobs et une valeur seuil
lue à partir de la table de loi de Tn sous H0 .
6- Comparer la valeur Tobs avec la valeur seuil et prendre une décision à partir de la région
critique.
On a deux types de tests : paramètriques (la statistique du test dépend d’un paramètre)
et non paramètriques (la statistique du test ne dépend pas d’un paramètre).
14
4.2 Tests paramètriques

C’est des tests dont la statistique du test dépend d’un paramètre d’une loi (moyenne,
variance, proportion,...).
4.2.1 Tests de conformité

Ils sont distinés à vérifier si un échantillon est extrait d’une population donnée ou représentatif
de cette population.
1- Test relatif à une moyenne : On veut savoir si un échantillon de taille n provient
d’une population de moyenne m0 connue. On note m la moyenne de la population dont est
issu l’échantillon.
On teste au risque α
H0 : m = m0 contre H1 : m 6= m0
1er cas : Si la variance σ 2 est connue

La statistique du test est
X̄ − m
Tn =
√σ
n
Si la variable considérée est normale ou si n ≥ 30 (sans l’hypothèse de normalité), on a

sous H0 (m = m0 )
X̄ − m0
Tn = σ ∼ N (0, 1).
√
n
x̄−m0
Pour un échantillon donné, on calcule Tobs = √σ
n
On rejette H0 si |Tobs | > zα , où zα est lu dans la table de la loi normale N (0, 1). Dans ce
cas, on dit que l’échantillon n’est pas représentatif de la population (ou bien il y a une
différence significative entre la moyenne de l’échantillon et celle de la population).
Si |Tobs | ≤ zα , on accepte H0 et on dit que l’échantillon est représentatif de la population
15
(ou bien il n’y a pas de différence significative entre la moyenne de l’échantillon et celle de
la population).
Exercice : La glycémie d’une population suit une loi normale de moyenne 1 g/l et d’écart-
type 0.1 g/l. On relève les glycémie chez 9 personnes et on trouve une moyenne de 1.12
g/l. Cet échantillon est-il représentatif de la population ?
2ème cas : Si la variance σ 2 est inconnue

On remplace σ par son meilleur estimateur S ∗ (S ∗ 2 = n−1
n
S 2 ) et on aura sous l’hypothèse
de normalité
X̄ − m0
Tn = S∗
∼ tn−1
√
n
x̄−m0
Pour un échantillon donné, on calcule Tobs = S∗
√
et la valeur seuil tα est lue dans la table
n
de Student à n − 1 degrès de liberté.
Si |Tobs | > tα , on rejette H0 et on dit que l’échantillon n’est pas représentatif de la popu-
lation .
Si |Tobs | ≤ tα , on accepte H0 et on dit que l’échantillon est représentatif de la population.
Exercice : Un biochimiste étudie un type de moisissure qui attaque les cultures de blé.
La toxine contenue dans cette moisissure est obtenue sous forme d’une solution organique.
On mesure la quantité de substance toxique en milligrammes par gramme de solution. Sur
9 extraits, on a obtenu les mesures suivantes :
1.2 - 0.8 - 0.6 - 1.1 - 1.2 - 0.9 - 1.5 - 0.9 - 1
Es ce qu’on peut affirmer au risque 5% que la quantité moyenne de substance toxique est
différente de 1mg ?
Remarque : Si n ≥ 30, l’hypothèse de normalité n’est pas nécessaire et la loi de student
peut être remplacée par la loi normale N (0, 1).
2- Test relatif à une proportion (ou pourcentage) : On a une population dont la

proportion p0 des individus possédant la modalité A d’un caractère qualitatif est connue.
Le but est de vérifier si un échantillon de taille n de proportion p est issu ou représentatif
de la poppulation.
H0 : p = p0 contre H1 : p 6= p0
16

K
−p
Tn = np pq ,
n
où q = 1 − p et K est la variable aléatoire représentant le nombre de réalisation de la

modalité A dans l’échantillon.
Sous H0 (p = p0 ), Tn suit une loi normale N (0, 1).
k
−p
Tobs = √n p0 q00 et la valeur seuil zα est lue sur la table de la loi N (0, 1).
n
Si |Tobs | > zα , on rejette H0 et on dit que l’échantillon n’est pas représentatif de la popu-
lation.
Si |Tobs | ≤ zα , on accepte H0 et on dit que l’échantillon est représentatif de la population.
1
Exercice : Une anomalie génétique touche en France 1000 des individus . On a constaté dans
une région 57 personnes atteintes sur 50000 naissances. Cette région est-elle représentative
de la France entière ?
4.2.2 Tests d’homogéneité (ou d’égalité)

Ils sont distinés à comparer deux populations à l’aide de deux échantillons ou de dire
si deux échantillons proviennent de la même population.
17
1- Test de comparaison de deux variances : On suppose que la variable aléatoire

X obsevée sur les deux population suit une loi normale N (m, σ) et les deux échantillons
sont indépendants.
Ce test est nécessaire avant le test de comparaison de deux moyennes lorsque les deux
variances σ12 et σ22 sont inconnues.
H0 : σ12 = σ22 contre H1 : σ12 6= σ22 (σ12 et σ12 inconnues)
Sous H0 (σ12 = σ22 ), on calcule
S1∗ 2
Fobs = , avec S1∗ 2 > S2∗ 2
S2∗ 2
S∗2
Si S2∗ 2 > S1∗ 2 , alors Fobs = S2∗ 2 .
1
La valeur seuil Fα est lue de la table de Fisher-Snedecor à (n1 − 1, n2 − 1) degrès de liberté.
Si Fobs > Fα , on rejette H0 et on dit que les deux échantillons proviennent de deux popu-
lations ayant différentes variances.
Si Fobs ≤ Fα , on accepte H0 et on dit que les deux échantillons proviennent de deux popu-
lations ayant la même variance.
Exercice : Dans une étude en biologie, on mesure la longueur (en mm) des spécimens
mâles et femelles de poissons adultes appartenant à la même espèce. On obtient :
Mâles : 120-107-110-116-114-111-113-117-114-112
Femelles : 110-111-107-108-110-105-107-106-111-111
Les deux populations ont-elles des variabilités différentes au risque 5% ?
Test de comparaison de deux moyennes On veut savoir au risque α si deux échantillons

proviennent de deux populations de même moyenne ou non.
On va tester au risque α
H0 : m1 = m2 contre H0 : m1 6= m2 (m1 et m2 inconnues)
18
Cas d’échantillons indépendants

1er cas : σ12 et σ22 sont connues
On calcule
x̄1 − x̄2
Tobs = q 2
σ1 σ2
n1
+ n22
La valeur seuil zα est lue dans la table de la loi normale N (0, 1).
Si |Tobs | > zα , alors on rejette H0 au risque α et on dit que les deux échantillons proviennent
de deux populations de différentes moyennes m1 et m2 (ou bien il y a une différence signi-
ficative entre les deux moyennes).
Si |Tobs | ≤ zα , alors on accepte H0 au risque α et on dit que les deux échantillons proviennent
de deux populations de même moyenne (ou bien il n’y a pas de différence significative entre
les deux moyennes).
Remarque : Si n1 ou n2 < 30, on doit supposer que la normalité de la variable étudiée.
2ème cas : σ12 et σ22 sont inconnues et égales (σ12 = σ22 = σ 2 )
On calcule
x̄1 − x̄2
Tobs = q
σˆ2 ( n11 + n12 )
n S12 +n2 S22
σˆ2 = n1 1 +n2 −2
est l’estimateur de σ 2 .
La valeur seuil tα est lue dans la table de la loi de Student à n1 + n2 − 2 degrès de liberté.
Si |Tobs | > tα , alors on rejette H0 au risque α et on dit que les deux échantillons proviennent
de deux populations de différentes moyennes m1 et m2 .
Si |Tobs | ≤ tα , alors on accepte H0 au risque α et on dit que les deux échantillons pro-
viennent de deux populations de même moyenne.
3ème cas : σ12 et σ22 sont inconnues et inégales (σ12 6= σ22 )

On a deux cas
Cas 1 : n1 > 30 et n2 > 30 On calcule
x̄1 − x̄2
Tobs = q ∗ 2
S1 S∗2
n1
+ n22
de deux populations de différentes moyennes m1 et m2 .
Si |Tobs | ≤ zα , alors on accepte H0 au risque α et on dit que les deux échantillons pro-
viennent de deux populations de même moyenne.
19
Cas 2 : n1 < 30 et/ou n2 < 30

Dans ce cas on a recours à des tests non paramétriques.
Exercice : Vérifier dans l’Exercice précédent si la longueur moyenne des spécimens diffère
entre les deux sexes de cette espèce au risque 5%.
Cas d’échantillons appariés

L’objectif de l’appariement est de réduire la variabilité due aux observations.
On étudie les valeurs par paires :
- mesure avant-après pour les mêmes sujets.
- Mesure de deux caractères sur les mêmes sujets.
Ici ce n’est pas nécessaire de tester l’égalité des variance avant de tester l’égalité des
moyennes.
(1) (2)
On note di = xi − xi les differences de n paires de valeurs du caractère.
On calcule
n n
d¯ 1X 1 X
Tobs = S∗
, avec d¯ = di = x¯1 − x¯2 et Sd∗ 2 = ¯2
(di − d)
√d n i=1 n − 1 i=1
n
La valeur seuil tα est lue dans la table de la loi de Student à n − 1 degrès de liberté.
Si |Tobs | > tα , alors on rejette H0 au risque α et on dit qu’il y a une différence significative
entre les deux moyennes.
Si |Tobs | ≤ tα , alors on accepte H0 au risque α et on dit qu’il n’y a pas de différence signi-
ficative entre les deux moyennes.
Condition d’application : Pour appliquer ce test, on doit avoir la normalité de la va-
riable X1 − X2 .
Exercice : Un médecin mesure la tension de 9 patients volontaires le matin et le soir. Les
résultats en centimètres de mercure sont :
Matin 13.12 13.54 15.12 14.51 12.12 13.10 13.98 11.21 14.44
Soir 13.92 13.89 14.51 14.78 10.97 13.58 14.52 11.54 13.54
Peut-on affirmer, au risque 5%, qu’en moyenne la tension du soir est différente de celle du
matin ?
Test de comparaison de deux proportions : On veut savoir si deux échantillons

indépendants provenant de deux populations ont la même proportion des individus possédant
la modalit’A d’un caractère qualitatif.
On va tester au risque α
H0 : p1 = p2 contre H1 : p1 6= p2 (p1 et p2 inconnues)
20
On calcule
| nk11 − k2
n2
|
Tobs = q
p̂q̂( n11 + 1
n2
)
k1 et k2 sont respectivement le nombre d’individus possédant la modalité A dans le premier
et le deuxième échantillon, p̂ = nk11 +k
+n2
2
et q̂ = 1 − p̂
de deux populations de différentes proportions p1 et p2 (ou bien il y a une différence
significative entre les deux proportions).
Si |Tobs | ≤ zα , alors on accepte H0 au risque α et on dit que les deux échantillons proviennent
de deux populations de même proportion (ou bien il n’y a pas de différence significative
entre les deux proportions).
Conditions d’application : n1 p̂ > 5, n1 q̂ > 5, n2 p̂ > 5 et n2 q̂ > 5.
Exercice : Dans la même catégorie sociale, un échantillon de 40 hommes a fourni 8 fumeurs
et un échantillon de 60 femmes 18 fumeuses. On se demande s’il y a autant de fumeurs
chez les hommes que chez les femmes au risque 5%.
4.2.3 Test de significativité du coéfficient de corrélation

Soient X et Y deux caractères quantitatifs. L’indicateur de liaison entre X et Y est le
coéfficient de corrélation linéaire
Cov(X, Y )
r= .
σX σY
La liaison entre X et Y est significative si le coéfficient de corrélation inconnu r peut être
considéré significativement non nul.
On va tester au seuil α
21
H0 : r = 0 (X et Y sont indépendants) contre H1 : r 6= 0 (X et Y sont liés).

Pour un échantillon (x1 , y1 ), (x2 , y2 ), ..., (xn , yn ), on calcule
ρ
Tobs = q
1−ρ2
n−2
Où ρ est le coéfficient de corrélation linéaire calculé à partir de l’échantillon.

La valeur seuil tα est lue dans la table de la loi de Student à n − 1 degrès de liberté.
Si |Tobs | > tα , on rejette H0 et on dit que X et Y sont liés (ou bien la liaison est si-
gnificative).
Si |Tobs | ≤ tα , on accepte H0 et on dit que X et Y ne sont pas liés (ou bien la liaison n’est
pas significative).
Conditions d’application
X et Y sont normalement distribuées ou n > 30 et X et Y sont continues.
Exercice : Pour 10 enfants, on donne la pointure des chaussures (X) et le quotient intel-
lectuel (Y).
xi 31 31 32 33 33 34 35 36 37 38
yi 50 55 52 56 63 65 69 90 110 150
Y a-t-il une liaison significative entre la longueur du pied et l’intelligence au risque 5% ?
Remarques :
1- Pour les tests paramétriques, on appelle :
Z-tests ou Tests de l’écart-réduit : Les tests pour lesquels la statistique suit une loi
normale centrée et réduite N (0, 1).
Tests de Student : Les tests pour lesquels la statistique suit une loi de Student.
Tests de Fisher : Les tests pour lesquels la statistique suit une loi de Fisher.
2- Si le test est unilatéral à droite (on remplace 6= par > dans l’hypothèse H1 ), on re-
jette H0 si Tobs > kα , où kα est la valeur seuil donnée par P (Tobs < kα ) = 1 − α.
3- Si le test est unilatéral à gauche (on remplace 6= par < dans l’hypothèse H1 ), on rejette
H0 si Tobs < kα , où kα est la valeur seuil donné par P (Tobs < kα ) = α.
22
Exercice : Dans la même catégorie sociale, un échantillon de 40 hommes a fourni 8 fumeurs

et un échantillon de 60 femmes 18 fumeuses. On se demande s’il y a moins de fumeurs chez
les hommes que chez les femmes au risque 5%.
4.3 Test non paramétriques :

4.3.1 Tests de khi-deux
Tests d’indépendance de khi-deux
Soient X et Y deux variables qualitatives ou quantitatives groupées en classes.
On veut tester au seuil α
H0 : X et Y sont indépendantes contre H1 : X et Y sont dépendantes (ou liées).
On construit le tableau de contingence suivant
XY modalité 1 modalité 2 . modalité l ni.

modalité 1 n11 n12 . n1l n1.
modalité 2 n21 n22 . n2l n2.
. . . . . .
modalité k nk1 . . nkl nk.
n.j n.1 n.2 . n.l N
23
On calcule les effectifs théoriques n0ij (effectifs sous H0 ) par
ni. × n.j
n0ij =
N
Le χ2 observé est donné par
X X (nij − n0ij )2
χ2obs =
i j
n0ij
La valeur seuil χα est lue dans la table de khi-deux à (k − 1)(l − 1) degrès de liberté.
Si χ2obs > χα , on rejette H0 et on dit que X et Y sont liés.
Si χ2obs ≤ χα , on accepte H0 et on dit que X et Y sont indépendants.
Remarque : Ce test est applicable si N > 50 et tous les n0ij > 5, sinon on procède à
un regroupement en lignes ou en colonnes.
Exercice : On veut étudier la liaison entre les caractères ”être fumeur” (plus de 20 ciga-
rettes par jour pendant 10 ans) et ”avoir un cancer de gorge” sur une population de 1000
personnes dont 500 sont atteints. on a le tableau suivant
Observé Cancer Non cancer

Fumeur 342 258
Non fumeur 158 242
Faire un test d’indépendance pour établir la liaison entre ces deux caractères au seuil
α = 0.05.
Tests d’ajustement de khi-deux
On cherche à vérifier au risque α si les valeurs x1 , x2 , ..., xn dont on dispose proviennent
d’une population distribuée selon une loi particulière F (x, θ).
On teste au seuil α
H0 : X suit la loi F (x, θ) contre H1 : X ne suit pas la loi F (x, θ).
24
On range les valeurs ou les classes dans un tableau dont la forme est
Valeurs xi x1 x2 ... xk Total

Effectif observé(ni ) n1 n3 ... nk n
Effectif attendu(ti ) t1 t2 ... tk n
ti : Effectif théorique ou attendu de xi sous H0 donné par

ti = npi où pi = P (X = xi /H0 est vraie).
On calcule
X (ni − ti )2
χ2obs =
i
ti
La valeur seuil χα est lue dans la table de khi-deux à k − p − 1 degrès de liberté, où p est
le nombre de paramètres inconnus de la loi F (x, θ).
Si χ2obs > χα , on rejette H0 et on dit que la distribution observée n’est pas conforme à la
distribution théorique.
Si χ2obs ≤ χα , on accepte H0 et on dit que la distribution observée est conforme à la
distribution théorique.
Remarque : Ce test est applicable si n > 50 et tous les ti > 5, sinon on regroupe les
valeurs ou les classes pour avoir cette condition.
Exercice : On observe 50 fratries de 2 enfants et on obtient le tableau suivant :
Nombre de garçons(xi ) 0 1 2
Nombre de fratries(ni ) 15 18 17
Es ce que la distribution du nombre de garçons observés suit une loi binomiale B(2, 12 ) ?
4.3.2 Tests de normalité :

Pour utiliser les tests classiques, il faut s’assurer que les variables continues sont distribuées
selon une loi normale. Si c’est le cas, les tests classiques sont applicables sinon il faut trouver
une alternative dite non paramétrique du test à réaliser.
Approche graphique
1- Histogramme des fréquences : On va représenter les données à l’aide d’un histo-
gramme pour voir si elles semblent s’ajuster selon une distribution normale.
2- Boite à moustaches : Elle représente la distribution à l’aide des paramètres : mi-

nimum, maximum, Q1, Q2=Me et Q3. La boite à moustaches permet d’avoir une idée sur
la symétrie de la distribution. La symétrie n’affirme pas la normalité mais une distribution
normale est forcément symétrique. La boite à moustache est symétrique si la médiane est
au milieu de la boite et les moustaches ont la même longueur.
Exemple : Les poids de 20 plaquettes de beurre en grammes sont :
247, 247.8, 250.2, 251.3, 251.9, 249.4, 248.8, 247.1, 255, 247, 254.8, 244.8, 250.7, 250.7,
25
252.6, 251.1, 254.1, 249.2, 252,254.

Avec le logiciel R, on écrit
boxplot(x)
On obtient le graphe suivant
3- QQ plot avec droite de Henry : Soit x1 , x2 , ..., xk un échantillon de la variable

aléatoire considérée. On calcule d’abord les fréquences relatives cumulées F1 , F2 , ..., Fk cor-
respondantes puis on calcule les quantiles t1 , t2 , ..., tk d’ordre F1 , F2 , ..., Fk par
P (N (0, 1) ≤ ti ) = Fi
Si les données sont normales, alors les points (xi , ti ) seront alignés.
Exemple précédent : On écrit avec le logiciel R :
qqnorm(x,datax=TRUE,main=”x”)
qqline(x,datax=TRUE)
On obtient le graphe suivant
26
Tests statistiques
Test de Shapiro-Wilk (n ≤ 50) : Soit x1 , x2 , ..., xk un échantillon de la variable aléatoire
considérée. On veut tester au seuil α
H0 : Les données sont issues d’une loi normale
contre
H1 : Les données ne sont pas issues d’une loi normale.
On calcule la statistique du test notée W à partir de l’échantillon et on cherche la valeur
seuil wα à partir d’une table.
Si W ≤ wα , on rejette H0 sinon on l’accepte.
Avec logiciel R : on aura la p-value (PH0 (W ≤ wα )) en écrivant
shapiro.test(x)$p.value
Si p-value< α, on rejette H0 c’est à dire on n’a pas la normalité des données.
Si p-value≥ α, on accepte H0 c’est à dire on a la normalité des données.
Exemple précédent :
La p-value= 0.751598 > 0.05, donc on accepte la normalité des données.
Test de Kolmogorov-Smirnov (n > 50) : On mesure l’écart maximum entre la fonction
de répartition observée (ou des fréquences relatives cumulées) et la fonction de répartition
théorique et on obtient la statistique D = max|Fobs − Ftheo | et on lit la valeur seuil dα dans
une table.
Si D > dα , on rejette H0 sinon on l’accepte.
Avec logiciel R : On aura la p-value en écrivant
ks.test(x)$p.value
Si p-value< α, on rejette H0 c’est à dire on n’a pas la normalité des données.
Si p-value≥ α, on accepte H0 c’est à dire on a la normalité des données.
27
Chapitre 5
Analyse de la variance (ANOVA) à

un facteur
5.1 introduction
L’ANOVA est une technique statistique qui vise à comparer des moyennes sur plusieurs
échantillons en testant l’effet d’un facteur qualitatif A sur une variable quantitative X.
On suppose que les échantillons sont indépendants et l’ensemble des individus est réparti
au hasard entre les p modalités du facteur A.
On suppose aussi que les échantillons sont issus d’une loi normale N (µ, σ) (à vérifier avec
un test de normalité) et ont la même variance (hypothèse d’homoscédasticité qu’on peut
utiser le test de Bartlett pour le vérifier).
Remarques :
1- Si la normalité n’est pas vérifiée, on peut transformer la variable comme suit
Type de distribution Transformation

√
Asymetrie positive modérée xi
Asymetrie positive importante √ log10 (xi )
Asymetrie négative modérée k − xi , k = 1 + max(xi )
Asymetrie négative importante log10 (k − xi ), k = 10 + max(xi )
2- Si la transformation ne règle pas le problème de normalité ou/d’homoscédasticité, on

peut utiliser l’équivalent non paramétrique de l’ANOVA, le test de Kruskall-Wallis.
Les données relatives à l’ANOVA à un facteur sont structurées comme suit :
28
Modalité 1 ..... Modalité i .... Modalité p

x11 ..... xi1 .... xp1
x12 ..... xi2 .... xp2
. ..... . .... .
. ..... . .... .
x1n1 ..... xini .... xpnp
Effectif n1 ..... ni .... np
p
P
Moyenne x̄1 ..... x̄i .... x̄p x̄ = ni x̄i
i=1
5.2 Principe de l’ANOVA

On décompose la variabilité totale en 2 composantes inter groupe (dispersion des
moyennes de chaque groupe) et intragroupe ou résiduelle (dispersion des moyennes dans
chacun des groupes).
p ni p p ni
X X X X X
2 2
(xij − x̄) = ni (x̄i − x̄) + (xij − x̄i )2
i=1 j=1 i=1 i=1 j=1
SCT = SCE + SCR

SC : Somme des carrées.
5.3 Procédure de l’ANOVA

On teste au seuil α
H0 : m1 = m2 = ... = mp = m (Il n’y a pas d’effet significatif du facteur A sur la variable
X)
contre
H1 : ∃i, j, mi 6= mj (Il y a d’effet significatif du facteur A sur la variable X)
29

CM E SCE SCR
Fobs = =
CM R p−1n−p
CM : Carrée Moyen.
La valeur seuil Fα est lue dans la table de Fisher-Snedecor à (p − 1, n − p) degrés de liberté.
Si Fobs > Fα , on rejette H0 et on dit que le facteur A a un effet significatif sur la variable
X.
Si Fobs ≤ Fα , on accepte H0 et on dit que le facteur A n’a pas d’effet significatif sur la
variable X.
Remarque : Si H0 est rejetée, pour savoir quelles sont les moyennes qui sont significati-
vement différentes, on peut utiliser la méthode de Scheffé.
5.4 Table de l’ANOVA
Sorte de variation Somme des carrées Degrés de liberté Carrée moyen Test de Fisher
Inter groupe SCE p−1 CM E = SCEp−1
Intra groupe SCR n−p CM R = SCRn−p
CM E
Total SCT n−1 Fobs = CM R
30
5.5 Exemple d’application

Le tableau suivant fournit les notes de 21 étudiants données par 3 examinateurs
Examinateur A B C
Notes 10 8 10
11 11 13
11 11 14
12 13 14
13 14 15
15 15 16
16 16
16
On veut savoir au risque 5% si le facteur ”examinateur” a un effet sur la moyenne des
notes des étudiants. Pour cela, on teste au seuil α = 0.05
H0 : Le facteur n’a pas d’effet sur la moyenne des notes (mA = mB = mC = m)
contre
H1 : Le facteur a un effet sur la moyenne des notes (mA 6= mB ou mA 6= mC ou mB 6= mC ).
Par calcul :
on aura x̄A = 12, x̄B = 13, x̄C = 14, x̄ = 13.047, CM E = 6.48 et CM R = 5.44.
CM E 6.48
Fobs = = = 1.19
CM R 5.44
La valeur seuil lue dans la table de Fisher-Snedecor à (2, 18) degrés de liberté est Fα = 3.55.
Fobs < Fα , donc on accepte H0 ce qui implique que le facteur ”examinateur” n’a pas d’effet
sur la moyenne des notes des étudiants.
Avec logiciel R :
On écrit
A = c(10, 11, 11, 12, 13, 15)
B = c(8, 11, 11, 13, 14, 15, 16, 16)
C = c(10, 13, 14, 14, 15, 16, 16)
On vérifie d’abord la normalité des 3 échantillons en utilisant le test de Shapiro-Wilk en
écrivant
x=c(A,B,C)
group=factor(c(rep(”A”,6),rep(”B”,8),rep(”C”,7)))
tapply(x,group,shapiro.test)
31
Affichage
A
Shapiro-Wilk normality test
data : X[[1L]]
W = 0.9334, p-value = 0.6067
B
data : X[[2L]]
W = 0.9203, p-value = 0.4323
C
data : X[[3L]]
W = 0.882, p-value = 0.2356
Les trois p-values sont supérieures à 0.05, donc on admet l’hypothèse de normalité des
3 échantillons.
On vérifie ensuite l’homoscédasticité avec le test de Bartlett en écrivant
bartlett.test(x,group)$pvalue
Affichage
0.5382
La p-value est supérieure à 0.05, donc on ne peut pas rejeter au seuil 0.05 l’égalité des
variances (homoscédasticité).
Pour visualiser les boites à moustaches des trois échantillons, on écrit

boxplot(x group)
On aura le graphe suivant :
On va faire maintenant une ANOVA, on écrit

data=data.frame(x=x,group=factor(group))
32
fit=lm(x ∼ group, data)

anova(fit)
Af f ichage
df SC CM F value
group 2 12.95 6.4762 1.1895 0.3272
residual 18 98 5.4444
On a la p-value = 0.5382 > 0.05, donc on ne peut pas rejeter au seuil 5% l’hypothèse
H0 , ce qui implique que le facteur ”examinateur” n’a pas d’effet sur la moyenne des notes
des étudiants.
Remarque : F value est la valeur de la statistique du test.
33
Table de lois usuelles
Table de loi normale centrée et réduite N (0, 1)
34
Table de Student
35
Table de khi-deux
36
Table de Fisher-Snedecor
37
Références
[1] Graiche F., Biostatistique, cours, applications, exercices corrigés et examens corrigés,
éditions pages bleues, 2019.
[2] Mercier M., Biostatistique et Probabilités, exercices, problèmes et épreuves corrigés,

éditions ellipses.
[3] Mouchiroud D., Cours Deug SV UCBL, université de Lyon 1.
[4] Oukacha B. et al., Statistique et Probabilités, éditions pages bleues.
38

Cours Biostat Licence Et Master

Transféré par

Informations du document

Titre original

Copyright

Formats disponibles

Partager ce document

Partager ou intégrer le document

Options de partage

Avez-vous trouvé ce document utile ?

Ce contenu est-il inapproprié ?

Droits d'auteur :

Formats disponibles

Cours Biostat Licence Et Master

Transféré par

Droits d'auteur :

Formats disponibles

Cours de Biostatistique pour Licence et

Université Mouloud Mammeri de Tizi Ouzou

Année universitaire : 2019/2020

Rappels de Statistique Descriptive

1.1 Statistique descriptive à une dimension

Le mode : C’est la valeur du caractère la plus répétée et elle est notée M o

xm est la limite inférieur de la classe modale et son amplitude.

Généralisation : Les 3 quartiles Q1 , Q2 = M e et Q3 partagent la série en 4 parties

La moyenne arithmétique : elle est notée x̄.

Relation entre les paramètres de position :

1.2 Statistique descriptive à deux dimensions (Deux

1.2.1 Représentation graphique

1.2.2 Moyennes et variances marginales

1.2.3 Covariance et coéfficient de corrélation linéaire

Calculer le coéfficient de corrélation linéaire.

1.2.4 Droite de régression

Exercice : Pour l’Exercice précédent, donner la droite de régression de Y en X.

2.2 variable aléatoire discrète

La variance de X est donnée par

V (X) = E(X 2 ) − [E(X)]2 .

Exemple de lois discrètes :

La loi de X est donnée par

P (X = x) = Cnx px (1 − P )n−x , x ∈ {0, 1, 2, 3, ..., n},

2.3 variable aléatoire continue

2- P (a ≤ X ≤ b) = P (X ≤ b) − P (X ≤ a) = FX (b) − FX (a), pout tout a < b.

L’esperence d’une variable continue X est donnée par

Exemples de lois continues :

Autres lois tabulées : Loi de Student, loi khi-deux, loi de Fisher,...

3.1 Estimation ponctuelle

Estimation d’une proportion : Soit p la proportion des individus de la population

3.2 Estimation par intervalles de confiance

3.2.1 Intervalle de confiance d’une moyenne

a- Si σ est inconnu : On remplace σ par son meilleur estimateur S ∗ 2 = n

Remarque : Si n > 30, l’hypothèse de normalité de X n’est pas nécessaire et l’IDC

Marge d’erreur : C’est la motié de l’amplitude de l’IDC.

3.2.2 Intervalle de confiance d’une variance

b- Si m est inconnu : L’IDC de σ 2 au rsque α est donné par

3.2.3 Intervalle de confiance d’une proportion :

Conditions d’application : n grand, np̂ > 5 et np̂(1 − p̂) > 5.

Les tests d’hypothèses

4.2 Tests paramètriques

4.2.1 Tests de conformité

1er cas : Si la variance σ 2 est connue

Si la variable considérée est normale ou si n ≥ 30 (sans l’hypothèse de normalité), on a

2ème cas : Si la variance σ 2 est inconnue

2- Test relatif à une proportion (ou pourcentage) : On a une population dont la

La statistique du test est

où q = 1 − p et K est la variable aléatoire représentant le nombre de réalisation de la

4.2.2 Tests d’homogéneité (ou d’égalité)

1- Test de comparaison de deux variances : On suppose que la variable aléatoire

Test de comparaison de deux moyennes On veut savoir au risque α si deux échantillons

Cas d’échantillons indépendants

2ème cas : σ12 et σ22 sont inconnues et égales (σ12 = σ22 = σ 2 )

3ème cas : σ12 et σ22 sont inconnues et inégales (σ12 6= σ22 )

Cas 2 : n1 < 30 et/ou n2 < 30

Cas d’échantillons appariés

Test de comparaison de deux proportions : On veut savoir si deux échantillons

4.2.3 Test de significativité du coéfficient de corrélation

H0 : r = 0 (X et Y sont indépendants) contre H1 : r 6= 0 (X et Y sont liés).

Où ρ est le coéfficient de corrélation linéaire calculé à partir de l’échantillon.

Exercice : Dans la même catégorie sociale, un échantillon de 40 hommes a fourni 8 fumeurs

4.3 Test non paramétriques :

XY modalité 1 modalité 2 . modalité l ni.