Académique Documents
Professionnel Documents
Culture Documents
Cours : BIOMETRIE
Contacts : 97939253/95842387/90081208
E-mail : zinzalojoel@yahoo.fr
Biomtrie
Objectifs
Fournir ltudiant les connaissances de base des outils utiliss en biostatistique
et linitier lexploitation de celles-ci dans les prises de dcision.
CONTENU DU MODULE
Chapitre 1 : Terminologie et concepts de base
Chapitre 2 : Traitement des donnes dune srie statistique
Chapitre
Rfrences bibliographiques
1. Putt S.N.H., Shaw A.P.M., Woods A.J., Tyler L., James A.D., 1987.
pidmiologie et conomie vtrinaires en Afrique Manuel lusage des
planificateurs de la sant animale. Addis Abeba, CIPEA, 146 p.
2. Scherrer, B. 1984, Biostatistique, Montral, Paris, Casablanca, Gatan Morin
diteur, 850 p
3. BERTIN
J.
1977.
La
graphique
et
le
traitement
graphique
de
Philippe
en
&
VAN
CUTSEM
Bernard,
1988.
Mthodes
et
Pierre,
1969
1970.
Thorie
et
mthodes
statistiques.
Page 2
Biomtrie
8. LE GUELTE L., LE BERRE M., DAHAN G., RAMOUSSE R. & COULON
J. 1983. Traitement statitistique informatis des donnes en thologie.
tudes et analyses comportementales, 1(4) :202-268. Pour une histoire de la
statistique. Tome 1. Insee, Imprimerie Nationale, 593 pp.
9. SCHWARTZ D. 1963. Mthodes statistiques l'usage des mdecins et
des biologistes. Paris, Flammarion Mdecine Sciences. SIEGEL Sidney,
1956. Non parametric statistics for the behavioral sciences , McGraw Hill,
312 pp.
10. SNEDECOR G.W. Calculation and interpretation of analysis of variance
and covariance, Collegiate Press, Ames, Iowa.
11. SPRENT P. 1992. Pratique des statistiques nonparmtriques. INRA Editions.
VESSEREAU A. 1948. Mthodes statistiques en biologie et en agronomie.
Baillre et fils, Paris, p.381.
12. VIGNERON
WINER
B.J.
E.
1997.
Gographie
et
statistique.
Que
sais-je?,
PUF.
Page 3
Biomtrie
INTRODUCTION GENERALE
Le terme biomtrie signifie mesure + vivant ou mesure du vivant , et
dsigne dans un sens trs large l'tude quantitative des tres vivants. Parmi les
principaux domaines d'application de la biomtrie, on peut citer l'agronomie,
l'anthropologie, l'cologie et la mdecine.
L'usage de ce terme se rapporte de plus en plus l'usage de ces techniques des
fins de reconnaissance, d'authentification et d'identification, le sens premier du
mot biomtrie tant alors repris par le terme biostatistique.
La biostatistique est l'application des mthodes statistiques un large ventail
de sujets en biologie. La science de la biostatistique englobe :
Page 4
Biomtrie
Lorigine du mot statistique remonte au latin classique status (tat) qui, par
une srie dvolutions successives, aboutit au franais statistique, attest pour la
premire fois en 1771.
Cest vers la mme poque que statistik apparat en allemand, alors que les
anglophones utilisent lexpression political arithmetic jusquen 1798, date
laquelle le mot statistics fait son entre dans cette langue.
Dfinition : La statistique est lensemble des mthodes ou techniques qui
permettent lorganisation, lanalyse et la synthse des observations en vue :
-
On distingue :
-
La statistique mathmatique
Page 5
Biomtrie
La statistique plus applique est utilise dans presque tous les domaines de
l'activit humaine : ingnierie, management, conomie, biologie, informatique,
etc.
Actuellement, on distingue gnralement les statistiques (au pluriel) de la
statistique (au singulier). En effet, La statistique (au singulier) dsigne loutil,
lensemble des mthodes. Les statistiques peuvent tre dfinies comme ltude
mthodique des faits sociaux qui dfinissent un Etat, par des procds
numriques (dnombrements, inventaires, recensements,). Les statistiques
dsignent aussi des objets, les donnes numriques observes que ces mthodes
permettent danalyser.
Page 6
Biomtrie
Chapitre 1 :
TERMINOLOGIE ET CONCEPTS DE BASE
1. Population
On appelle population est lensemble de tous les lments sur lesquels porte une
tude statistique.
La population statistique peut tre constitue dtres humains, mais galement
danimaux, dobjets, ou dvnements.
On distingue deux types de population.
La population relle : cest celle quon peut trouver dans la nature.
La population fictive : introuvable dans la nature, la population fictive sort de
limagination. On peut bien sr tirer des conclusions sur la population fictive.
2. Echantillon
On appelle chantillon, tout sous-ensemble de la population. Il doit tre choisi de
faon alatoire de faon que tous les lments aient la mme probabilit dtre
choisie.
On peut dduire les proprits de toute une population partir de lanalyse dun
chantillon.
Il est capital que lchantillon soit choisi de faon alatoire et analys de manire
adquate. En particulier, il faut que lchantillon soit reprsentatif de la
population. Un chantillon non reprsentatif est dit biais.
3. Unit statistique
Chaque lment de la population ou de lchantillon est appel unit
statistique ou unit exprimentale et le nombre dunits dans la population
est appel effectif de la population ; Cet effectif de la population est not n.
Page 7
Biomtrie
4. Caractre
On appelle caractre tout critre observable sur chaque unit de la population,
et permettant donc de dcrire la population.
Encore appele facteur ou variable cest toute caractristique prise par les
individus de la population. On appelle aussi variable tout ce qui peut prendre
plus dune valeur. Exemples : lge, le sexe, le poids, la taille.
On peut distinguer deux types de caractres : un caractre quantitatif et un
caractre qualitatif. Un caractre est dit quantitatif sil est mesurable ; En
revanche, un caractre est dit qualitatif sil est non mesurable.
Les variables qualitatives sont utilises pour dcrire et se divisent en deux
groupes :
-
qualitatif
nominal
Page 8
ordinal
Discret
Continu
Biomtrie
5. Modalits et nomenclature.
Dfinition : on appelle << modalits >> les divers tats que peut prendre un
caractre. La liste des modalits dun caractre est appele << nomenclature >>
du caractre.
La nomenclature associe un caractre nest pas unique et dpend en fait du
degr de dtail que le statisticien entend donner son tude.
Limportant est que la nomenclature respecte les deux proprits suivantes :
Lincompatibilit des modalits : sur aucune unit de la population ne
peuvent tre observes plusieurs modalits du caractre. Par exemple,
pour le caractre << nombre denfants par mnage >>,
0 enfant
0 enfant
1 enfant
1 enfant
2 enfant
2 enfant
3 enfants
3 enfants
4 enfants
2 enfants
Incompatibilit
=> compatibilit
0 enfant
1 enfant
1 enfant
2 enfants
2 enfants
3 enfants
3 enfants
4 enfants et plus
Non exhaustivit
=> exhaustivit
Les modalits dun caractre x sont notes x1, x2, , xi,, xk.
Page 9
Biomtrie
Lorsque le caractre tudi est quantitatif continu, les observations sont
regroupes en modalits reprsentant des intervalles numriques appels
classes .
Chapitre 2 :
TRAITEMENT DES DONNEES DUNE SERIE STATISTIQUE
100
2. Tableau statistique
On appelle tableau statistique un tableau qui comporte 3 parties :
-
Le titre
Le corps
La source.
Le titre est toujours libell comme suit : Distribution (ou rpartition) de tels
individus ou de telles populations selon tel caractre.
Le corps est le tableau lui-mme.
Par Jol M. ZINSALO
Page 10
Biomtrie
La source renseigne sur le lieu et la date dlaboration du tableau. Elle permet
au lecteur de vrifier lexactitude des donnes. Sil sagit dun exercice propos, on
crit source fictive ou source inconnue.
2.1.
La couleur des cheveux par exemple est un caractre qualitatif (nominal). Les
modalits peuvent tre : blonde, brune, rousse,
2.2.
2.2.1.
Comme nous lavons prcdemment dit, il faut toujours distinguer les trois
parties dun tableau statistique : le titre le corps la source.
. On calcule ltendue
et la plus petite
par la formule :
par la formule :
=
) et on
ou
Page 11
Biomtrie
%&' ( ; "#$(
%&' ) ; "#$)
%&' + ; "#$+
Total
= [
100
Exemple :
xi
[4,6[
[6,7[
[7,8[
[8,9[
Par Jol M. ZINSALO
/ =
ai
2
1
1
1
+
2
ci
5
6,5
7,5
8,5
Page 12
Biomtrie
[9,10[
[10,13[
1
3
9,5
11,5
[119,120[
120 et plus
nomenclature 2
[0,10[
[10,20[
[20,30[
[80,90[
90 et plus
nomenclature 3
[0,20[
[20,60[
60et plus
La nomenclature 1 est trs (et mme trop) riche en information et trs lourde
manipuler. La nomenclature 3 est au contraire trop agrge, de sorte que
linformation contenue dans la distribution sera pauvre. La nomenclature 2
constitue un compromis.
===>
90 et plus
[110,120[
[120,130[
Page 13
Biomtrie
4- Il convient dtre prudent pour dfinir le centre des classes situes aux
extrmits de la nomenclature. Ce dernier doit tre choisi de manire bien
reprsenter la valeur moyenne des observations au sein de la modalit.
Par exemple, dans la nomenclature 2, la borne suprieure de la classe 90
ans et plus est indtermine. En posant cette borne suprieure gale
120 ans, on aurait un centre de classe gal 115 ans.
Pour la nomenclature vrifiant les proprits dexhaustivit et dincompatibilit
des modalits, la proprit suivante est vrifie :
+
= .
+ +
Preuve :
1 2=
= 1.
4=
= 1.
tre
Page 14
Biomtrie
Les notions deffectifs et de frquences cumuls supposent que lon puisse classer
les observations par ordre croissant ou dcroissant. Or, ceci nest possible
quavec des caractres quantitatifs (ge, salaire, ). Leffectif cumul croissant ne
sera donc pas dfini pour les caractres qualitatifs, pour lesquels les observations
ne peuvent tre ordonnes (couleur des yeux, marque de voiture, ).
++
+ +
+.
Ni5686
1487
968
157
69
Page 15
Biomtrie
N2+ = 4718
Lecture :
+ + 9
/ : 8 =
-
5-
Lecture : (100. Fi+)% des units de la population vrifient une valeur observe du
caractre x infrieure ou gale ei+. (Ou xi si le caractre est quantitatif discret)
ou encore :
=
8 =
,
++
5,
Page 16
Biomtrie
Lecture : (100. Fi-)% des units de la population vrifient une valeur observe du
caractre x suprieure
discret)
Longueur
en ni
Ni+
mtres
Moins de 12
4199
0,7485
519
0,8298
[12 ,16[
811
0,9724
[16 ,25[
88
0,9879
[25, 38[
38 et plus
69
1
Total
5686
Source : Direction des pches maritimes
Lecture :
F2+ = 0,8298
Ni1
0,2615
0,1702
0,0276
0,0121
-
F2- = 0,2615
26,15% des
0,0276
2,76% des
Page 17
Biomtrie
Exercice
La distribution des dures dincubation de la brucellose chez 40 vaches ges de
10 ans sont :
269,7 263,6 264,4 259,7 262,4 263,4 260,7 265,0 267,0 265,6
268,8 260,3 263,4 267,6 264,1 272,9 264,8 261,4 264,5 266,2
265,9 265,3 266,4 255,8 267,1 265,5 264,5 262,2 271,0 264,4
269,8 266,1 268,7 261,2 263,1 264,6 258,7 262,3 261,2 262,1.
1. Dterminer le nombre de classes ncessaires.
2. Dterminer ltendue de la srie
3. Dterminer lamplitude des classes et les classes de donnes. Arrondir
lamplitude lentier suprieur.
4. Dpouiller les donnes de la srie statistique.
3. Diagrammes
On entend souvent quun schma vaut mieux quun long discours. Effectivement,
lorsque lon veut tudier une srie dobservations statistiques, il est souvent
judicieux den donner une reprsentation graphique.
Cette reprsentation dpend de la nature des donnes tudies. En effet, il existe
plusieurs types de donnes : donnes quantitatives continues (mesures par une
unit de grandeur, comme le mtre, le franc), quantitatives discrtes (rsultant
dun dnombrement et sexprimant en nombres entiers) ou qualitatives nominales
(codes par une lettre, par exemple F pour fminin, M pour masculin, ou un
chiffre sans signification numrique) et ordinales (objets classs par ordre de
prfrence).
Les reprsentations graphiques fondamentales sont :
des diagrammes, dans le cas de donnes qualitatives, quantitatives
discrtes ;
des histogrammes, dans le cas de donnes quantitatives continues.
Par Jol M. ZINSALO
Page 18
Biomtrie
3.1.
tel que :
> =
>
360
1.2.
1.2.1.
Page 19
Biomtrie
les points ? ,
@ et les points ?
1, 0@ et ?
+ 1, 0@.
Exercice
Le tableau suivant reprsente la rpartition du nombre denfants par mnage
dans un quartier donn.
Nombre denfants Nombre de mnages
1
50
60
30
90
Exercice
Dans un pays, on a tudi, sur une priode de temps trs longue, le nombre de
suicides des jeunes de moins de 20 ans.
Il y a eu 19 annes o on a compt 1 suicide par an
17 annes o on a compt 2 suicides par an
20 annes o on a compt 3 suicides par an
15 annes o on a compt 4 suicides par an
11 annes o on a compt 5 suicides par an
8 annes o on a compt 6 suicides par an
2 annes o on a compt 7 suicides par an
3 annes o on a compt 8 suicides par an
3 annes o on a compt 9 suicides par an
3 annes o on a compt 10 suicides ou plus par an
9 annes o il ny a eu aucun suicide.
1) Prciser la population tudie, lindividu, le caractre tudi et ses
modalits.
2) Etablir le tableau statistique complet.
3) Prsenter le diagramme en btons reprsentatif des effectifs.
Par Jol M. ZINSALO
Page 20
Biomtrie
4) Prsenter le polygone des effectifs.
Solution
1) La population tudie est lensemble des jeunes de moins de 20 ans dun pays
qui se sont suicids pendant une priode trs longue. Un individu est
reprsent par une anne. Le caractre tudi est le suicide. Les modalits de
celui-ci correspondent au nombre de suicides observs soit de 0 10 et plus.
2) Il sagit de prsenter un tableau statistique 8 colonnes donnant
1.2.2.
des classes. Si les classes nont pas la mme amplitude, on utilise pour
calcule la densit B connaissant lamplitude . par la formule :
B =
. On
+ 1,0@.
ferme joignant les milieux des barres suprieures des rectangles appels
Page 21
Biomtrie
de la classe. Pour le polygone cumulatif dcroissant les effectifs cumuls
dcroissants sont ports sur laxe des ordonnes ; la donne cumule est
porte au point dabscisse correspondant la borne infrieure de la classe.
Exercice
En utilisant les donnes de lexercice 3 :
1) Faire un tableau statistique complet.
2) Construire lhistogramme du revenu trimestriel de ces habitants.
3) Construire lhistogramme avec les centres des classes.
4) Prsenter le polygone statistique.
5) Prsenter le graphique reprsentatif des frquences cumules croissantes
et celui des frquences cumules dcroissantes.
Exercice
La Direction Rgionale de lagriculture et de la fort dun pays nous a donn en
2011, la rpartition par tranche dges des chefs dexploitation agricole de la
rgion centre.
Moins de 25 ans
580 exploitations
de 25 29 ans
2162 exploitations
de 30 39 ans
8063 exploitations
de 40 49 ans
9569 exploitations
de 50 59 ans
16 660 exploitations
plus de 60 ans
15 913 exploitations.
Page 22
Biomtrie
c) le graphique reprsentatif des frquences cumules croissantes et celui
des frquences cumules dcroissantes. Quelle est la signification du
point dintersection ?
Solution
1) La population tudie est lensemble des chefs des exploitations agricoles de la
Rgion centre en 2011. Un individu est constitu dun chef dexploitation. Le
caractre tudi est son ge. Il varie de moins de 25 ans plus de 60 ans : ce
sont ses diffrentes modalits.
2) Tableau statistique
Classes
Centre
ges
Effectifs
de
Nombre
classes
tablis
Frquences
(%)
Effectifs
Effectifs
Frquences
Frquences
Cumuls
Cumuls
Cumules
Cumules
croissants
dcroissants
croissantes
dcroissantes
Total
Page 23
Biomtrie
CHAPITRE 3 :
Caractrisation des donnes :
Paramtres de position Paramtres de dispersion
Diagrammes en botes
1.1.
Le mode
Page 24
Biomtrie
f
r
q
u
e
n
c
e
X
Une distribution bimodale est une distribution prsentant deux modes
f
r
q
u
e
n
c
e
X
modes
ni
13
14
11
38
Mo = argent
Page 25
Biomtrie
Exemple : Mdailles de la France aux J.O. dAtlanta en 1996 :
xi (mtal)
Or
Argent
Bronze
TOTAL
1.1.2.
ni
15
7
15
37
Mo = {or, bronze}
Salaire en kF
Nombre douvriers
21
49
100
24
Pour dterminer le mode dans le cas o les classes nont pas la mme amplitude,
il faut rapporter leffectif de chaque modalit son amplitude, de manire
comparer les diffrentes modalits sur une base commune.
Page 26
Biomtrie
Exemple : rparation par ge des habitants dune commune
xi (ge en annes)
[0, 18[
[18, 35[
[35, 55[
[55, 105[
TOTAL
ni
72
102
105
171
450
Xi (ge en annes)
ni
ai
d i = ni / ai
[0, 18[
72
18
d1= 72 /18 = 4
[18 ,35[
102
17
d2 = 102 / 17 = 6
[35 ,55[
105
20
d3 = 105 / 20 = 5,25
[55, 105[
171
50
d4 = 171 / 50 = 3,42
Total
350
Lecture : Dans la modalit dge [0, 18[, on trouve en moyenne 4 personnes par
tranche dun an.
Dans la modalit dge [18, 35[ , on trouve en moyenne 6 personnes par tranche
dun an.
Page 27
Biomtrie
Dans la modalit dge [35, 55[, on trouve en moyenne 5,25 personnes par
tranche dun an.
Dans la modalit dge [55, 105[, on trouve en moyenne 3,42 personnes par
tranche dun an.
La modalit la plus reprsente est donc bien [18, 35[. On a donc :
Mo = [18, 35[ .
Proprits du mode
Le mode soufre de certains dfauts :
Sa dtermination nest pas prcise pour les variables continues
(Mo = [18 ,35[ dans lexemple).
Il ne se prte pas au calcul algbrique.
1.2.
La mdiane
ou encore 8GH
= 0,5.
1.2.1.
un premier temps
Page 28
Biomtrie
1.2.1.1. Taille dchantillon impaire
Si n est impair, alors la mdiane est lobservation de rang
ordonne (ordre croissant).
dans la srie
= 2 et on dtermine
=
par la formule :
Les donnes sont ensuite classes par ordre croissant. On identifie ensuite la
donne de rang
formule :
et la donne de rang
P =
QRSS T U SV + QRSS T U SV ? + W@
X
153 157 159 165 167 172 173 178 182 184
On trouve :
10
=5
2
Page 29
Biomtrie
F =
167 + 172
= 169,5
2
1.2.2.
avec les effectifs cumuls croissants. La classe mdiane est celle dont leffectif
donne (celle dont leffectif cumul
^_
o
S
S
`_,W
X
P = ^_ + _
SP
`_,W est la somme des effectifs partiels de toutes les classes prcdant la classe
est le nombre total des donnes dans la srie
Proprits de la mdiane
La mdiane nest pas dfinie pour les caractres qualitatifs, et son interprtation
pose problme pour les variables discrtes. En fait, la mdiane est un indicateur
utile et pertinent dans le seul cas des variables continues, o linterprtation de
la mdiane est simple et parlante .
La mdiane a pour avantage dtre peu sensible aux valeurs numriques de la
srie ; elle ne dpend gure que de lordre des observations et est constante mme
si les premires et dernires observations varient considrablement. Elle nest pas
toujours facile calculer, et parfois mme nexiste pas.
Page 30
Biomtrie
1.3.
Moyennes
Exemple :
Pour un examen de DUT, les notes dun tudiant dans 7 matires sont :
18 16 15 - 14 12 - 17 11.
18 + 16 + 15 + 14 + 12 + 17 + 11
= 14,71
7
Cette formule est utilise pour des donnes non groupes (c'est--dire des
donnes en vrac ou en ordre chronologique).
Pour calculer la moyenne arithmtique dune variable continue dont les
observations sont donc regroupes en classe, on considre que les valeurs
observes sont rparties de manire uniforme au sein de chaque intervalle. Ceci
xi est gale au centre ci de cette classe. On utilise les centres / des classes et
revient supposer que la valeur moyenne des observations au sein dune classe
la formule :
e=
d
W S_ f_
Page 31
Biomtrie
Il peut arriver que des donnes soient rptes un certain nombre de fois dans
une srie statistique.
La moyenne pondre est une moyenne arithmtique dans laquelle chaque
modalit
W S_ d_
W S_
ni (coefficient)
ni. xi
24
16
32
13
39
10
Total
12
113
@=
? .
@=
@=
Proprit :
Sur deux populations Pa et Pb de mme nature, et deffectif respectif na et nb, on a
la valeur moyenne du caractre, note respectivement ggg et ggg.
h Alors, la moyenne
Page 32
Biomtrie
Exemple : Les 300 copies de statistique ont t corriges en deux fois :
120 copies avec une moyenne de 09/20
180 copies avec une moyenne de 11,5/20
120
180
9+
11,5 = 10,5.
300
300
Exercice 2
Dans une population de 12 000 familles de huit enfants, on tudie le caractre
nombre de garons parmi les huit enfants de chaque famille . La rpartition de
ces familles suivant le nombre de garons est la suivante :
Nombre
Nombre de familles
de garons
ayant n garons
0
48
1
295
2
1425
3
2213
4
3438
5
2457
6
1607
7
453
8
64
1. Construire le diagramme en btons des observations.
2. Quel est le mode de cette srie statistique ?
3. Calculer la mdiane.
4. Calculer la moyenne.
Exercice 3
En vue dtudier la rpartition des ouvriers agricoles dune rgion en fonction du
salaire journalier, on choisit un chantillon reprsentatif de cette population. On
observe que le salaire journalier est compris entre 80 kF et 200 kF, un intervalle
partag en 8 intervalles conscutifs gaux. La rpartition des individus de
lchantillon dans ces 8 classes est la suivante :
Page 33
Biomtrie
Salaires
journaliers d
Effectifs des
C80, 95C
classes
C110, 125C
56
C125, 140C
135
C170, 185C
60
C95, 110C
11
C140, 155C
140
C185, 200C
30
C155, 170C
96
mathmatiquement.
Elle
dpend
de
toutes
les
valeurs
xi
et
Page 34
Biomtrie
Lorsque les donnes sont peu nombreuses, que certaines observations sont trs
leves en valeur absolue, et quil existe un risque derreur de mesure non
ngligeable, on choisira la mdiane comme ordre de grandeur des observations.
Lorsque les observations sont prcises, fiables et relativement nombreuses, on
choisira la moyenne comme ordre de grandeur des observations.
2. Caractristiques de dispersion
Les indicateurs de tendance centrale ne permettent pas eux seuls de
caractriser la distribution statistique. Ils renseignent sur lordre de grandeur
au milieu de la srie , mais nindique rien quant la rpartition des
observations autour du centre de la distribution.
Exemple : Age de mariage de deux groupes dindividus
Groupe 1
21
22
23
24
30
30
36
37
38
39
Groupe 2
28
29
29
30
30
30
30
31
31
32
Groupe 1
Groupe 1
: Mo = Me = = 30
: Mo = Me = = 30
Bien que les deux sries aient exactement les mmes caractristiques de
tendance centrale, les distributions sont clairement trs diffrentes :
Dans le groupe 1, les observations sont beaucoup plus disperses autour de la
tendance centrale.
Nous allons ici dfinir les indicateurs synthtiques permettant de mesurer
cette dispersion. Ces indicateurs sont de plusieurs types :
-
Lcart moyen
Le coefficient de variation
Les quantiles.
Page 35
Biomtrie
2.1.
Ltendue
Exemple : ge de mariage
= dj
et la plus faible
d
de la srie.
dj_S
Groupe 1 : tendue = 39 21 = 18
Groupe 2 : tendue = 32 28 = 4
Lentendue, pour simple quelle soit calculer et interprter, ne constitue pas
pour autant une mesure fiable de dispersion. En effet,
-
2.2.
Lcart moyen
, et den calculer la moyenne
2.3.
$ | |
k=
$
Page 36
Biomtrie
1
m=
-
@( 9 m = n
4 o
?/
m=
@(
9 m = n
/ 3
(
/4 o
21
29
29
30
30
31
31
39
Groupe 2
29
29
29
30
30
31
31
31
Groupe 1:
1
m = pq
8
Groupe 1:
1
166
30@ = ?81 + 1 + 1 + 1 + 0 + 0 + 1 + 1 + 81r =
= 20,75
8
8
1
m = pq
8
1
6
30@ = ?1 + 1 + 1 + 0 + 0 + 1 + 1 + 1r = = 8,75
8
8
La variance na pas dinterprtation isolment. En effet, elle nest pas exprime dans
lunit de mesure de la variable (ici lanne), mais en carr de cette variable (des
annes au carr !!). Pour combler ce dfaut, on dfinit lcart type, not , comme la
racine carre de la variance.
Lcart type est donc exprim dans lunit de mesure de la variable :
-
= m = t
-
@( 9 = t n
4 o
=t
Par Jol M. ZINSALO
?/ @( 9 = t n
/ 3
(
/4 o
Page 37
Biomtrie
Exemple : Age au mariage de deux groupes dindividus.
Groupe 1 : ? @ = u20,75 = 4,56 . v
Groupe 2 : ? @ = u0,75 = 0,75 . v
en Ni
Ci
(Ci )
ni-(C1- )
mtres
Moins de 200
4199
10*
-2,62
28824
[12, 16[
519
14
1,38
988
[16, 25[
811
20,5
7,88
50358
[25, 38[
88
31,5
18,88
31368
38 et plus
69
45*
32,88
72344
TOTAL
5686
183882
m=
2.4.
= 12,62 ]w: v.
183882
= 32,34 = u32,34 = 5,69 ]w: v.
5686
Le coefficient de variation
Page 38
Biomtrie
Le coefficient de variation CV est calcul par la formule :
{
yz = W||
e
d
e est
Il est indpendant de lunit de mesure de la caractristique observe. Si d
ngative, on retient la valeur absolue de CV.
Exemple
4,56
= 0,152
30
0,87
= 0,029
30
= 12,62 w = 5,69 . v }m =
5,69
= 0,451
12,62
On peut conclure que la distribution la plus disperse est celle des bateaux de
pche par taille.
2.5.
Les quantiles
Page 39
Biomtrie
Les dciles : ce sont les valeurs D1, D2 D3, , D8, D9 qui partagent lensemble des
observations classes par ordre croissant en 10 sous ensembles comprenant
chacun 10% de la population totale.
Les centiles : Ce sont les valeurs C1, C2 C3, , C98 C99 qui partagent lensemble
des observations classes par ordre croissant en 100 sous ensembles comprenant
chacun 1% de la population totale.
Le 1er quartile not ~W dune srie ordonne (ordre croissant) est le nombre en
plus 50% des donnes ; cest donc la mdiane. Le troisime quartile ~ est le
correspond la mdiane et reprsente le nombre en de duquel se trouvent au
8
~W
3
8
~ = + 4
.
~
8 : somme des frquences absolues des classes prcdant la classe qui contient le
premier ou le troisime quartile
~W
~
. : amplitude de classe.
Page 40
Biomtrie
De faon analogue, on calcule les dciles Dj et les centiles Cj par les formules :
Dciles 6 C
Centiles }6 C
2.6.
C Q =
,
_
C y =
,
_
?
+ _
S
@ `_,W
W|
S_
S
@
W||
S_
`_,W
Diagramme en botes
Intervalle interquartile
On appelle intervalle interquartile IQ la diffrence entre le troisime quartile ) et
le premier quartile .
~ = ~
~W
et ) , de sorte que la
longueur de la bote est lintervalle interquartile IQ. On trace par la suite un trait
lintrieur de la bote pour reprsenter la mdiane et un autre partir de
chaque extrmit de la bote jusquaux valeurs extrmes de la srie.
Page 41
Biomtrie
Exercice
La distribution des dures dincubation de la brucellose chez 40 vaches ges de
10 ans sont :
269,7 263,6 264,4 259,7 262,4 263,4 260,7 265,0 267,0 265,6
268,8 260,3 263,4 267,6 264,1 272,9 264,8 261,4 264,5 266,2
265,9 265,3 266,4 255,8 267,1 265,5 264,5 262,2 271,0 264,4
269,8 266,1 268,7 261,2 263,1 264,6 258,7 262,3 261,2 262,1.
1. Calculer les quartiles , ( et ) .
Solution
Tout dpend de la parit de la taille de lchantillon .
Il faut dabord ordonner les donnes de la srie.
Le rang
1
n
4
1
= 40 = 10
4
soit :
262,2 + 262,3
= 262,25
2
Le rang
soit :
2
n
4
2
= 40 = 20
4
Page 42
Biomtrie
Le deuxime quartile correspond la moyenne de la 20e et la 21e donne dans la
srie ordonne :
( = FH =
264,5 + 264,5
= 264,5
2
Le rang
3
n
4
3
= 40 = 30
4
soit :
2.7.
) =
266,2 + 266,4
= 266,3
2
Une valeur aberrante est une donne qui scarte de faon marque de lensemble
des donnes. Une rgle pratique utilise pour identifier une valeur aberrante est
la suivante :
Une donne peut tre appele valeur aberrante si elle scarte dune distance dau
Une valeur aberrante doit tre examine avec soin pour identifier la cause
ventuelle de cet cart important par rapport lensemble des donnes. Les
valeurs aberrantes affectent la moyenne arithmtique.
Exercice
En se rfrant aux donnes de lexercice prcdent, dtecter les valeurs
aberrantes sil y a lieu.
On a trouv :
= 262,25 w ) = 266,3
Page 43
Biomtrie
Lintervalle interquartile qui contient 50% des donnes du centre de la
distribution est :
On constate que les deux valeurs extrmes 255,8 et 272,9 peuvent tre dclares
valeurs aberrantes.
Page 44
Biomtrie
Chapitre 4 :
STATISTIQUE A DEUX VARIABLES CORRELATION
poids
revenu
rsultats
tabagisme
cancer
rendement
engrais
Page 45
Biomtrie
Pour tudier les relations ou corrlations entre deux variables statistiques, on
peut les porter sur un graphique.
Exemple: relation entre la taille et le poids des individus
pour chaque individu de l'chantillon, on porte sur un graphique:
sa taille en abscisse (l'abscisse d'un point correspond sa projection sur l'axe
horizontal)
son poids en ordonne (l'ordonne d'un point correspond sa projection sur
l'axe vertical)
chaque individu est donc, dans ce graphique, reprsent par un point (point
reprsentatif)
soit un individu mesurant 172 cm et pesant 66 kg:
70
p
66
o
i
d 60
s
(kg)
point reprsentatif
50
150
160
170
172
180
taille (cm)
Dans le graphe, il y aura donc autant de points qu'il y a d'individus dans
l'chantillon.
p
o 80
i
d 70
s
(kg) 60
50
150
.
.
. . .
.. . . . .
.
. .. . . . .
. . .. . . .
. .
170
180
190
200
taille (cm)
Relation entre le poids et la taille dans un chantillon de 30 individus.
Par Jol M. ZINSALO
160
Page 46
Biomtrie
On peut (par la pense ou rellement) tracer une droite qui passe au mieux par
ces points (au milieu du "nuage" de points).
Si cette droite "monte", on dira qu'il y a corrlation positive entre les deux
variables.
Si elle "descend", c'est une corrlation ngative.
Si elle est "horizontale", ou si on ne peut pas dcider, c'est qu'il y a absence de
corrlation.
Corrlation positive:
.
.
. . .
.. . . . .
.
. .. . . . .
. . .. . . .
. .
x
Corrlation ngative:
. .. .
. . . .. .. . .
. . .
.
. . . .. . .
. .
.
.
.
.
x
Absence de corrlation:
Page 47
Biomtrie
. .. .
. .. . . . .
. .. . . . . .
.
.. . . . .
x
. .. . .
.
. . .. .. . . . .
. . .. . . . .
. . .
x
. .
..
x
Bonne corrlation (corrlation forte):
. .
. .
.. .
.
. ..
x
Mauvaise corrlation (corrlation faible):
Page 48
Biomtrie
.
. .
.
.
. .
.
.
.
x
Exemple:
1. Corrlation entre le poids et la taille pour les garons de 2me candidature
communication (1998).
100
.. . .
. .. ..
..
. .. ...... .
..
. . . ..
.. . .
.
p
o 80
i
d
s
(kg) 60
.
40
140
160
180
taille (cm)
200
Page 49
Biomtrie
p
o 80
i
d
s
(kg) 60
40
140
. . ..... .
.
. .. .
.
.
. .. ... ....... .
. ..... . ..
...... ...
.
160
180
taille (cm)
200
d5
d3
d1
d4
d2
X
Par Jol M. ZINSALO
Page 50
Biomtrie
Trouver la droite telle que la somme des carrs des carts d1, d2, soit minimale:
d 2 = minimum
Soit
Y = aX + b
l'quation de la droite cherche (droite de rgression)
Les coefficients a et b peuvent tre calculs partir des formules suivantes:
Pente:
a=
(X
)( ) (
)( ) (
)(
(X X ) + (X X ) + L + (X X )
X . Y1 Y + X 2 X . Y2 Y + L + X n X . Yn Y
2
ou:
a=
( X X ).(Y Y )
(X X )2
Ordonne l'origine:
b = Y a. X
Rappels:
1
X
n
1
Y = Y
n
X=
3. Coefficient de corrlation
Le signe de la pente a donne le sens de corrlation, mais pas sa qualit.
a>0
corrlation positive
a<0
corrlation ngative
a=0
pas de corrlation
( X X ).(Y Y )
2
( X X ) (Y Y ) 2
Page 51
Biomtrie
Plus il s'loigne de zro, meilleure est la corrlation
r = +1
r = 1
r=0
Page 52
Biomtrie
Exemples:
1. Supposons un chantillon alatoire de 4 firmes pharmaceutiques prsentant
les dpenses de recherche X et les profits Y suivants (en milliers de dollars):
X
40
50
40
60
30
40
50
50
1
1
160
X = (40 + 40 + 30 + 50 ) =
= 40
n
4
4
Y=
1
1
200
Y = (50 + 60 + 40 + 50 ) =
= 50
n
4
4
(X X )2 (Y Y )2
(X X ) .(Y Y )
XX
Y Y
40
50
40
60
+10
+100
30
40
10
10
+100
+100
+100
50
50
+10
+100
On a donc:
(X X ) = 200
2
(Y Y ) = 200
(X X )(. Y Y ) = 100
2
b = Y a. X = 50 0,5 40 = 50 20 = 30
Et le coefficient de corrlation:
Page 53
Biomtrie
r=
(X X )(. Y Y )
2
2
(X X ) (Y Y )
100
200 200
100
= 0,5
200
Y
60
50
40
30
40
50
60
2. La corrlation entre la taille (X) et le poids (Y) pour les garons de 2me candi.
commu. donne les rsultats suivants:
(a)
droite de rgression Y = aX + b
a = 0,816
(b)
b = -77,0
coefficient de corrlation
r = 0,61
droite de rgression
a = 0,239
(b)
b = 16,6
coefficient de corrlation
r = 0,20
la corrlation est positive (les filles les plus grandes tendent tre les plus
lourdes), mais de trs mauvaise qualit (r proche de zro).
Remarques:
1. Le coefficient de corrlation nous donne des informations sur l'existence d'une
relation linaire (sous forme d'une droite) entre les deux grandeurs
considres.
Un coefficient de corrlation nul ne signifie pas l'absence de toute relation
entre les deux grandeurs. Il peut exister une relation non linaire entre elles.
Page 54
Biomtrie
(cf. exemple (f) ci-dessus: la connaissance de X nous donne des informations
sur la valeur de Y).
2.
Page 55
Biomtrie
CHAPITRE 5
ESTIMATION
Un phnomne sera entirement dtermin si lon connat la loi de probabilit suivie par la variable
alatoire donne dans la population. On a alors deux cas de figure :
-
soit la loi de probabilit suivie par X est connue a priori et on vrifie a posteriori que les
observations faites partir dun chantillon sont en accord avec elle. Cest le cas par exemple de
la rpartition des gnotypes attendus dans une population sous le modle de Hardy-Weinberg.
On effectue alors un test dajustement entre la distribution thorique et la distribution
observe.
soit la loi de probabilit suivie par X est inconnue mais suggre par la description de
lchantillon (nature de la variable, forme de la distribution des frquences, valeurs des
paramtres descriptifs). Dans ce cas, il est ncessaire destimer les paramtres de la loi de
probabilit partir des paramtres tablis sur lchantillon.
Page 56
Biomtrie
1. Distribution dchantillonnage
Pour rsoudre les problmes destimation de paramtres inconnus, il faut tout dabord tudier les
distributions dchantillonnage, cest dire la loi de probabilit suivie par lestimateur.
Remarque :
En thorie de lestimation, il sagit de distinguer soigneusement trois concepts diffrents :
les paramtres de la population comme la moyenne dont la valeur est certaine mais
inconnue symboliss par des lettres grecques
les rsultats de lchantillonnage comme la moyenne x dont la valeur est certaine mais connue
symboliss par des minuscules.
les variables alatoires des paramtres, comme la moyenne alatoire X dont la valeur est
incertaine puisque alatoire mais dont la loi de probabilit est souvent connue et symbolises
par des majuscules.
1.1. Dfinition
1.1.1. Approche empirique
Il est possible dextraire dune population de paramtres p, ou 2 pour une variable alatoire X,
k chantillons alatoires simples de mme effectif, n. Sur chaque chantillon de taille n, on calcule
les paramtres descriptifs ? , , v ( @.
Page 57
Biomtrie
On obtient ainsi pour chaque paramtre estim, une srie statistique compose de k lments
savoir les k estimations du paramtre tudi. Par exemple, on aura k valeurs de moyennes observes
(graphe ci-dessus).
La distribution associe ces k estimations constitue la distribution dchantillonnage du
paramtre. On peut alors associer une variable alatoire chacun des paramtres. La loi de
probabilit suivie par cette variable alatoire admet comme distribution, la distribution
dchantillonnage du paramtre auquel on pourra associer une esprance et une variance.
Page 58
Biomtrie
Ainsi les n observations x1 , x2 ,, xi , , xn, faites sur un chantillon peuvent tre considres
comme n variables alatoires X1 , X2 ,, Xi , , Xn. En effet, la valeur prise par le premier lment
extrait de la population X1, dpend de lchantillon obtenu lors du tirage alatoire.
Cette valeur sera diffrente si lon considre un autre chantillon. Il en est de mme pour les n
valeurs extraites de la population.
A partir de ces n variables alatoires, on peut dfinir alors une nouvelle variable qui sera fonction de
ces dernires telle que :
Y = f(X1, X2,, Xi , , Xn )
par exemple : Y = X1 + X2++ Xi +. Xn
Ainsi la loi de probabilit de la variable alatoire Y dpendra la fois de la loi de probabilit de la
variable alatoire X et de la nature de la fonction f.
e , telle que :
On construit alors la variable alatoire
g =
1
k?g@ = k 3
Do :
k?g@ est galement not g .
et pour variance :
1 + 2 + . . [ + . . . +
1
[4 = k 3
[4 =
1
=
[
1
k?[@ = =
k?g@ =
m?g@ =
Page 59
Biomtrie
2.
Remarque : il est ais de voir sur le graphe ci-dessous que la variance associe une moyenne
1.2.2. Convergence
En fonction de la nature de la variable alatoire continue X, de la taille de lchantillon n et de la
connaissance que nous avons sur le paramtre 2, la variable centre rduite construite avec X
converge vers diffrentes lois de probabilit (Table de convergence).
Effectif de
Loi de X
Ecart-type
Loi rduite
Loi de
lchantillon
Quelconque
Connu
N( ,
n 30
Inconnu
N( ,
N(0,1)
N(0,1)
Inconnue
Quelconque
n 30
Connu
N( ,
Normale
N(0,1)
Inconnu
T (n-1 ddl)
Page 60
Biomtrie
Lorsque la variance 2 est connue et n grand (n 30), on se trouve dans les conditions du
thorme central limite et la loi suivie par :
g
/
N?0,1@
Ceci reste vrai lorsque n 30 seulement si la loi suivie par X suit une loi normale. Lorsque la
variance 2 est inconnue et X suit une loi normale, la loi suivie par la variable centre rduite est
alors :
1 1 degrs de libert
Lorsque n 30, la loi de student tend vers une loi normale rduite (voir convergence).
Lorsque la variance 2 est inconnue et X ne suit pas une loi normale, la loi suivie par :
1.3.
Soit une population dans laquelle une proportion p des individus prsente une certaine proprit.
Si k est le nombre dindividu prsentant la proprit dans un chantillon de taille n, alors la variable
alatoire K rsultant de diffrents chantillonnages suit une loi binomiale B(n,p) avec E(K) = np et
V(K) = npq.
On construit la variable alatoire :
avec
pour esprance :
et pour variance :
8=
1
1
k?8@ = E q r = k?@ = =
1
1
m?8@ = V q r = ( k?@ = ( =
Page 61
Biomtrie
2. Estimateur
2.1. Dfinition
Soient X1 , X2 ,, Xi , , Xn , n ralisations indpendantes de la variable alatoire X (discrte ou
continue) et un paramtre associ la loi de probabilit suivi par X, un estimateur du paramtre
1 ,
2 , ,
[ , ,
Lestimation dun paramtre inconnu, not est fonction des observations rsultant dun
chantillonnage alatoire simple de la population. Lestimateur est donc une nouvelle variable
alatoire construite partir des donnes exprimentales et dont la valeur se rapproche du paramtre
que lon cherche connatre.
Lestimation de est une variable alatoire dont la distribution de probabilit sappelle la
distribution dchantillonnage du paramtre .
Lestimateur admet donc une esprance E() et une variance V().
2.2. Proprits
2.2.1. Convergence
Lestimateur doit tendre vers la valeur relle du paramtre lorsque le nombre dindividus
tudi augmente. On dit que lestimateur est convergent.
Si > 0
P( > ) 0
lorsque n
Page 62
Biomtrie
E() =
Exemple :
Soit les densits de probabilit de 3 estimateurs dune esprance ,
Si deux estimateurs sont convergents et sans biais, le plus efficace est celui qui a la variance la
plus faible car ses valeurs sont en moyenne plus proches de la quantit estime.
V() = E( - E())2 minimale
Exemple
Dans lexemple prcdent, on voit que V(1) < V(2). On peut donc conclure que 1 est un
meilleur estimateur de que 2.
Par Jol M. ZINSALO
Page 63
Biomtrie
Remarque : Quand les estimateurs sont biaiss, en revanche, leur comparaison nest pas simple.
Ainsi un estimateur peu biais mais de variance trs faible, pourrait mme tre prfr un
estimateur sans biais mais de grande variance.
Thorme :
Si un estimateur est asymptotiquement sans biais et si sa variance tend vers 0 lorsque n , il est
convergent.
P( )
V ( )
avec >0
2
(Ingalit de Bienaym-Tchbycheff)
certaine probabilit.
3.1. Estimation ponctuelle
Si la distribution de la variable alatoire X est connue, on utilise la mthode du maximum de
vraisemblance pour estimer les paramtres de la loi de probabilit. En revanche si la distribution
nest pas connue, on utilise la mthode des moindres carrs.
3.1.1. Esprance
Soit X une variable alatoire continue suivant une loi normale N(,) dont la valeur des
paramtres nest pas connue et pour laquelle on souhaite estimer lesprance .
Soient X1 , X2 ,, Xi , , Xn , n ralisations indpendantes de la variable alatoire X, un estimateur
du paramtre est une suite de variable alatoire fonctions des Xi :
= f (X1 , X2 ,, Xi , , Xn)
Page 64
Biomtrie
La mthode des moindres carrs consiste rechercher les coefficients de la combinaison linaire
= a1X1 + a2X2 ++ aiXi + + anXn
telle que E () = et V() soit minimale.
La moyenne arithmtique constitue le meilleur estimateur de , esprance de la loi de
probabilit de la variable alatoire X :
= X =
1 n
Xi
n i =1
3.1.2. Variance
Soit X une variable alatoire continue suivant une loi normale N (,) pour laquelle on souhaite
estimer la variance 2.
Soient X1 , X2 ,, Xi , , Xn , n ralisations indpendantes de la variable alatoire X, un estimateur
du paramtre 2 est une suite de variable alatoire fonctions des Xi :
= f (X1 , X2 ,, Xi , , Xn)
Cas o lesprance est connue
La mthode des moindres carrs consiste rechercher les coefficients de la combinaison linaire
= a1(X1 - )2 + a2(X2 - )2 ++ ai(Xi- )2 ++ an ( Xn- )2
telle que E () = 2 et V() soit minimale.
2 =
1 n
( X i ) 2
n i =1
Remarque : Cette estimation de la variance de la population est rarement utilise dans la mesure
o si la variance 2 nest pas connue, lesprance ne lest pas non plus.
Cas o lesprance est inconnue
Dans ce cas, nous allons estimer avec = X et dans ce cas
(X
i =1
) ( X i X) 2
2
i =1
Page 65
Biomtrie
On montre que s2 et 2 sont lis par la relation :
s2 =
n1 2
lorsque
2 =
n 2
1 n
s =
( X i X) 2
n1
n 1 i =1
lim s 2 = lim
n +
n +
n1 2
= 2
n
3.1.3. Frquence
Soit le schma de Bernoulli dans lequel le caractre A correspond au succs. On note p la frquence
des individus de la population possdant le caractre A. La valeur de ce paramtre tant inconnu,
on cherche estimer la frquence p partir des donnes observables sur un chantillon.
A chaque chantillon non exhaustif de taille n, on associe lentier k, nombre dindividus possdant
le caractre A.
Soit K une variable alatoire discrte suivant une loi binomiale B(n,p) et pour laquelle on souhaite
estimer la frquence p.
La frquence observe du nombre de succs observ dans un chantillon de taille n constitue le
meilleur estimateur de p :
p =
K
n
Remarque : Nous avions dj avanc cette proprit lors de ltablissement de la loi des grands
nombres.
Exemple :
On a prlev au hasard, dans une population de lapin, 100 individus. Sur ces 100 lapins, 20 sont
atteints par la myxomatose. Le pourcentage de lapins atteints par la myxomatose dans la population
est donc :
p =
K
20
= 0,2 soit 20% de lapins atteints dans la population.
=
n 100
Page 66
Biomtrie
3.2. Estimation par intervalle
3.2.1. Dfinition
Lestimation par intervalle associe un chantillon alatoire, un intervalle [ 1 , 2 ] qui recouvre
avec une certaine probabilit.
Cet intervalle est appel lintervalle de confiance du paramtre car la probabilit que dont
la valeur est inconnue se trouve compris entre et est gale 1-, le coefficient de
1
confiance
p( 1 < < 2 ) = 1
Un intervalle de confiance indique la prcision dune estimation car pour un risque donn,
lintervalle est dautant plus grand que la prcision est faible comme lindiquent les graphes cidessous. Pour chaque graphe, laire hachure en vert correspond au coefficient de risque .
Ainsi de part et dautre de la distribution, la valeur de
.
laire hachure vaut
2
= 0,01
99 chances sur 100 que la valeur du paramtre
recherch se trouve dans lintervalle de confiance mais
la prcision autour de la valeur prdite est faible.
= 0,05
95 chances sur 100 que la valeur du paramtre
recherch se trouve dans lintervalle de
confiance et la prcision autour de la valeur
prdite est correcte.
= 0,10
90 chances sur 100 que la valeur du paramtre
recherch se trouve dans lintervalle de confiance mais
la prcision autour de la valeur prdite est leve.
Page 67
Biomtrie
une valeur du coefficient de confiance 1 - donne par lexprimentateur.
< < X +
= 2,576
0,039
= 0,058
1,732
et donc
= X
= 64,33 0,058
do le poids moyen de ce corps est compris dans lintervalle [64,27 ; 64,39] avec une probabilit
de 0,99.
Remarque : La valeur de est donne par la table de lcart-rduit pour une valeur
donne.
Coefficient de risque
Ecart-rduit
= 0,01
= 2,576
= 0,05
= 0,10
= 1,960
= 1,645
Page 68
Biomtrie
Le raisonnement reste le mme mais la variance de la population 2 doit tre estime par :
2 =
n 2
s
n1
p(
i
/ n
par consquent
<
X
+i
X
) = 1 sachant que
T(n 1 d.d.l.)
<
/ n / n
/ n
i
/ n
i
/ n
= t implique i = t
X t
< < X + t
Remarque : Lorsque n > 30, la loi de student converge vers une loi normale rduite. Ainsi la
valeur de t (n-1) est gale . Ci-dessous, un exemple pour un risque = 0,05.
Taille de lchantillon
n=10
n=20
n=30
n=40
Ecart-rduit
Variable de student
=1,960
t=2,228
=1,960
t=2,086
=1,960
t=2,042
=1,960
t=1,960
Page 69
Biomtrie
Exemples :
(1) Dans un chantillon de 20 tudiants de mme classe dge et de mme sexe, la taille moyenne
observe est de 1,73m et lcart-type de 10 cm. La taille moyenne de lensemble des tudiants de
luniversit est donc :
avec ; x = 1,73m ; 2 =
Do t
n 2 20
s =
0,01 = 0,011 et t = 2,086
n1
19
0,011
= 1,73m 0,049
= 1,960
= 0,049 ; ainsi = X
20
n
n
La taille moyenne des tudiants dans la population est comprise dans lintervalle [1,68 ; 1,78]
avec une probabilit de 0,95.
(2) Dans un chantillon de 100 tudiants, la taille moyenne de la population est :
x = 1,73m ; 2 =
Do
n 2 100
s =
0,01 = 0,01 et = 1,960
n1
99
0,010
= 1,960
= 0,02 ; ainsi = X
= 1,73m 0,02
100
n
n
La taille moyenne des tudiants dans la population est comprise dans lintervalle [1,71 ; 1,75] avec
une probabilit de 0,95.
Ainsi lorsque la taille de lchantillon augmente pour un mme coefficient de confiance (1)
lestimation autour de est plus prcise.
Si n > 30 et X suit une loi inconnue,
La dmarche est la mme que pour le cas prcdent puisque par dfinition la variance de la
population est inconnue et doit tre estime avec la variance observe :
2 =
n 2
s
n1
X
N(0,1)
/ n
Lintervalle de confiance de lesprance pour un coefficient de risque est donc :
< < X +
Page 70
Biomtrie
vraie seulement si n est grand.
Si n < 30 et X suit une loi inconnue,
La loi de probabilit suivie par
X
nest pas connue et lon a recours aux statistiques non
/ n
paramtriques.
3.2.3. Intervalle de confiance dune proportion
Etablir lintervalle de confiance autour de la frquence p de la population partir de son estimateur
K
revient tablir la valeur de i pour une valeur du coefficient de confiance (1 - ) donne par
n
lexprimentateur telle que :
P(
K
K
K
i<p<
+ i ) = 1 ou P(p i <
< p + i) = 1
n
n
n
K
et daprs le thorme central limite, on peut tablir que
n
K
p
+i
P(
<
) = 1 sachant que
< n
pq
pq
pq
n
n
n
i
par consquent
pq
n
K
p
n
N(0,1)
pq
n
Ainsi
i
pq
n
Par dfinition, v(
= implique i =
pq
n
K
pq
pq
K
nK
nest pas connue et on lestime par
avec p =
et q =
)=
n
n
n
n
n
K
pq
K
pq
vraie seulement si n est grand et np, nq > 5
< p < +
n
n
n
n
Remarque : Si la taille de lchantillon est faible, on a recours aux lois exactes.
Par Jol M. ZINSALO
Page 71
Biomtrie
Exemple : Un laboratoire dagronomie a effectu une tude sur le maintien du pouvoir germinatif
des graines de Papivorus subquaticus aprs une conservation de 3 ans.
Sur un lot de 80 graines, 47 ont germ. Ainsi la probabilit de germination des graines de Papivorus
subquaticus aprs trois ans de conservation avec un coefficient de confiance de 95% est donc :
avec p =
alors
K
47
=
= 0,588
n
80
q =
n K
33
=
0,412
n
80
et
= 1,96 ;
pq
0,588 0,412
= 1,96
= 0,108 d' o p = 0,588 0,108
n
80
ainsi la probabilit de germination est comprise dans lintervalle [0,480 ; 0,696] avec une
probabilit de 0,95.
Page 72
Biomtrie
Chapitre 6
TESTS DHYPOTHESE
Les tests destins vrifier si un chantillon peut tre considr comme extrait dune
population donne, vis--vis d'un paramtre comme la moyenne ou la frquence observe
(tests de conformit) ou par rapport sa distribution observe (tests dajustement). Dans
ce cas la loi thorique du paramtre est connue au niveau de la population. Est-ce que le
taux de glucose moyen mesur dans un chantillon dindividus traits est conforme au taux
de glucose moyen connu dans la population ? (test de conformit) Est-ce que la distribution
des frquences gnotypiques observes pour un locus donn est conforme celle attendue
sous l'hypothse du modle de Hardy-Weinberg ? (test dajustement).
Les tests destins comparer plusieurs populations laide dun nombre quivalent
dchantillons (tests dgalit ou dhomognit) sont les plus couramment utiliss. Dans
ce cas la loi thorique du paramtre est inconnue au niveau des populations. On peut
ajouter cette catgorie le test dindpendance qui cherche tester lindpendance entre
deux caractres, gnralement qualitatifs. Y a-t-il une diffrence entre le taux de glucose
moyen mesur pour deux chantillons dindividus ayant reu des traitements diffrents ?
(tests dgalit ou dhomognit). Est-ce que la distribution des frquences gnotypiques
observes pour un locus donn est indpendante du sexe des individus ? (test
dindpendance).
Page 73
Biomtrie
1. Principe des tests
Le principe des tests dhypothse est de poser une hypothse de travail et de prdire les
consquences de cette hypothse pour la population ou lchantillon. On compare ces prdictions
avec les observations et lon conclut en acceptant ou en rejetant lhypothse de travail partir de
rgles de dcisions objectives.
Dfinir les hypothses de travail, constitue un lment essentiel des tests d'hypothses de mme que
vrifier les conditions d'application de ces dernires (normalit de la variable, galit des variances
ou homoscdasticit, etc).
Diffrentes tapes doivent tre suivies pour tester une hypothse :
(1) dfinir lhypothse nulle (note H0) contrler,
(2) choisir un test statistique ou une statistique pour contrler H0,
(3) dfinir la distribution de la statistique sous lhypothse H0 est ralise ,
(4) dfinir le niveau de signification du test ou rgion critique note ,
(5) calculer, partir des donnes fournies par lchantillon, la valeur de la statistique
(6) prendre une dcision concernant lhypothse pose et faire une interprtation
1.1.
Remarque : Il existe une dissymtrie importante dans les conclusions des tests. En effet, la
dcision daccepter H0 nest pas quivalente H0 est vraie et H1 est fausse . Cela traduit
seulement lopinion selon laquelle, il ny a pas dvidence nette pour que H0 soit fausse.
Un test conduit rejeter ou ne pas rejeter une hypothse nulle jamais laccepter demble.
Page 74
Biomtrie
1.1.2. Test unilatral ou bilatral
La nature de H0 dtermine la faon de formuler H1 et par consquence la nature unilatrale ou
bilatrale du test.
Test bilatral
Si H0 consiste dire que la population estudiantine avec une frquence de fumeurs p est
reprsentative de la population avec une frquence de fumeurs p0 , on pose alors :
H0 : p = p0 et H1 : p p0
H0 : p = p0 et H1 : p p0
Le test sera bilatral car on considre que la frquence p peut tre suprieure ou infrieure la
frquence p0 .
La rgion critique colorie correspond une probabilit
Test unilatral
Si lon fait lhypothse que la frquence de fumeurs dans la population estudiantine p est suprieure
la frquence de fumeurs dans la population p0, on pose alors
H0 : p = p0 et H1 : p > p0
H0 : p = p0 et H1 : p > p0
Le test sera unilatral car on considre que la frquence p ne peut tre que suprieure la
frquence p0 .
La rgion critique colorie correspond une probabilit .
Le raisonnement inverse peut tre formul avec lhypothse suivante :
H0 : p = p0 et H1 : p < p0
Remarque : Seuls les tests bilatraux seront dvelopps dans le cours. Les tests unilatraux seront
traits au niveau des exemples.
Page 75
Biomtrie
1.2.
Ce choix dpend de la nature des donnes, du type dhypothse que lon dsire contrler, des
affirmations que lon peut admettre concernant la nature des populations tudies (normalit, galit
des variances) et dautres critres que nous prciserons.
Un test statistique ou une statistique est une fonction des variables alatoires reprsentant
lchantillon dont la valeur numrique obtenue pour lchantillon considr permet de distinguer
entre H0 vraie et H0 fausse.
Dans la mesure o la loi de probabilit suivie par le paramtre p0 au niveau de la population
en gnral est connue, on peut ainsi tablir la loi de probabilit de la statistique S telle que :
S = p p0
1.3.
Connaissant la loi de probabilit suivie par la statistique S sous lhypothse H0 , il est possible
dtablir une valeur seuil, Sseuil de la statistique pour une probabilit donne appele le niveau de
signification du test : .
La rgion critique correspond lensemble des valeurs telles que : S > Sseuil
Test unilatral
H0 : p=p0
Test bilatral
H0 :p=p0
Hypothse
Alternative
H1 : p > p0
H1 : p < p0
Valeur de S sous H1
S = p p0
S>0
S<0
s 0
p( s > S seuil ) =
Niveau de
signification
H1 : p p0
Page 76
Biomtrie
Il existe deux stratgies pour prendre une dcision en ce qui concerne un test dhypothse :
La premire stratgie fixe a priori la valeur du seuil de signification et la seconde tablit la
valeur de la probabilit critique obs a posteriori.
Rgles de dcision 1 :
Sous lhypothse H0 est vraie et pour un seuil de signification fix
1.4.
Page 77
Biomtrie
ou accepter H1 alors quelle est fausse
= P( accepter H1 / H1 fausse)
La valeur du risque doit tre fixe a priori par lexprimentateur et jamais en fonction des
donnes. Cest un compromis entre le risque de conclure tort et la facult de conclure.
Remarque : Toutes choses tant gales par ailleurs, la rgion critique diminue lorsque
dcrot (voir intervalle de confiance) et donc on rejette moins frquemment H0. A vouloir
commettre moins derreurs, on conclut plus rarement.
Exemple :
Si lon cherche tester lhypothse quune pice de monnaie nest pas truque , nous allons
adopter la rgle de dcision suivante : (mettre image dune pice)
H0 : la pice nest pas truque est
accepte si X [40,60]
rejete si X [40,60] donc soit X < 40 ou X > 60
avec X nombre de faces obtenus en lanant 100 fois la pice.
Quel est le risque derreur de premire espce dans ce cas ?
1.4.2.
Page 78
Biomtrie
H0 : la pice nest pas truque est
accepte si X [40,60]
rejete si X [40,60] donc soit X < 40 ou X > 60
avec X nombre de faces obtenues en lanant 100 fois la pice.
Quel est le risque derreur de second espce dans ce cas ?
1.4.3. La puissance et la robustesse dun test (1 - )
Les tests ne sont pas faits pour dmontrer H0 mais pour rejeter H0 . Laptitude dun test
rejeter H0 alors quelle est fausse constitue la puissance du test.
La puissance dun test est : 1 - = P( rejeter H0 / H0 fausse) = P(accepter H1/H1 vraie).
La relation entre les deux risques derreur figure sur le graphe ci-dessous.
La puissance dun test est fonction de la nature de H1, un test unilatral est plus puissant qu'un
test bilatral.
La puissance dun test augmente avec taille de l'chantillon N tudi valeur de constant.
La puissance dun test diminue lorsque diminue.
Exemple :
Si lon reprend lexemple prcdent de la pice de monnaie, calculez la puissance du test lorsque la
probabilit dobtenir face est respectivement 0,3 - 0,4 - 0,6 - 0,7 -0,8 pour une pice truque. Que
constatez-vous ?
Les diffrentes situations que lon peut rencontrer dans le cadre des tests dhypothse sont rsumes
dans le tableau suivant :
Page 79
Biomtrie
Ralit
H0 vraie
H0 fausse
Dcision
Manque de puissance
Non rejet de H0
correct
Rejet de H0
Rejet tort
Risque de premire espce
1-
La robustesse dune technique statistique reprsente sa sensibilit des carts aux hypothses
faites.
Exemple : Toute chose tant gale par ailleurs, que se passe-t-il si lhypothse de normalit nest
pas satisfaite ?
1.5.
Tests de conformit
Les tests de conformit sont destins vrifier si un chantillon peut tre considr comme
extrait dune population donne ou reprsentatif de cette population, vis--vis d'un paramtre
comme la moyenne, la variance ou la frquence observe. Ceci implique que la loi thorique du
paramtre est connue au niveau de la population.
1.5.1. Comparaison dune moyenne observe et dune moyenne thorique
1.5.1.1.
Principe du test
Soit X, une variable alatoire observe sur une population, suivant une loi normale et un
chantillon extrait de cette population.
Population connue
X N ( 0,
0)
Population inconnue
X N ( ,
)
Hypothses
H0 : =0 H1 : #0
Page 80
Biomtrie
Le but est de savoir si un chantillon de moyenne x , estimateur de , appartient une
population de rfrence connue desprance 0 (H0 vraie) et ne diffre de 0 que par des
fluctuations dchantillonnage ou bien appartient une autre population inconnue desprance
(H1 vraie).
Pour tester cette hypothse, il existe deux statistiques : la variance 02 de la population de rfrence
est connue (test ) ou cette variance est inconnue et il faut lestimer (test T).
1.5.1.2.
S N ( ,
Nous pouvons tablir grce au thorme central limite la variable Z centre rduite telle que
Z=
S E(S )
V (S )
X 0
2
n
X 0
2
n
x 0
2
n
calcule (obs) est compare avec la valeur seuil lue sur la table
Par Jol M. ZINSALO
Page 81
Biomtrie
de la loi normale centre rduite pour un risque derreur fix (Rgle de dcision 1).
si obs > seuil lhypothse H0 est rejete au risque derreur : lchantillon appartient une
population desprance et nest pas reprsentatif de la population de rfrence desprance
0.
si obs seuil lhypothse H0 est accepte: lchantillon est reprsentatif de la population de
rfrence desprance 0.
1.5.2.
1.5.2.1.
Statistique du test
La dmarche est la mme que pour le test mais la variance de la population ntant pas
connue, elle est estime par :
2 =
n 2
s (estimation ponctuelle).
n1
Nous pouvons tablir grce au thorme central limite la variable T centre rduite telle que
T=
S E(S )
V (S )
X 0
2
n
1.5.2.2.
X 0
2
n
Application et Dcision
x 0
2
n
x 0
s2
n1
Page 82
Biomtrie
t calcule (tobs) est compare avec la valeur tseuil lue dans la table de Student pour un risque
derreur fix et (n - 1) degrs de libert.
si tobs > tseuil lhypothse H0 est rejete au risque derreur : lchantillon
appartient une population desprance et nest pas reprsentatif de la population de rfrence
desprance 0 .
si tobs tseuil lhypothse H0 est accepte: lchantillon est reprsentatif de la population de
rfrence desprance 0.
Remarque : Si n < 30, la variable alatoire X tudie doit imprativement suivre une loi
normale N(,). Pour n 30, la variable de student t converge vers une loi normale centre
rduite .
Exemple : Pour tudier un lot de fabrication de comprims, on prlve au hasard 10 comprims
parmis les 30 000 produits et on les pse. On observe les valeurs de poids en grammes :
0,81 0,84 0,83 0,80 0,85 0,86 0,85 0,83 0,84 0,80
Le poids moyen observ est-il compatible avec la valeur 0,83g, moyenne de la production au seuil
98% ?.
1.5.3. Comparaison dune frquence observe et dune frquence thorique
1.5.3.1.
Principe du test
Soit X une variable qualitative prenant deux modalits (succs X=1, chec X=0) observe sur une
population et un chantillon extrait de cette population.
Population inconnue
X B (n, p)
Population connue
X B (n, p0)
Echantillon
Hypothses
H0 : p = p0 H1 : p p0
Page 83
Biomtrie
K
, estimateur de p, appartient une
n
population de rfrence connue de frquence p0 (H0 vraie) ou une autre population inconnue
de frquence p (H1 vraie).
1.5.3.2.
Statistique du test
K
n
p q
K
suit N(p, 0 0 ) , les variances tant supposes gales dans la
n
n
population de rfrence et la population do est extrait lchantillon.
suit une loi normale telle que :
S N(0,
K
p 0 dont la distribution de probabilit est la suivante :
n
p0 q0
p q
) avec sous H0 E(S) = 0 et V(S) = 0 0
n
n
Nous pouvons tablir grce au thorme central limite la variable Z centre rduite telle que
Z=
K
p0
mais seulement si np0 et nq0 10
= n
V (S )
p0 q0
n
S E(S )
Sous H0 : p = p0
K
p0
n
Z=
p 0 q0
n
1.5.3.3.
Application et dcision
calcule (obs) est compare avec la valeur seuil lue sur la table de la loi normale centre
rduite pour un risque derreur fix (Rgles de dcision 1).
Page 84
Biomtrie
si obs > seuil lhypothse H0 est rejete au risque derreur : lchantillon appartient
une population de frquence p et nest pas reprsentatif de la population de rfrence de
frquence p0 .
Exemple :
Une anomalie gntique touche en France 1/1000 des individus. On a constat dans une rgion donne : 57
personnes atteintes sur 50 000 naissances.
Cette rgion est-elle reprsentative de la France entire ?
1.6.
Tests dhomognit
Les tests dhomognit destins comparer deux populations laide dun nombre quivalent
dchantillons (tests dgalit ou dhomognit) sont les plus couramment utiliss. Dans ce cas la
loi thorique du paramtre tudi (par exemple p, , 2 ) est inconnue au niveau des
populations tudies.
1.6.1.
1.6.1.1.
Principe du test
Soit X, une variable alatoire observe sur 2 populations suivant une loi normale et deux
chantillons indpendants extraits de ces deux populations.
Population 1
X1 N ( 1 ,
1)
Population 2
X2 N ( 2,
2)
Echantillon 2
Echantillon 1
Hypothses
H0 : 1 =22 H1 : 12 22
2
Page 85
Biomtrie
On fait lhypothse que les deux chantillons proviennent de 2 populations dont les variances sont
gales. Le test de comparaison de variance est ncessaire lors de la comparaison de deux
moyennes lorsque les variances des populations 12 et 22 ne sont pas connues. Cest galement la
statistique associe lanalyse de variance.
1.6.1.2.
Statistique du test
La statistique associe au test de comparaison de deux variances correspond au rapport des deux
variances estimes.
Sous H0 : 12 = 22
Fobs
n1 2
s1
n1 1
=
=
n2 2
s2
n2 1
2
1
2
2
avec 12 > 22
Remarque : Il existe dautres statistiques que celle de Fisher Sndecor pour comparer deux
variances, notamment le test de Hartley qui impose lgalit de la taille des chantillons compars
n1= n2 mais que nous ne dvelopperons pas dans ce cours.
1.6.1.3.
Application et dcision
La valeur de la statistique F calcule (Fobs) est compare avec la valeur Fseuil lue dans la table de
la loi de Fisher-Snedecor pour un risque derreur fix et (n1-1, n2 -1) degrs de libert.
si Fobs Fseuil lhypothse H0 est rejete au risque derreur : les deux chantillons sont
extraits de deux populations ayant des variances statistiquement diffrentes 12 et 22 .
si Fobs Fseuil lhypothse H0 est accepte: les deux chantillons sont extraits de deux
populations ayant mme variance 2 .
Remarque : Pour lapplication de ce test, il est impratif que X N(,) et que les deux
chantillons soient indpendants.
Page 86
Biomtrie
Exemple :
Un biologiste effectue des dosages par une mthode de
mesure de radioactivit et ne dispose donc que dun
nombre trs limit de valeurs.
Les concentrations C1 et C2 mesures sur deux
prlvements ont donn les valeurs suivantes :
C1 : 3,9 3,8 4,1 3,6 C2 : 3,9 2,8 3,1 3,7 4,1
1.6.2.
1.6.2.1.
Principe du test
Soit X un caractre quantitatif continu observ sur 2 populations suivant une loi normale et deux
chantillons indpendants extraits de ces deux populations.
Population 1
X1 N ( 1 ,
1)
Population 2
X2 N ( 2,
2)
Echantillonnage alatoire simple
Echantillon 1
Echantillon 2
Hypothses
H0 : 1 = 2 H1 : 1
Page 87
Biomtrie
On fait lhypothse que les deux chantillons proviennent de 2 populations dont les esprances
sont gales.
Il existe plusieurs statistiques associes la comparaison de deux moyennes en fonction de la nature
des donnes.
(Proprit de l esprance)
12 22
V( X1 - X 2 ) = V( X1 ) + V( X 2 ) =
+
n1 n 2
(Proprit de la variance)
Sachant que X1 - X 2
12 22
+
) , nous pouvons tablir
n1 n 2
( X 1 X 2 ) E( X 1 X 2 )
V ( X1 X 2 )
( X1 X 2 ) ( 1 2 )
12 22
+
n1 n 2
Z=
( X1 X 2 )
12 22
+
n1 n 2
.
1.6.2.2.2. Application et dcision
Lhypothse teste est la suivante :
Par Jol M. ZINSALO
Page 88
Biomtrie
calcule (obs) est compare avec la valeur seuil lue sur la table de la loi normale centre
rduite pour un risque derreur fix.
si obs seuil lhypothse H0 est rejete au risque derreur : les deux chantillons sont
extraits de deux populations ayant des esprances respectivement 1 et 2.
si obs seuil lhypothse H0 est accepte: les deux chantillons sont extraits de deux
populations ayant mme esprance .
Remarque : Pour lapplication de ce test, il est impratif que X N(,) pour les chantillons de
taille < 30 et que les deux chantillons soient indpendants.
Exemple :
On a effectu une tude, en milieu urbain et en milieu rural, sur le rythme cardiaque humain :
Peut-on affirmer quil existe une diffrence significative entre les rythmes cardiaques moyens
des deux populations ?
Page 89
Biomtrie
H 0 : 12 = 22 = 2
Lgalit des variances des deux populations ou homoscdasticit permet alors dtablir la loi de
probabilit de X1 - X 2 avec
X1 N ( 1 ,
2
2
) et X 2 N( 2 , )
n1
n2
1
1
Sachant que X1 - X 2 suit une loi normale N ( 1 2 , 2 + )
n1 n 2
grce au thorme central limite la variable T telle que
T=
( X1 X 2 ) E( X1 X 2 )
V ( X1 X 2 )
( X 1 X 2 ) ( 1 2 )
1
1
2 +
n1 n 2
Sous H0 : 1 = 2 avec 12 = 22 =
T=
( X1 X 2 )
1
1
2 +
n1 n 2
H0 : 12 = 22 = 2 contre H1 : 12 22
test de Fisher-Snedecor.
Page 90
Biomtrie
t=
x1 x 2
1
1
2 +
n1 n 2
avec 2 =
n1s12 + n 2s 22
estimation de la variance 2 commune
n1 + n 2
t calcule (tobs) est compare avec la valeur tseuil lue dans la table de Student pour un risque
derreur fix et (n1 + n2 2) degrs de libert.
si tobs > tseuil lhypothse H0 est rejete au risque derreur : les deux chantillons sont
extraits de deux populations ayant des esprances respectivement 1 et 2.
si tobs tseuil lhypothse H0 est accepte: les deux chantillons sont extraits de deux
populations ayant mme esprance .
Remarque : Pour lapplication de ce test, il est impratif que X N(,) pour les chantillons
de taille < 30, que les deux chantillons soient indpendants et que les deux variances estimes
soient gales.
Exemple :
Dans le but dtudier linfluence du type datmosphre dlevage sur la dure de dveloppement
des drosophiles femelles, ces dernires ont t leves 14C sous atmosphre normale (N) ou
enrichie en C02 (C02). Les rsultats suivants ont t obtenus :
864, 768, 912, 804, 924, 984, 888, 816, 840, 936, 792, 876
CO2
840, 948, 936, 1032, 912, 948, 1020, 936, 1056, 876, 1032, 918
Page 91
Biomtrie
Cas o n1 et n2 > 30
La statistique utilise est la mme que pour le cas o les variances sont connues.
Sous H0 : 1 = 2
Z=
( X1 X 2 )
12 22
+
n1 n 2
12 =
n1 2
s1 et
n1 1
22 =
n2 2
s2
n2 1
calcule (obs) est compare avec la valeur seuil lue sur la table de la loi normale centre
rduite pour un risque derreur fix.
si obs > seuil lhypothse H0 est rejete au risque derreur : les deux chantillons sont
extraits de deux populations ayant des esprances respectivement 1 et 2.
si obs seuil lhypothse H0 est accepte: les deux chantillons sont extraits de deux
populations ayant mme esprance .
Remarque : Pour lapplication de ce test, il est impratif que X N(,) et que les deux
chantillons soient indpendants.
Exemple :
Page 92
Biomtrie
Dans le but dtudier linfluence ventuelle de la lumire sur la croissance du poisson Lebistes
Reticulus, on a lev deux lots de ce poisson dans des conditions dclairage diffrentes. Au 95me
jour, on a mesur en mm les longueurs xi des poissons. On a obtenu les rsultats suivants :
xi1 = 3 780
x2i1=84 884
1.6.3.
1.6.3.1.
Principe du test
Soit X une variable qualitative prenant deux modalits (succs X=1, chec X=0) observe sur 2
populations et deux chantillons indpendants extraits de ces deux populations. On fait
lhypothse que les deux chantillons proviennent de 2 populations dont les probabilits de succs
sont identiques.
Page 93
Biomtrie
Le problme est de savoir si la diffrence entre les deux frquences observes est relle ou
explicable par les fluctuations dchantillonnage. Pour rsoudre ce problme, deux tests de
comparaison de frquences sont possibles :
K1
suit une
n1
Page 94
Biomtrie
K1
K
et 2 tant deux variables alatoires indpendantes, nous pouvons tablir la loi de probabilit
n1
n2
de la variable alatoire tudier
Sachant que
K1 K 2
n1 n2
K1 K 2
n1 n2
p1q1 p 2q 2
) , nous pouvons tablir
+
n1
n2
K1 K 2
(p1 p 2 )
+
n1
n 2
Z=
p1q1 p 2q 2
+
n1
n2
Sous H0 : p1 = p2 avec p =
K1 K 2
n
n
2
Z= 1
1
1
pq( + )
n1 n 2
1.6.3.3.
n1p1 + n 2p 2
n1 + n 2
Application et dcision
La valeur p, probabilit du succs commune aux deux populations nest en ralit pas connue.
On lestime partir des rsultats observs sur les deux chantillons :
p =
k1 + k 2
n1 + n 2
Page 95
Biomtrie
Lhypothse teste est la suivante :
H0 : p1 = p2 contre H1 : p1 p2
Une valeur z de la variable alatoire Z est calcule :
z=
k1 k 2
n1 n 2
1
1
pq +
n1 n 2
avec p =
k1 + k 2
n1 + n 2
z ou calcule (obs) est compare avec la valeur seuil lue sur la table de la loi normale
centre rduite pour un risque derreur fix.
si obs > seuil lhypothse H0 est rejete au risque derreur : les deux chantillons sont
extraits de deux populations ayant des probabilits de succs respectivement p1 et p2.
si obs seuil lhypothse H0 est accepte: les deux chantillons sont extraits de deux
populations ayant mme probabilit de succs p.
Exemple :
On veut tester limpact des travaux dirigs dans la russite lexamen de statistique.
Quen concluez-vous ?
Page 96