Biometrie Capet 2013 Zinsalo Joel

REPUBLIQUE DU BENIN
Ministre de lEnseignement Suprieur et de la Recherche

Scientifique
Ecole Normale Suprieure de lEnseignement Technique

de LOKOSSA
Cours : BIOMETRIE
Filires : Production vgtale

Cohorte : 7
Cours prpar et anim par :

Jol M. ZINSALO
Enseignant lEPAC/UAC
Contacts : 97939253/95842387/90081208
E-mail : zinzalojoel@yahoo.fr
Anne acadmique : 2012 2013.
Biomtrie
Objectifs
Fournir ltudiant les connaissances de base des outils utiliss en biostatistique
et linitier lexploitation de celles-ci dans les prises de dcision.
CONTENU DU MODULE
Chapitre 1 : Terminologie et concepts de base
Chapitre 2 : Traitement des donnes dune srie statistique
Chapitre
3 : Caractrisation des donnes dune srie statistique :

Paramtres de position Paramtres de dispersion
Diagrammes en botes
Chapitre 4 : Statistique deux variables corrlation

Chapitre 5 : Test dhypothse
Chapitre 5 : Test de Khi-Deux
Rfrences bibliographiques
1. Putt S.N.H., Shaw A.P.M., Woods A.J., Tyler L., James A.D., 1987.
pidmiologie et conomie vtrinaires en Afrique Manuel lusage des
planificateurs de la sant animale. Addis Abeba, CIPEA, 146 p.
2. Scherrer, B. 1984, Biostatistique, Montral, Paris, Casablanca, Gatan Morin
diteur, 850 p
3. BERTIN
J.
1977.
La
graphique
et
le
traitement
graphique
de
l'information. Nouvelle bibliothque scientifique, Flammarion.

4. CAPERAA
modles
Philippe
en
&
VAN
CUTSEM
Bernard,
1988.
Mthodes
et
statistique non paramtrique. Expos fondamental. Presses
Universit Laval, Dunod, 357 pp.

5. DAGNELIE
Pierre,
1969
1970.
Thorie
et
mthodes
statistiques.
Applications agronomiques (3 vol.). Duculot, Gembloux, Presses Agron., 378 +

451 pp.
6. FISHER R.A., 1946.Statistical methods for research workers, Olivier &
Boyd, London. traduction franaise aux Presses Universitaires.
7. HAYS W. L., 1963. Statistics for psychologists. Holt, Rinehart & Winston.
Par Jol M. ZINSALO
Page 2
Biomtrie
8. LE GUELTE L., LE BERRE M., DAHAN G., RAMOUSSE R. & COULON
J. 1983. Traitement statitistique informatis des donnes en thologie.
tudes et analyses comportementales, 1(4) :202-268. Pour une histoire de la
statistique. Tome 1. Insee, Imprimerie Nationale, 593 pp.
9. SCHWARTZ D. 1963. Mthodes statistiques l'usage des mdecins et
des biologistes. Paris, Flammarion Mdecine Sciences. SIEGEL Sidney,
1956. Non parametric statistics for the behavioral sciences , McGraw Hill,
312 pp.
10. SNEDECOR G.W. Calculation and interpretation of analysis of variance
and covariance, Collegiate Press, Ames, Iowa.
11. SPRENT P. 1992. Pratique des statistiques nonparmtriques. INRA Editions.
VESSEREAU A. 1948. Mthodes statistiques en biologie et en agronomie.
Baillre et fils, Paris, p.381.
12. VIGNERON
WINER
B.J.
E.
1997.
Gographie
et
statistique.
Que
sais-je?,
PUF.
1970. Statistical principles in experimental design. McGraw-
Hill, Mladinska Knijiga, p. 672.
Par Jol M. ZINSALO
Page 3
Biomtrie
INTRODUCTION GENERALE
Le terme biomtrie signifie mesure + vivant ou mesure du vivant , et
dsigne dans un sens trs large l'tude quantitative des tres vivants. Parmi les
principaux domaines d'application de la biomtrie, on peut citer l'agronomie,
l'anthropologie, l'cologie et la mdecine.
L'usage de ce terme se rapporte de plus en plus l'usage de ces techniques des
fins de reconnaissance, d'authentification et d'identification, le sens premier du
mot biomtrie tant alors repris par le terme biostatistique.
La biostatistique est l'application des mthodes statistiques un large ventail
de sujets en biologie. La science de la biostatistique englobe :
la conception des expriences biologiques, en particulier dans la mdecine

et l'agriculture,
la collecte des informations,
la compilation et analyse des donnes chiffres de ces expriences,
l'interprtation des rsultats en vue d'avancer une conclusion.
La biostatistique est exploite dans plusieurs domaines :
la sant publique, y compris l'pidmiologie, les services de sant, la

nutrition et l'environnement,
la conception et analyse d'essais cliniques en mdecine,
la gnomique, gntique des populations et la gntique statistique afin de

relier la variation dans le gnotype avec une variation dans le phnotype.
La biostatistique a ainsi t exploite dans l'agriculture afin d'amliorer les
cultures et les animaux d'levage,
l'cologie : en vue de de mettre en place des prvisions cologiques,
l'analyse de squences biologiques.
Durant tout le XXe sicle, le mot biomtrie a t utilis quasi exclusivement

dans le sens trs large de l'tude quantitative des tres vivants, notamment
l'aide des mthodes statistiques.
Par Jol M. ZINSALO
Page 4
Biomtrie
Lorigine du mot statistique remonte au latin classique status (tat) qui, par
une srie dvolutions successives, aboutit au franais statistique, attest pour la
premire fois en 1771.
Cest vers la mme poque que statistik apparat en allemand, alors que les
anglophones utilisent lexpression political arithmetic jusquen 1798, date
laquelle le mot statistics fait son entre dans cette langue.
Dfinition : La statistique est lensemble des mthodes ou techniques qui
permettent lorganisation, lanalyse et la synthse des observations en vue :
-
den accrotre les connaissances scientifiques
de planifier des stratgies
daider la prise de dcision.
On distingue :
-
la statistique descriptive : qui dsigne les mthodes visant rsumer des

informations numriques nombreuses. Il sagit danalyser a priori des
donnes empiriques observes afin de les synthtiser.
La statistique mathmatique
ou statistique infrentielle : Il sagit
dassimiler une distribution statistique un modle, une << loi de

probabilit >> thorique dfinie a priori sur la base de laquelle on peut par
exemple tester des hypothses thoriques.
Cet outil est utilis dans des disciplines nombreuses et varies : la dmographie,
la sociologie, lpidmiologie, lconomie, la mtorologie, La statistique
comprend : la collecte des donnes, le traitement des donnes collectes,
l'interprtation des donnes, la prsentation afin de rendre les donnes
comprhensibles par tous.
En effet, le traitement et l'interprtation des donnes ne peuvent se faire que
lorsque celles-ci ont t collectes.
Ainsi la statistique est un domaine des mathmatiques qui possde une
composante thorique ainsi qu'une composante applique. La composante
thorique est proche de la thorie des probabilits et forme avec cette dernire,
les sciences de l'alatoire.
Par Jol M. ZINSALO
Page 5
Biomtrie
La statistique plus applique est utilise dans presque tous les domaines de
l'activit humaine : ingnierie, management, conomie, biologie, informatique,
etc.
Actuellement, on distingue gnralement les statistiques (au pluriel) de la
statistique (au singulier). En effet, La statistique (au singulier) dsigne loutil,
lensemble des mthodes. Les statistiques peuvent tre dfinies comme ltude
mthodique des faits sociaux qui dfinissent un Etat, par des procds
numriques (dnombrements, inventaires, recensements,). Les statistiques
dsignent aussi des objets, les donnes numriques observes que ces mthodes
permettent danalyser.
Par Jol M. ZINSALO
Page 6
Biomtrie
Chapitre 1 :
TERMINOLOGIE ET CONCEPTS DE BASE
1. Population
On appelle population est lensemble de tous les lments sur lesquels porte une
tude statistique.
La population statistique peut tre constitue dtres humains, mais galement
danimaux, dobjets, ou dvnements.
On distingue deux types de population.
La population relle : cest celle quon peut trouver dans la nature.
La population fictive : introuvable dans la nature, la population fictive sort de
limagination. On peut bien sr tirer des conclusions sur la population fictive.
2. Echantillon
On appelle chantillon, tout sous-ensemble de la population. Il doit tre choisi de
faon alatoire de faon que tous les lments aient la mme probabilit dtre
choisie.
On peut dduire les proprits de toute une population partir de lanalyse dun
chantillon.
Il est capital que lchantillon soit choisi de faon alatoire et analys de manire
adquate. En particulier, il faut que lchantillon soit reprsentatif de la
population. Un chantillon non reprsentatif est dit biais.
3. Unit statistique
Chaque lment de la population ou de lchantillon est appel unit
statistique ou unit exprimentale et le nombre dunits dans la population
est appel effectif de la population ; Cet effectif de la population est not n.
Par Jol M. ZINSALO
Page 7
Biomtrie
4. Caractre
On appelle caractre tout critre observable sur chaque unit de la population,
et permettant donc de dcrire la population.
Encore appele facteur ou variable cest toute caractristique prise par les
individus de la population. On appelle aussi variable tout ce qui peut prendre
plus dune valeur. Exemples : lge, le sexe, le poids, la taille.
On peut distinguer deux types de caractres : un caractre quantitatif et un
caractre qualitatif. Un caractre est dit quantitatif sil est mesurable ; En
revanche, un caractre est dit qualitatif sil est non mesurable.
Les variables qualitatives sont utilises pour dcrire et se divisent en deux
groupes :
-
Les variables qualitatives nominales : valeur selon des catgories distinctes,

il ny a pas dordre. Exemple : le sexe, les yeux, espce dun animal, mort
ou survie pendant une priode donne
Les variables qualitatives ordinales : l on peut dfinir un ordre, une

hirarchie. Exemple : Le niveau scolaire, le rang (1er, 2e, ). Autres
exemples : note dun tudiant un examen, tat dembonpoint dun animal
(maigre, moyen, gras).
Parmi les caractres quantitatifs, on distingue les caractres quantitatifs

discrets et les caractres quantitatifs continus.
Un caractre quantitatif est dit discret lorsque, sur un intervalle donn, le
caractre ne peut prendre quun nombre fini de valeurs. Exemple : Le nombre
dobjets vendus par jour, le nombre denfants par famille. Il sera en revanche
appel caractre quantitatif continu sil peut prendre nimporte quelle valeur sur
un intervalle donn.
On peut donc tablir la typologie suivante des caractres :

Caractre ou
variable
quantitatif
qualitatif
Par Jol M. ZINSALO
nominal
Page 8
ordinal
Discret
Continu
Biomtrie
5. Modalits et nomenclature.
Dfinition : on appelle << modalits >> les divers tats que peut prendre un
caractre. La liste des modalits dun caractre est appele << nomenclature >>
du caractre.
La nomenclature associe un caractre nest pas unique et dpend en fait du
degr de dtail que le statisticien entend donner son tude.
Limportant est que la nomenclature respecte les deux proprits suivantes :
Lincompatibilit des modalits : sur aucune unit de la population ne
peuvent tre observes plusieurs modalits du caractre. Par exemple,
pour le caractre << nombre denfants par mnage >>,
0 enfant
0 enfant
1 enfant
1 enfant
2 enfant
2 enfant
3 enfants
3 enfants
4 enfants
2 enfants
Incompatibilit
=> compatibilit
Lexhaustivit des modalits : toute unit de la population correspond

une modalit dans la nomenclature.
0 enfant
0 enfant
1 enfant
1 enfant
2 enfants
2 enfants
3 enfants
3 enfants
4 enfants et plus
Non exhaustivit
=> exhaustivit
Les modalits dun caractre x sont notes x1, x2, , xi,, xk.
Par Jol M. ZINSALO
Page 9
Biomtrie
Lorsque le caractre tudi est quantitatif continu, les observations sont
regroupes en modalits reprsentant des intervalles numriques appels
classes .
Chapitre 2 :
TRAITEMENT DES DONNEES DUNE SERIE STATISTIQUE
On appelle srie statistique lensemble des donnes obtenues en vrac ou dans

lordre chronologique. Ce sont des lments qui constituent lchantillon. Le
et il est not .
nombre total dlments formant un chantillon est appel taille de lchantillon
1. Effectif partiel Frquence relative

On appelle effectif partiel ou frquence absolue
le nombre dlments par
modalit ou par classe selon le type de variable considre.
On appelle frquence relative note

lchantillon. On a :
le rapport de leffectif partiel par la taille de

=
100
2. Tableau statistique
On appelle tableau statistique un tableau qui comporte 3 parties :
-
Le titre
Le corps
La source.
Le titre est toujours libell comme suit : Distribution (ou rpartition) de tels
individus ou de telles populations selon tel caractre.
Le corps est le tableau lui-mme.
Par Jol M. ZINSALO
Page 10
Biomtrie
La source renseigne sur le lieu et la date dlaboration du tableau. Elle permet
au lecteur de vrifier lexactitude des donnes. Sil sagit dun exercice propos, on
crit source fictive ou source inconnue.
2.1.
Cas du caractre qualitatif
La couleur des cheveux par exemple est un caractre qualitatif (nominal). Les
modalits peuvent tre : blonde, brune, rousse,
2.2.
Cas du caractre quantitatif
2.2.1.
Caractre quantitatif discret
Comme nous lavons prcdemment dit, il faut toujours distinguer les trois
parties dun tableau statistique : le titre le corps la source.
2.2.2. Cas du caractre quantitatif continu

Dans ce cas, la variable prend un nombre infini de valeurs dans un intervalle
donn. Il faut donc grouper les donnes par classes.
On calcule le nombre de classes par la formule :
= 1 + 3,3
On identifie ensuite la plus grande valeur de la srie note

valeur de la srie note
. On calcule ltendue
On calcule ensuite lamplitude
et la plus petite
par la formule :
par la formule :
=
On fixe la borne infrieure de la premire classe (juste infrieure
) et on
obtient la borne suprieure en ajoutant lamplitude la borne infrieure fixe. On

procde ensuite au dpouillement des donnes en utilisant :
ou
Par Jol M. ZINSALO
Page 11
Biomtrie
Les modalits sont ici les classes.

Le corps du tableau statistique se prsente comme suit :
Modalits
; "#$
Dpouillement Effectif Frquence

partiel relative (%)
7
%&' ( ; "#$(
%&' ) ; "#$)
%&' + ; "#$+
Total
A chaque classe statistique
= [
100
[ est associe un centre de classe ci ainsi
quune amplitude de classe ai.

Lamplitude de classe mesure la taille de lintervalle, lcart entre les bornes
. =
suprieure et infrieure de la classe :
Le centre de classe reprsente la valeur moyenne thorique des observations au

sein de la classe.
Exemple :
xi
[4,6[
[6,7[
[7,8[
[8,9[
Par Jol M. ZINSALO
/ =
ai
2
1
1
1
+
2
ci
5
6,5
7,5
8,5
Page 12
Biomtrie
[9,10[
[10,13[
1
3
9,5
11,5
Lorsque le statisticien dpouille, classe, et regroupe les observations, il doit

respecter certaines rgles de cohrence :
1- La nomenclature doit imprativement tre incompatible et exhaustive.
2- Le nombre de modalits doit tre choisi de manire appropri. Un trop
faible nombre de modalits conduit une perte dinformation trop
importante, en masquant les particularits de la distribution. Un trop
grand nombre de modalits conduit en revanche alourdir le traitement
statistique de linformation et se perdre dans le dtail.
Exemple : Rpartition par ge de la population des lapins.

Nomenclature 1
[0,1[
[1,2[
[2,3[
[119,120[
120 et plus
nomenclature 2
[0,10[
[10,20[
[20,30[
[80,90[
90 et plus
nomenclature 3
[0,20[
[20,60[
60et plus
La nomenclature 1 est trs (et mme trop) riche en information et trs lourde
manipuler. La nomenclature 3 est au contraire trop agrge, de sorte que
linformation contenue dans la distribution sera pauvre. La nomenclature 2
constitue un compromis.
3- Il est souvent pratique de regrouper les classes faiblement reprsentes

dans la distribution pour allger son traitement. Par exemple, dans la
nomenclature 2
[90,100[
[100,110[
===>
90 et plus
[110,120[
[120,130[
Par Jol M. ZINSALO
Page 13
Biomtrie
4- Il convient dtre prudent pour dfinir le centre des classes situes aux
extrmits de la nomenclature. Ce dernier doit tre choisi de manire bien
reprsenter la valeur moyenne des observations au sein de la modalit.
Par exemple, dans la nomenclature 2, la borne suprieure de la classe 90
ans et plus est indtermine. En posant cette borne suprieure gale
120 ans, on aurait un centre de classe gal 115 ans.
Pour la nomenclature vrifiant les proprits dexhaustivit et dincompatibilit
des modalits, la proprit suivante est vrifie :
+
= .
se lit somme de i gal 1 k des ni o lindice muet i prend successivement les

valeurs 1, 2, 3 , k. Ainsi,
+ +
La nomenclature vrifiant les proprits dexhaustivit et dincompatibilit des

modalits, la proprit suivante est vrifie :
+
Preuve :
1 2=
= 1.
4=
= 1.
Remarque : Cette proprit de somme unitaire doit imprativement
tre
respecte. Il convient parfois darrondir la valeur de certaines frquences relatives

pour garantir la somme unitaire.
Par Jol M. ZINSALO
Page 14
Biomtrie
Les notions deffectifs et de frquences cumuls supposent que lon puisse classer
les observations par ordre croissant ou dcroissant. Or, ceci nest possible
quavec des caractres quantitatifs (ge, salaire, ). Leffectif cumul croissant ne
sera donc pas dfini pour les caractres qualitatifs, pour lesquels les observations
ne peuvent tre ordonnes (couleur des yeux, marque de voiture, ).
Dfinition : On appelle effectifs cumul croissant de la modalit xi du

caractre quantitatif x , not Ni+, le nombre dunits de la population pour
lesquelles la modalit du caractre x observe est infrieure ou gale la ime.
5- =
++
Lecture : Ni+ units de la population vrifient une valeur observe du caractre x

infrieure ou gale e i+. (Ou xi si le caractre est quantitatif discret).
Dfinition : On appelle effectif cumul dcroissant de la modalit xi du

caractre quantitatif x , not Ni-, le nombre dunit de la population pour
lesquelles la modalit du caractre x observe est suprieure ou gale la ime.
5 =
,
+ +
+.
Lecture : 5 , units de la population vrifient une valeur observe du caractre X
suprieure ou gale ei-. (Ou xi si le caractre est quantitatif discret).
Exemple : Flotte des navires de pche mtropolitains au 31 / 12/ 2001 selon la

longueur en mtres :
Longueur
en ni
Ni+
mtres
Moins de 12
4199
4199
519
4718
[12 ,16[
811
5529
[16 ,25[
88
5617
[25, 38[
38 et plus
69
5686
Total
5686
Source : Direction des pches maritimes
Par Jol M. ZINSALO
Ni5686
1487
968
157
69
Page 15
Biomtrie
N2+ = 4718
Lecture :
4718 bateaux de la flotte de pche franaises mesuraient moins
de 16 mtres fin 2001.

N4+ = 5617
5617 bateaux de la flotte de pche franaises mesuraient
moins de 38 mtres fin 2001.

N2- = 1487
1487 bateaux de la flotte de pche franaises mesuraient 12
mtres et plus fin 2001.

N4- = 157
157 bateaux de la flotte de pche franaises mesuraient 25
mtres et plus fin 2001.
Dfinition : On appelle frquence cumule croissante de la modalit xi du

caractre quantitatif x , not Fi+, la proportion dunits de la population pour
lesquelles la modalit du caractre x observe est infrieure ou gale la ime.
8 =
-
+ + 9
/ : 8 =
-
5-
Lecture : (100. Fi+)% des units de la population vrifient une valeur observe du
caractre x infrieure ou gale ei+. (Ou xi si le caractre est quantitatif discret)
Dfinition : On appelle frquence cumule dcroissante de la modalit xi du

caractre quantitatif x , not Fi-, la proportion dunits de la population pour
lesquelles la modalit du caractre x observe est suprieure ou gale la ime.
8 =
,
ou encore :
Par Jol M. ZINSALO
=
8 =
,
++
5,
Page 16
Biomtrie
Lecture : (100. Fi-)% des units de la population vrifient une valeur observe du
caractre x suprieure
ou gale ei+. (Ou xi si le caractre est quantitatif
discret)
Exemple : Flotte des navires de pche mtropolitains au 31 / 12/ 2001 selon la

longueur en mtres :
Longueur
en ni
Ni+
mtres
Moins de 12
4199
0,7485
519
0,8298
[12 ,16[
811
0,9724
[16 ,25[
88
0,9879
[25, 38[
38 et plus
69
1
Total
5686
Source : Direction des pches maritimes
Lecture :
F2+ = 0,8298
Ni1
0,2615
0,1702
0,0276
0,0121
-
82,98% des bateaux de la flotte de pche franaises
mesuraient moins de 16 mtres fin 2001.

F4+ = 0,9879
98,79% des bateaux de la flotte de pche franaises
mesuraient moins de 38 mtres fin 2001.
F2- = 0,2615
26,15% des
bateaux de la flotte de pche franaises
mesuraient 12 mtres et plus fin 2001.

N4 - =
0,0276
2,76% des
bateaux de la flotte de pche franaises
mesuraient de 25 mtres et plus fin 2001.
Par Jol M. ZINSALO
Page 17
Biomtrie
Exercice
La distribution des dures dincubation de la brucellose chez 40 vaches ges de
10 ans sont :
269,7 263,6 264,4 259,7 262,4 263,4 260,7 265,0 267,0 265,6
268,8 260,3 263,4 267,6 264,1 272,9 264,8 261,4 264,5 266,2
265,9 265,3 266,4 255,8 267,1 265,5 264,5 262,2 271,0 264,4
269,8 266,1 268,7 261,2 263,1 264,6 258,7 262,3 261,2 262,1.
1. Dterminer le nombre de classes ncessaires.
2. Dterminer ltendue de la srie
3. Dterminer lamplitude des classes et les classes de donnes. Arrondir
lamplitude lentier suprieur.
4. Dpouiller les donnes de la srie statistique.
3. Diagrammes
On entend souvent quun schma vaut mieux quun long discours. Effectivement,
lorsque lon veut tudier une srie dobservations statistiques, il est souvent
judicieux den donner une reprsentation graphique.
Cette reprsentation dpend de la nature des donnes tudies. En effet, il existe
plusieurs types de donnes : donnes quantitatives continues (mesures par une
unit de grandeur, comme le mtre, le franc), quantitatives discrtes (rsultant
dun dnombrement et sexprimant en nombres entiers) ou qualitatives nominales
(codes par une lettre, par exemple F pour fminin, M pour masculin, ou un
chiffre sans signification numrique) et ordinales (objets classs par ordre de
prfrence).
Les reprsentations graphiques fondamentales sont :
des diagrammes, dans le cas de donnes qualitatives, quantitatives
discrtes ;
des histogrammes, dans le cas de donnes quantitatives continues.
Par Jol M. ZINSALO
Page 18
Biomtrie
3.1.
Cas dun caractre qualitatif
Il existe deux diagrammes de base :

un diagramme circulaire encore appel camembert et
une reprsentation par tuyau dorgues.
Ces diagrammes reprsentent les effectifs ou les pourcentages de lchantillon
suivant chaque modalit de la variable qualitative :
Le diagramme circulaire est constitu dun disque reprsentant la totalit
de lchantillon. Chaque modalit de la variable qualitative est caractrise
par un secteur circulaire dont laire, et par suite langle au centre,
reprsente leffectif de lchantillon correspondant.
360
Le disque est divis en secteur selon la loi suivante :
tel que :
> =
>
360
est la taille de lchantillon et
leffectif partiel de chaque modalit.
La reprsentation par tuyau dorgues : on reporte le long de laxe des

abscisses la liste des modalits de la variable et le long de laxe des
ordonnes leffectif de lchantillon correspondant chacune dentre elles
dans lordre croissant ou dcroissant. Il sagit dun ensemble de rectangles
rgulirement espacs de mme base et deffectif partiel ordonn par ordre
croissant ou dcroissant.
1.2.
1.2.1.
Cas du caractre quantitatif

Caractre quantitatif discret
On reprsente les donnes statistiques par

un diagramme en btons : on reporte le long de laxe des abscisses la liste
des modalits de la variable et le long de laxe des ordonnes leffectif de
lchantillon correspondant chacune dentre elles.
Par Jol M. ZINSALO
Page 19
Biomtrie
les points ? ,
@ et les points ?
1, 0@ et ?
+ 1, 0@.
Le polygone des frquences ou des effectifs : cest la courbe ferme reliant
Exercice
Le tableau suivant reprsente la rpartition du nombre denfants par mnage
dans un quartier donn.
Nombre denfants Nombre de mnages
1
50
60
30
90
1) Reprsenter le diagramme en btons

2) Prsenter le polygone des effectifs.
Exercice
Dans un pays, on a tudi, sur une priode de temps trs longue, le nombre de
suicides des jeunes de moins de 20 ans.
Il y a eu 19 annes o on a compt 1 suicide par an
17 annes o on a compt 2 suicides par an
3 annes o on a compt 10 suicides ou plus par an
9 annes o il ny a eu aucun suicide.
1) Prciser la population tudie, lindividu, le caractre tudi et ses
modalits.
2) Etablir le tableau statistique complet.
3) Prsenter le diagramme en btons reprsentatif des effectifs.
Par Jol M. ZINSALO
Page 20
Biomtrie
4) Prsenter le polygone des effectifs.
Solution
1) La population tudie est lensemble des jeunes de moins de 20 ans dun pays
qui se sont suicids pendant une priode trs longue. Un individu est
reprsent par une anne. Le caractre tudi est le suicide. Les modalits de
celui-ci correspondent au nombre de suicides observs soit de 0 10 et plus.
2) Il sagit de prsenter un tableau statistique 8 colonnes donnant
respectivement Modalits (Nombre de suicides

), Nombre de suicides observs (
), Effectif (nombre dannes
), Frquences relatives (en %), Effectifs
cumuls croissants, Effectifs cumuls dcroissants, Frquences cumules

croissantes, Frquences cumules dcroissantes.
1.2.2.
Caractre quantitatif continu
On peut reprsenter les donnes quantitatives continues par :

-
Un histogramme : cest un ensemble de rectangles de bases respectives les

amplitudes des classes et de hauteurs proportionnelles aux effectifs partiels
hauteur les densits deffectifs B en lieu et place des effectifs partiels
des classes. Si les classes nont pas la mme amplitude, on utilise pour
calcule la densit B connaissant lamplitude . par la formule :
B =
. On
Le polygone statistique ou polygone des effectifs : il est obtenu en joignant

les milieux des sommets des rectangles de lhistogramme. Cest la courbe
labels y compris les points ? , 0@ et ?
+ 1,0@.
ferme joignant les milieux des barres suprieures des rectangles appels
Le polygone cumulatif : On distingue le polygone cumulatif croissant et le

polygone cumulatif dcroissant. Pour le polygone cumulatif croissant les
effectifs cumuls croissants sont ports sur laxe des ordonnes ; la donne
cumule est porte au point dabscisse correspondant la borne suprieure
Par Jol M. ZINSALO
Page 21
Biomtrie
de la classe. Pour le polygone cumulatif dcroissant les effectifs cumuls
dcroissants sont ports sur laxe des ordonnes ; la donne cumule est
porte au point dabscisse correspondant la borne infrieure de la classe.
Exercice
En utilisant les donnes de lexercice 3 :
1) Faire un tableau statistique complet.
2) Construire lhistogramme du revenu trimestriel de ces habitants.
3) Construire lhistogramme avec les centres des classes.
4) Prsenter le polygone statistique.
5) Prsenter le graphique reprsentatif des frquences cumules croissantes
et celui des frquences cumules dcroissantes.
Exercice
La Direction Rgionale de lagriculture et de la fort dun pays nous a donn en
2011, la rpartition par tranche dges des chefs dexploitation agricole de la
rgion centre.
Moins de 25 ans
580 exploitations
de 25 29 ans
2162 exploitations
de 30 39 ans
8063 exploitations
de 40 49 ans
9569 exploitations
de 50 59 ans
16 660 exploitations
plus de 60 ans
15 913 exploitations.
1) Dfinir la population tudie, lindividu et le caractre tudis ainsi que les

modalits de celui-ci.
2) Etablir le tableau statistique complet de cette srie.
3) Quelle proportion dexploitations ont un chef g de 40 ans ? de moins de
30 ans ? entre 25 et 60 ans ?
4) Prsenter :
a) Lhistogramme reprsentatif des effectifs
b) Le polygone des effectifs
Par Jol M. ZINSALO
Page 22
Biomtrie
c) le graphique reprsentatif des frquences cumules croissantes et celui
des frquences cumules dcroissantes. Quelle est la signification du
point dintersection ?
Solution
1) La population tudie est lensemble des chefs des exploitations agricoles de la
Rgion centre en 2011. Un individu est constitu dun chef dexploitation. Le
caractre tudi est son ge. Il varie de moins de 25 ans plus de 60 ans : ce
sont ses diffrentes modalits.
2) Tableau statistique
Classes
Centre
ges
Effectifs
de
Nombre
classes
tablis
Frquences
(%)
Effectifs
Effectifs
Frquences
Frquences
Cumuls
Cumuls
Cumules
Cumules
croissants
dcroissants
croissantes
dcroissantes
Total
Par Jol M. ZINSALO
Page 23
Biomtrie
CHAPITRE 3 :
Caractrisation des donnes :
Paramtres de position Paramtres de dispersion
Diagrammes en botes
De lexamen dune distribution statistique ou dune reprsentation graphique de

cette dernire, on peut retirer plusieurs impressions gnrales :
Lordre de grandeur des observations situes au centre de la distribution :

cest la tendance centrale .
La largeur de la srie, c'est--dire la plus ou moins grande fluctuation

des observations autour de la tendance centrale : cest la dispersion .
1. Caractristiques de tendance centrale

Les mesures de tendance centrale permettent dobtenir une ide juste de lordre
de grandeur des valeurs ainsi que de la valeur centrale de la caractristique que
lon dsire tudier.
Les trois principaux indicateurs de tendance centrale sont le mode, la mdiane,
et les moyennes.
1.1.
Le mode
Le mode dune distribution statistique, not Mo, est la modalit du caractre la

plus reprsente dans la distribution.
Elle est galement appele valeur dominante de la distribution.
Il correspond au sommet de la distribution : le mode est la valeur la plus
frquente.
On appelle distribution unimodale, une distribution prsentant un seul mode
Par Jol M. ZINSALO
Page 24
Biomtrie
f
r
q
u
e
n
c
e
X
Une distribution bimodale est une distribution prsentant deux modes
f
r
q
u
e
n
c
e
X
modes
Une distribution multimodale ou plurimodale est une distribution prsentant

plusieurs modes (2,3,). Elle est souvent le reflet dune population compose de
plusieurs sous-populations distinctes.
La dtermination du mode dune distribution diffre selon le type du caractre
observ.
1.1.1.
Cas des caractres qualitatifs et quantitatifs discret
Le mode correspondant alors la modalit deffectif (ou de frquence relative)

maximale.
Exemple : Mdailles de la France aux J.O. de Sydney en 2000 :
xi (mtal)
Or
Argent
Bronze
TOTAL
Par Jol M. ZINSALO
ni
13
14
11
38
Mo = argent
Page 25
Biomtrie
Exemple : Mdailles de la France aux J.O. dAtlanta en 1996 :
xi (mtal)
Or
Argent
Bronze
TOTAL
1.1.2.
ni
15
7
15
37
Mo = {or, bronze}
Cas des caractres quantitatifs continus
Lorsque le caractre est continu, les modalits prennent la forme de classes

dintervalles qui peuvent tre damplitude gale ou variable.
Lorsque les classes ont la mme amplitude, le mode est la modalit
correspondant leffectif le plus lev ou la frquence relative la plus leve.
Exemple : Rpartition des ouvriers dune entreprise selon le salaire mensuel
Salaire en kF
Nombre douvriers
3500 moins de 3700
21
3700 moins de 3900
49
3900 moins de 4100
100
4100 moins de 4300
24
4300 moins de 4500
Source : INSEE, France, 1984.

Leffectif le plus grand est 100. La classe modale est donc C3900; 4100C et le mode
3900 + 4100
= 4000 8
2
Mo est le centre de la classe modale soit :

F =
Pour dterminer le mode dans le cas o les classes nont pas la mme amplitude,
il faut rapporter leffectif de chaque modalit son amplitude, de manire
comparer les diffrentes modalits sur une base commune.
Par Jol M. ZINSALO
Page 26
Biomtrie
Exemple : rparation par ge des habitants dune commune
xi (ge en annes)
[0, 18[
[18, 35[
[35, 55[
[55, 105[
TOTAL
ni
72
102
105
171
450
Source : INSAE, Bnin, 2001

Dans un premier temps, on pourrait conclure que la classe modale est la
modalit [55, 105[. CECI EST FAUX !!! En effet, on ne peut comparer les effectifs
des diffrentes modalits sans les ramener une base commune, do la
dfinition suivante.
Dfinition : on appelle densit de la modalit xi du caractre quantitatif continu

x , note di, le rapport de leffectif de cette modalit sur son amplitude.
B =
La classe modale correspondant alors la modalit dont la densit est maximale.

Le mode est le centre de cette classe modale.
Exemple :
Xi (ge en annes)
ni
ai
d i = ni / ai
[0, 18[
72
18
d1= 72 /18 = 4
[18 ,35[
102
17
d2 = 102 / 17 = 6
[35 ,55[
105
20
d3 = 105 / 20 = 5,25
[55, 105[
171
50
d4 = 171 / 50 = 3,42
Total
350
Lecture : Dans la modalit dge [0, 18[, on trouve en moyenne 4 personnes par
tranche dun an.
Dans la modalit dge [18, 35[ , on trouve en moyenne 6 personnes par tranche
dun an.
Par Jol M. ZINSALO
Page 27
Biomtrie
Dans la modalit dge [35, 55[, on trouve en moyenne 5,25 personnes par
tranche dun an.
Dans la modalit dge [55, 105[, on trouve en moyenne 3,42 personnes par
tranche dun an.
La modalit la plus reprsente est donc bien [18, 35[. On a donc :
Mo = [18, 35[ .
Proprits du mode
Le mode soufre de certains dfauts :
Sa dtermination nest pas prcise pour les variables continues
(Mo = [18 ,35[ dans lexemple).
Il ne se prte pas au calcul algbrique.
En revanche, le mode constitue un indicateur simple et dinterprtation

immdiate.
1.2.
La mdiane
On appelle mdiane dune distribution statistique, note Me, la valeur de la

variable qui partage en deux groupes deffectif identique les observations classes
par ordre croissant. En dautres termes, la mdiane est la valeur du caractre
note Me telle que :
5GH
=
ou encore 8GH
= 0,5.
La mdiane est la valeur pour laquelle il y a autant dindividus gauche qu

droite dans lchantillon.
La mdiane est une valeur telle que la moiti des observations xi lui soient
infrieures ou gales
1.2.1.
Cas des variables discrtes.
Il sagit des donnes non groupes par classe. Il faut dans
un premier temps
ordonner les observations par ordre croissant. Le calcul de la mdiane dpend de

la parit de la taille de lchantillon.
Par Jol M. ZINSALO
Page 28
Biomtrie
1.2.1.1. Taille dchantillon impaire
Si n est impair, alors la mdiane est lobservation de rang
ordonne (ordre croissant).
dans la srie
Exemple : On considre la distribution dun chantillon de 9 personnes selon la

taille en cm :
153 157 159 165 167 172 173 178 182.
n= 9 impair => Me = observation de rang (9+1)/2=5=167cm
La moiti des individus de lchantillon mesurent moins de 1,67 mtres, et lautre
moiti plus de 1,67 m.
1.2.1.2. Taille dchantillon paire

Si n est pair, alors on pose
= 2 et on dtermine
=
par la formule :
+ 1. On calcule la mdiane Me par la
Les donnes sont ensuite classes par ordre croissant. On identifie ensuite la
donne de rang
formule :
et la donne de rang
P =
QRSS T U SV + QRSS T U SV ? + W@
X
Exemple : On donne la distribution dun chantillon de 10 personnes selon la

taille en cm :
n= 10 est pair => = 2 .
153 157 159 165 167 172 173 178 182 184
On trouve :
10
=5
2
La donne de rang 5 est 167 cm et la donne de rang 6 est 172 cm.

La mdiane Me est donc :
Par Jol M. ZINSALO
Page 29
Biomtrie
F =
167 + 172
= 169,5
2
La moiti des individus de lchantillon mesurent moins de 169,5 cm, et lautre

moiti plus de 169,5 cm.
1.2.2.
Cas des variables continues
Ici les donnes sont groupes par classe.

On dtermine la classe mdiane en dterminant
cumul croissant englobe la ? 2@ []
2 et on compare cette valeur
avec les effectifs cumuls croissants. La classe mdiane est celle dont leffectif
donne (celle dont leffectif cumul
croissant lui est immdiatement suprieure ou gale). On calcule ensuite la

mdiane Me par la formule :
^_
o
S
S
`_,W
X
P = ^_ + _
SP
est la borne infrieure de la classe mdiane
`_,W est la somme des effectifs partiels de toutes les classes prcdant la classe
est le nombre total des donnes dans la srie
SP est leffectif partiel de la classe mdiane

mdiane
est lamplitude de la classe mdiane.
Proprits de la mdiane
La mdiane nest pas dfinie pour les caractres qualitatifs, et son interprtation
pose problme pour les variables discrtes. En fait, la mdiane est un indicateur
utile et pertinent dans le seul cas des variables continues, o linterprtation de
la mdiane est simple et parlante .
La mdiane a pour avantage dtre peu sensible aux valeurs numriques de la
srie ; elle ne dpend gure que de lordre des observations et est constante mme
si les premires et dernires observations varient considrablement. Elle nest pas
toujours facile calculer, et parfois mme nexiste pas.
Par Jol M. ZINSALO
Page 30
Biomtrie
1.3.
Moyennes
On tudiera la moyenne arithmtique, la moyenne pondre, la moyenne

gomtrique, la moyenne harmonique et la moyenne quadratique.
1.3.1. Moyenne arithmtique

La moyenne arithmtique ou moyenne ou moyenne arithmtique simple est la
moyenne est note et dtermine par la formule :
somme des grandeurs mesures divise par le nombre total dindividus. La
Exemple :
Pour un examen de DUT, les notes dun tudiant dans 7 matires sont :
18 16 15 - 14 12 - 17 11.
18 + 16 + 15 + 14 + 12 + 17 + 11
= 14,71
7
La note moyenne est donc :

=
Cette formule est utilise pour des donnes non groupes (c'est--dire des
donnes en vrac ou en ordre chronologique).
Pour calculer la moyenne arithmtique dune variable continue dont les
observations sont donc regroupes en classe, on considre que les valeurs
observes sont rparties de manire uniforme au sein de chaque intervalle. Ceci
xi est gale au centre ci de cette classe. On utilise les centres / des classes et
revient supposer que la valeur moyenne des observations au sein dune classe
leurs effectifs partiels
pour ainsi calculer la moyenne arithmtique. On utilise
la formule :
e=
d
W S_ f_
tant le nombre de classes et n leffectif total.

Le plus souvent il sagit plutt de calculer une moyenne pondre.
Par Jol M. ZINSALO
Page 31
Biomtrie
Il peut arriver que des donnes soient rptes un certain nombre de fois dans
une srie statistique.
La moyenne pondre est une moyenne arithmtique dans laquelle chaque
modalit
de la variable X est multiplie (ou pondre) par leffectif partiel

W S_ d_
W S_ d_
correspondant. La moyenne pondre se calcule par :

e=
d
W S_
Exemple : notes obtenues par un lve au baccalaurat :

Xi (note sur 20)
ni (coefficient)
ni. xi
24
16
32
13
39
10
Total
12
113
?4 2@ + ?8 3@ + ?16 2@ + ?13 3@ + ?5 2@ 113

=
= 9,42.
12
12
La moyenne pondre de cet lve au baccalaurat est :

=
La moyenne arithmtique pondre peut galement tre dfinie partir des

frquences relatives :
=
@=
? .
@=
@=
Proprit :
Sur deux populations Pa et Pb de mme nature, et deffectif respectif na et nb, on a
la valeur moyenne du caractre, note respectivement ggg et ggg.
h Alors, la moyenne
observ le mme caractre quantitatif X. Sur chaque sous-population, on obtient

du caractre x sur lensemble de la population P = Pa U Pb est :
Si
S
e=
ggg +
ggg
d
d
d
S + Si
S + Si i
Par Jol M. ZINSALO
Page 32
Biomtrie
Exemple : Les 300 copies de statistique ont t corriges en deux fois :
120 copies avec une moyenne de 09/20
180 copies avec une moyenne de 11,5/20
120
180
9+
11,5 = 10,5.
300
300
Quelle est la note moyenne sur lensemble des copies ?

=
Exercice 2
Dans une population de 12 000 familles de huit enfants, on tudie le caractre
nombre de garons parmi les huit enfants de chaque famille . La rpartition de
ces familles suivant le nombre de garons est la suivante :
Nombre
Nombre de familles
de garons
ayant n garons
0
48
1
295
2
1425
3
2213
4
3438
5
2457
6
1607
7
453
8
64
1. Construire le diagramme en btons des observations.
2. Quel est le mode de cette srie statistique ?
3. Calculer la mdiane.
4. Calculer la moyenne.
Exercice 3
En vue dtudier la rpartition des ouvriers agricoles dune rgion en fonction du
salaire journalier, on choisit un chantillon reprsentatif de cette population. On
observe que le salaire journalier est compris entre 80 kF et 200 kF, un intervalle
partag en 8 intervalles conscutifs gaux. La rpartition des individus de
lchantillon dans ces 8 classes est la suivante :
Par Jol M. ZINSALO
Page 33
Biomtrie
Salaires
journaliers d
Effectifs des
C80, 95C
classes
C110, 125C
56
C125, 140C
135
C170, 185C
60
C95, 110C
11
C140, 155C
140
C185, 200C
30
C155, 170C
96
1. Construire lhistogramme et le polygone des frquences de cette srie

statistique.
2. Quelle est la classe modale ? Calculer la mdiane de cette srie statistique.
3. Calculer la moyenne.
La moyenne arithmtique est un paramtre de tendance centrale robuste et

simple interprter, except dans certains cas particuliers :
Lorsque la distribution contient de points aberrants (des valeurs

extrmes qui dforment la distribution).
Dans le cas de variables discrtes o linterprtation est problmatique (2,1

enfants par femme ).
Le concept de moyenne nest cependant pas univoque et ne se rduit pas la

seule moyenne arithmtique. Trois autres types de moyennes peuvent tre
dfinies, correspondant chacune un contexte bien particulier dutilisation.
La moyenne possde des proprits mathmatiques intressantes et est facile
manipuler
mathmatiquement.
Elle
dpend
de
toutes
les
valeurs
xi
et
particulirement des valeurs xi trs grandes en valeur absolue, surtout si les

observations sont peu nombreuses.
Par Jol M. ZINSALO
Page 34
Biomtrie
Lorsque les donnes sont peu nombreuses, que certaines observations sont trs
leves en valeur absolue, et quil existe un risque derreur de mesure non
ngligeable, on choisira la mdiane comme ordre de grandeur des observations.
Lorsque les observations sont prcises, fiables et relativement nombreuses, on
choisira la moyenne comme ordre de grandeur des observations.
2. Caractristiques de dispersion
Les indicateurs de tendance centrale ne permettent pas eux seuls de
caractriser la distribution statistique. Ils renseignent sur lordre de grandeur
au milieu de la srie , mais nindique rien quant la rpartition des
observations autour du centre de la distribution.
Exemple : Age de mariage de deux groupes dindividus
Groupe 1
21
22
23
24
30
30
36
37
38
39
Groupe 2
28
29
29
30
30
30
30
31
31
32
Groupe 1
Groupe 1
: Mo = Me = = 30
: Mo = Me = = 30
Bien que les deux sries aient exactement les mmes caractristiques de
tendance centrale, les distributions sont clairement trs diffrentes :
Dans le groupe 1, les observations sont beaucoup plus disperses autour de la
tendance centrale.
Nous allons ici dfinir les indicateurs synthtiques permettant de mesurer
cette dispersion. Ces indicateurs sont de plusieurs types :
-
Ltendue dune srie
Lcart moyen
La variance et lcart type
Le coefficient de variation
Les quantiles.
Par Jol M. ZINSALO
Page 35
Biomtrie
2.1.
Ltendue dune srie
Ltendue
dune srie est aussi appele range ou intervalle de variation. Cest la
diffrence entre la valeur la plus leve

On a :
Exemple : ge de mariage
= dj
et la plus faible
d
de la srie.
dj_S
Groupe 1 : tendue = 39 21 = 18
Groupe 2 : tendue = 32 28 = 4
Lentendue, pour simple quelle soit calculer et interprter, ne constitue pas
pour autant une mesure fiable de dispersion. En effet,
-
Elle ne prend en compte que deux des n observations ;
Deux sries la dispersion trs diffrente peuvent avoir une tendue

identique.
2.2.
Lcart moyen
, et den calculer la moyenne
Pour chaque modalit, il est intressant de calculer lcart de chaque valeur de la

variable la moyenne arithmtique, soit
arithmtique. Lcart moyen E se dfinit comme la moyenne arithmtique des

carts la moyenne arithmtique de la srie.
On le note :
2.3.
$ | |
k=
$
La variance et lcart type
Pour viter la compensation entre carts positifs et ngatifs la moyenne dans le

but de mesurer la dispersion, une autre solution consiste lever ces carts
une puissance paire, pour liminer les signes - . Cest le principe de dfinition
de la variance.
La variance est la moyenne des carrs des carts la moyenne arithmtique. On

la dsigne par V :
-
pour une srie simple :
Par Jol M. ZINSALO
Page 36
Biomtrie
1
m=
-
@( 9 m = n
4 o
pour une srie groupe par classe ou le cas de valeurs distinctes

1
?/
m=
@(
9 m = n
/ 3
(
/4 o
Exemple : Age au mariage de deux groupes dindividus

Groupe 1
21
29
29
30
30
31
31
39
Groupe 2
29
29
29
30
30
31
31
31
Groupe 1:
1
m = pq
8
Groupe 1:
1
166
30@ = ?81 + 1 + 1 + 1 + 0 + 0 + 1 + 1 + 81r =
= 20,75
8
8
1
m = pq
8
1
6
30@ = ?1 + 1 + 1 + 0 + 0 + 1 + 1 + 1r = = 8,75
8
8
La dispersion est donc largement suprieure dans le premier groupe.
La variance na pas dinterprtation isolment. En effet, elle nest pas exprime dans
lunit de mesure de la variable (ici lanne), mais en carr de cette variable (des
annes au carr !!). Pour combler ce dfaut, on dfinit lcart type, not , comme la
racine carre de la variance.
Lcart type est donc exprim dans lunit de mesure de la variable :
-
pour une srie simple :
= m = t
-
@( 9 = t n
4 o
pour une srie groupe par classe ou le cas de valeurs distinctes

1
=t
Par Jol M. ZINSALO
?/ @( 9 = t n
/ 3
(
/4 o
Page 37
Biomtrie
Exemple : Age au mariage de deux groupes dindividus.
Groupe 1 : ? @ = u20,75 = 4,56 . v
Groupe 2 : ? @ = u0,75 = 0,75 . v
Exemple : Flotte des navires de pche mtropolitaine au 31/12/2001 selon la

longueur en mtres :
Longueur
en Ni
Ci
(Ci )
ni-(C1- )
mtres
Moins de 200
4199
10*
-2,62
28824
[12, 16[
519
14
1,38
988
[16, 25[
811
20,5
7,88
50358
[25, 38[
88
31,5
18,88
31368
38 et plus
69
45*
32,88
72344
TOTAL
5686
183882
Source : Direction des Pches maritimes
m=
2.4.
= 12,62 ]w: v.
183882
= 32,34 = u32,34 = 5,69 ]w: v.
5686
Le coefficient de variation
Les indicateurs de dispersion prcdents sont exprims dans lunit de mesure de

la variable. Alors, comment comparer la dispersion de deux variables statistiques
dont les units de mesure et les ordres de grandeur diffrent ? Par exemple, la
distribution par taille des navires de pche est-elle plus disperse que celles par
ge au mariage des groupes dindividus ?
Pour saffranchir de lunit de mesure et de lordre de grandeur, on dfinit un
indicateur de dispersion relative, le coefficient de variation.
Par Jol M. ZINSALO
Page 38
Biomtrie
Le coefficient de variation CV est calcul par la formule :
{
yz = W||
e
d
e est
Il est indpendant de lunit de mesure de la caractristique observe. Si d
ngative, on retient la valeur absolue de CV.
Pour deux variables X et Y, CV(X) > CV(Y) la distribution de X est plus

disperse que celle de Y.
e), indiquant ainsi que la moyenne
donnes est homogne (concentre autour de d
Plus le coefficient de variation est faible (infrieur 15%), plus la srie de

e est bien reprsentative de lensemble des donnes de la srie.
d
Exemple
4,56
= 0,152
30
Age de mariage de deux groupes dindividus (groupe 1) :

= 30 w = 4,56 . v }m =
0,87
= 0,029
30
Age de mariage de deux groupes dindividus (groupe 2)

= 30 w = 0,87 . v }m =
Flotte des navires de pche
= 12,62 w = 5,69 . v }m =
5,69
= 0,451
12,62
On peut conclure que la distribution la plus disperse est celle des bateaux de
pche par taille.
2.5.
Les quantiles
Les quantiles sont les valeurs de la variable statistique qui partagent la

distribution classe en ordre croissant en plusieurs sous-groupes deffectif
identique. Les quantiles les plus frquemment utiliss sont :
Les quartiles : ce sont les valeurs Q1, Q2, Q3, qui partagent lensemble des
observations classes par ordre croissant en 4 sous-ensembles comprenant
chacun 25 % de la population totale.
Par Jol M. ZINSALO
Page 39
Biomtrie
Les dciles : ce sont les valeurs D1, D2 D3, , D8, D9 qui partagent lensemble des
observations classes par ordre croissant en 10 sous ensembles comprenant
chacun 10% de la population totale.
Les centiles : Ce sont les valeurs C1, C2 C3, , C98 C99 qui partagent lensemble
des observations classes par ordre croissant en 100 sous ensembles comprenant
chacun 1% de la population totale.
Le 1er quartile not ~W dune srie ordonne (ordre croissant) est le nombre en
de duquel se trouvent au plus 25% des donnes ; le deuxime quartile ~X
plus 50% des donnes ; cest donc la mdiane. Le troisime quartile ~ est le
correspond la mdiane et reprsente le nombre en de duquel se trouvent au
nombre en de duquel se trouvent au plus 75% des donnes. Lorsque les

calculer ~W et ~ .
donnes sont groupes en classes, on utilise les expressions suivantes pour

~W = + 4
8
~W
3
8
~ = + 4
.
~
: borne infrieure de la classe qui contient ou )

: nombre de donnes dans la srie
8 : somme des frquences absolues des classes prcdant la classe qui contient le
premier ou le troisime quartile
~W
~
: frquence absolue de la classe contenant le premier quartile

: frquence absolue de la classe contenant le troisime quartile
. : amplitude de classe.
Par Jol M. ZINSALO
Page 40
Biomtrie
De faon analogue, on calcule les dciles Dj et les centiles Cj par les formules :
Dciles 6 C
Centiles }6 C
2.6.
C Q =
,
_
C y =
,
_
?
+ _
S
@ `_,W
W|
S_
S
@
W||
S_
`_,W
Diagramme en botes
Intervalle interquartile
On appelle intervalle interquartile IQ la diffrence entre le troisime quartile ) et
le premier quartile .
~ = ~
~W
Pour construire un diagramme en bote, on positionne de manire ordonne et

lchelle les quartiles, la mdiane et les valeurs extrmes de la srie. On construit
ensuite une bote rectangulaire relie les quartiles
et ) , de sorte que la
longueur de la bote est lintervalle interquartile IQ. On trace par la suite un trait
lintrieur de la bote pour reprsenter la mdiane et un autre partir de
chaque extrmit de la bote jusquaux valeurs extrmes de la srie.
Figure : Diagramme en bote
Par Jol M. ZINSALO
Page 41
Biomtrie
Exercice
La distribution des dures dincubation de la brucellose chez 40 vaches ges de
10 ans sont :
269,7 263,6 264,4 259,7 262,4 263,4 260,7 265,0 267,0 265,6
268,8 260,3 263,4 267,6 264,1 272,9 264,8 261,4 264,5 266,2
265,9 265,3 266,4 255,8 267,1 265,5 264,5 262,2 271,0 264,4
269,8 266,1 268,7 261,2 263,1 264,6 258,7 262,3 261,2 262,1.
1. Calculer les quartiles , ( et ) .
2. Construire le diagramme en bote.
Solution
Tout dpend de la parit de la taille de lchantillon .
Il faut dabord ordonner les donnes de la srie.
Si n est impair, les rangs de , ( et ) dans la srie ordonne sont arrondis

lentier suprieur.
Calcul du premier quartile ~W
Pour cet exercice, la taille de lchantillon n est paire.

-
Le rang
est tel que :
1
n
4
1
= 40 = 10
4
soit :
Le premier quartile correspond la moyenne de la 10e et la 11e donne dans la

srie ordonne :
262,2 + 262,3
= 262,25
2
Calcul du deuxime quartile ~X
Le rang
est tel que :
soit :
Par Jol M. ZINSALO
2
n
4
2
= 40 = 20
4
Page 42
Biomtrie
Le deuxime quartile correspond la moyenne de la 20e et la 21e donne dans la
srie ordonne :
( = FH =
264,5 + 264,5
= 264,5
2
Calcul du troisime quartile ~
Le rang
est tel que :
3
n
4
3
= 40 = 30
4
soit :
Le premier quartile correspond la moyenne de la 30e et la 31e donne dans la

srie ordonne :

2.7.
) =
266,2 + 266,4
= 266,3
2
Rgle pratique pour dtecter une valeur aberrante
Une valeur aberrante est une donne qui scarte de faon marque de lensemble
des donnes. Une rgle pratique utilise pour identifier une valeur aberrante est
la suivante :
moins 1,5 au-dessus du troisime quartile ou en-dessous du premier quartile.
Une donne peut tre appele valeur aberrante si elle scarte dune distance dau
Une valeur aberrante doit tre examine avec soin pour identifier la cause
ventuelle de cet cart important par rapport lensemble des donnes. Les
valeurs aberrantes affectent la moyenne arithmtique.
Exercice
En se rfrant aux donnes de lexercice prcdent, dtecter les valeurs
aberrantes sil y a lieu.
On a trouv :
Par Jol M. ZINSALO
= 262,25 w ) = 266,3
Page 43
Biomtrie
Lintervalle interquartile qui contient 50% des donnes du centre de la
distribution est :
= ) = 4,05 w 1,5 = 6,075
si elle est suprieure 1,5 = 262,25 6,075 = 256,175

Ainsi, on peut dclarer une donne aberrante :
si elle est suprieure ) + 1,5 = 266,3 + 6,075 = 272,375

ou
On constate que les deux valeurs extrmes 255,8 et 272,9 peuvent tre dclares
valeurs aberrantes.
Par Jol M. ZINSALO
Page 44
Biomtrie
Chapitre 4 :
STATISTIQUE A DEUX VARIABLES CORRELATION
1. Corrlation entre deux variables

Jusqu' prsent, nous nous sommes intresss des questions du type:
quelle est la taille moyenne des garons bninois gs d'une vingtaine
d'annes ?
quelle est la probabilit pour qu'un mdicament soit efficace ?
quel pourcentage de voix un parti politique recueillera-t-il aux prochaines
lections ?
quelle fraction des barres mtalliques produites par une usine sera-t-elle
rejete par le client ?
le poids moyen des pains produits dans une boulangerie est-il suprieur
800 grammes ?
Dans toutes ces questions, nous tudions le comportement statistique d'une
seule variable: taille, efficacit du mdicament, pourcentage de voix, longueur des
barres, poids des pains.
Il existe cependant toute une gamme de problmes statistiques o l'on s'intresse
la relation entre plusieurs variables.
Exemples:
les individus les plus grands sont-ils les plus lourds ?
le revenu d'une famille a-t-il une influence sur les rsultats scolaires des
enfants ?
y a-t-il une relation entre le tabagisme et les cancers du poumon ?
le rendement en crales dpend-il de la quantit d'engrais utilise ?
la productivit d'une entreprise est-elle lie au salaire des ouvriers ou
employs ?
Dans ces questions, nous dsirons savoir si le comportement d'une variable est
influenc par la valeur d'une autre variable:
taille
poids
revenu
rsultats
tabagisme
cancer
rendement
engrais
La relation peut tre causale ou non.

Par Jol M. ZINSALO
Page 45
Biomtrie
Pour tudier les relations ou corrlations entre deux variables statistiques, on
peut les porter sur un graphique.
Exemple: relation entre la taille et le poids des individus
pour chaque individu de l'chantillon, on porte sur un graphique:
sa taille en abscisse (l'abscisse d'un point correspond sa projection sur l'axe
horizontal)
son poids en ordonne (l'ordonne d'un point correspond sa projection sur
l'axe vertical)
chaque individu est donc, dans ce graphique, reprsent par un point (point
reprsentatif)
soit un individu mesurant 172 cm et pesant 66 kg:
70
p
66
o
i
d 60
s
(kg)
point reprsentatif
50
150
160
170
172
180
taille (cm)
Dans le graphe, il y aura donc autant de points qu'il y a d'individus dans
l'chantillon.
p
o 80
i
d 70
s
(kg) 60
50
150
.
.
. . .
.. . . . .
.
. .. . . . .
. . .. . . .
. .
170
180
190
200
taille (cm)
Relation entre le poids et la taille dans un chantillon de 30 individus.
Par Jol M. ZINSALO
160
Page 46
Biomtrie
On peut (par la pense ou rellement) tracer une droite qui passe au mieux par
ces points (au milieu du "nuage" de points).
Si cette droite "monte", on dira qu'il y a corrlation positive entre les deux
variables.
Si elle "descend", c'est une corrlation ngative.
Si elle est "horizontale", ou si on ne peut pas dcider, c'est qu'il y a absence de
corrlation.
Corrlation positive:
.
.
. . .
.. . . . .
.
. .. . . . .
. . .. . . .
. .
x
Corrlation ngative:
. .. .
. . . .. .. . .
. . .
.
. . . .. . .
. .
.
.
.
.
x
Absence de corrlation:
Par Jol M. ZINSALO
Page 47
Biomtrie
. .. .
. .. . . . .
. .. . . . . .
.
.. . . . .
x
. .. . .
.
. . .. .. . . . .
. . .. . . . .
. . .
x
La qualit de la corrlation entre deux variables peut se mesure par la dispersion

des points autour de la relation moyenne.
Corrlation parfaite:
. .
..
x
Bonne corrlation (corrlation forte):
. .
. .
.. .
.
. ..
x
Mauvaise corrlation (corrlation faible):
Par Jol M. ZINSALO
Page 48
Biomtrie
.
. .
.
.
. .
.
.
.
x
Exemple:
1. Corrlation entre le poids et la taille pour les garons de 2me candidature
communication (1998).
100
.. . .
. .. ..
..
. .. ...... .
..
. . . ..
.. . .
.
p
o 80
i
d
s
(kg) 60
.
40
140
160
180
taille (cm)
200
On constate une augmentation du poids avec la taille (corrlation positive): les

garons les plus grands sont gnralement les plus lourds.
Mais la dispersion des points est assez grande: la corrlation est assez faible.
2. Corrlation entre le poids et la taille pour les filles de 2me candi. commu.
Par Jol M. ZINSALO
Page 49
Biomtrie
p
o 80
i
d
s
(kg) 60
40
140
. . ..... .
.
. .. .
.
.
. .. ... ....... .
. ..... . ..
...... ...
.
160
180
taille (cm)
200
On ne constate pas de relation entre le poids et la taille (absence de

corrlation): le poids des filles est indpendant de leur taille.
(Les filles les plus grandes sont donc les plus minces)
2. Mthode des moindres carrs

Si on se contente de tracer main leve la droite qui "passe au mieux" par les
points reprsentatifs, diffrentes personnes vont obtenir des rsultats diffrents.
Il existe une mthode mathmatique pour dterminer la "meilleure" droite: c'est la
mthode des moindres carrs.
Elle consiste, dans sa version la plus simple, trouver la droite qui minimise les
carrs des carts des points reprsentatifs cette droite.
d5
d3
d1
d4
d2
X
Par Jol M. ZINSALO
Page 50
Biomtrie
Trouver la droite telle que la somme des carrs des carts d1, d2, soit minimale:
d 2 = minimum
Soit
Y = aX + b
l'quation de la droite cherche (droite de rgression)
Les coefficients a et b peuvent tre calculs partir des formules suivantes:
Pente:
a=
(X
)( ) (
)( ) (
)(
(X X ) + (X X ) + L + (X X )
X . Y1 Y + X 2 X . Y2 Y + L + X n X . Yn Y
2
ou:
a=
( X X ).(Y Y )
(X X )2
Ordonne l'origine:
b = Y a. X
Rappels:
1
X
n
1
Y = Y
n
X=
3. Coefficient de corrlation
Le signe de la pente a donne le sens de corrlation, mais pas sa qualit.
a>0
corrlation positive
a<0
corrlation ngative
a=0
pas de corrlation
La qualit de la corrlation peut tre mesure par un coefficient de corrlation r

r=
( X X ).(Y Y )
2
( X X ) (Y Y ) 2
Le coefficient de corrlation est compris entre 1 et +1.

Par Jol M. ZINSALO
Page 51
Biomtrie
Plus il s'loigne de zro, meilleure est la corrlation
r = +1
corrlation positive parfaite
r = 1
corrlation ngative parfaite
r=0
absence totale de corrlation
Quelques exemples de corrlation

(le coefficient de corrlation r est indiqu dans chaque cas)
Par Jol M. ZINSALO
Page 52
Biomtrie
Exemples:
1. Supposons un chantillon alatoire de 4 firmes pharmaceutiques prsentant
les dpenses de recherche X et les profits Y suivants (en milliers de dollars):
X
40
50
40
60
30
40
50
50
Trouvez la droite de rgression et le coefficient de corrlation.

Calculons tout d'abord X et Y:
X =
1
1
160
X = (40 + 40 + 30 + 50 ) =
= 40
n
4
4
Y=
1
1
200
Y = (50 + 60 + 40 + 50 ) =
= 50
n
4
4
Compltons le tableau suivant:
(X X )2 (Y Y )2
(X X ) .(Y Y )
XX
Y Y
40
50
40
60
+10
+100
30
40
10
10
+100
+100
+100
50
50
+10
+100
On a donc:
(X X ) = 200
2
(Y Y ) = 200
(X X )(. Y Y ) = 100
2
Les coefficients de la droite de rgression sont:

a=
(X X )(. Y Y ) = 100 = 0,5

2
200
(X X )
b = Y a. X = 50 0,5 40 = 50 20 = 30
Et le coefficient de corrlation:
Par Jol M. ZINSALO
Page 53
Biomtrie
r=
(X X )(. Y Y )
2
2
(X X ) (Y Y )
100
200 200
100
= 0,5
200
La corrlation est positive et de qualit moyenne
Y
60
50
40
30
40
50
60
2. La corrlation entre la taille (X) et le poids (Y) pour les garons de 2me candi.
commu. donne les rsultats suivants:
(a)
droite de rgression Y = aX + b
a = 0,816
(b)
b = -77,0
coefficient de corrlation
r = 0,61
la corrlation est donc positive, de qualit moyenne

3. De la mme manire, pour les filles, on obtient:
(a)
droite de rgression
a = 0,239
(b)
b = 16,6
coefficient de corrlation
r = 0,20
la corrlation est positive (les filles les plus grandes tendent tre les plus
lourdes), mais de trs mauvaise qualit (r proche de zro).
Remarques:
1. Le coefficient de corrlation nous donne des informations sur l'existence d'une
relation linaire (sous forme d'une droite) entre les deux grandeurs
considres.
Un coefficient de corrlation nul ne signifie pas l'absence de toute relation
entre les deux grandeurs. Il peut exister une relation non linaire entre elles.
Par Jol M. ZINSALO
Page 54
Biomtrie
(cf. exemple (f) ci-dessus: la connaissance de X nous donne des informations
sur la valeur de Y).
2.
Il ne faut pas confondre corrlation et relation causale.

Une bonne corrlation entre deux grandeurs peut rvler une relation de
cause effet entre elles, mais pas ncessairement.
Exemples:
1. Si on compare la dure de vie des individus la quantit de mdicaments
pour le cur qu'ils ont absorbe, on observera probablement une
corrlation ngative. Il serait imprudent de conclure que la prise de
mdicaments pour le cur abrge la vie des individus
(en fait, dans ce cas, la corrlation est l'indice d'une cause commune: la
maladie de cur).
2. Le soleil tire son nergie de ractions nuclaires transformant l'hydrogne
en hlium. Notre socit tire une bonne part de son nergie de la
combustion du ptrole. Si on compare, anne aprs anne, la quantit
d'hlium contenue dans le soleil au prix moyen du ptrole, on obtiendra
une bonne corrlation positive, sans qu'il y ait la moindre relation de
cause effet, ni aucune cause commune.
3. Depuis une dizaine d'annes, la taille de mon fils cadet, n en 1989, est
trs bien corrle avec la puissance de calcul des ordinateurs personnels.
Cette excellente corrlation ne rvle bien videmment aucune relation de
cause effet, ni cause commune.
L'existence d'une corrlation, aussi bonne soit elle, n'est jamais la preuve d'une
relation de cause effet.
Par Jol M. ZINSALO
Page 55
Biomtrie
CHAPITRE 5
ESTIMATION
Un phnomne sera entirement dtermin si lon connat la loi de probabilit suivie par la variable
alatoire donne dans la population. On a alors deux cas de figure :
-
soit la loi de probabilit suivie par X est connue a priori et on vrifie a posteriori que les
observations faites partir dun chantillon sont en accord avec elle. Cest le cas par exemple de
la rpartition des gnotypes attendus dans une population sous le modle de Hardy-Weinberg.
On effectue alors un test dajustement entre la distribution thorique et la distribution
observe.
soit la loi de probabilit suivie par X est inconnue mais suggre par la description de
lchantillon (nature de la variable, forme de la distribution des frquences, valeurs des
paramtres descriptifs). Dans ce cas, il est ncessaire destimer les paramtres de la loi de
probabilit partir des paramtres tablis sur lchantillon.
Linfrence statistique traite principalement de ces deux types de problmes : lestimation de

paramtres (esprance, variance, probabilit de succs) et les tests dhypothses.
Linfrence statistique ne conduit jamais une conclusion stricte, elle attache toujours une
probabilit cette conclusion. Cela provient du fait que lon tente de tirer des conclusions sur une
population (grand nombre dindividus) sur la base des observations ralises sur un chantillon,
reprsentant une portion restreinte de la population.
Lestimation a pour objectif de dterminer les valeurs inconnues des paramtres de la population
(p, , 2) ou (proportion, moyenne, variance) partir des donnes de lchantillon ? , , v ( @. Il
est alors ncessaire de dterminer la prcision de ces estimations en tablissant un intervalle de
confiance autour des valeurs prdites.
Les statistiques infrentielles ou inductives peuvent se rsumer par le schma suivant :
Par Jol M. ZINSALO
Page 56
Biomtrie
1. Distribution dchantillonnage
Pour rsoudre les problmes destimation de paramtres inconnus, il faut tout dabord tudier les
distributions dchantillonnage, cest dire la loi de probabilit suivie par lestimateur.
Remarque :
En thorie de lestimation, il sagit de distinguer soigneusement trois concepts diffrents :
les paramtres de la population comme la moyenne dont la valeur est certaine mais
inconnue symboliss par des lettres grecques
les rsultats de lchantillonnage comme la moyenne x dont la valeur est certaine mais connue
symboliss par des minuscules.
les variables alatoires des paramtres, comme la moyenne alatoire X dont la valeur est
incertaine puisque alatoire mais dont la loi de probabilit est souvent connue et symbolises
par des majuscules.
1.1. Dfinition
1.1.1. Approche empirique
Il est possible dextraire dune population de paramtres p, ou 2 pour une variable alatoire X,
k chantillons alatoires simples de mme effectif, n. Sur chaque chantillon de taille n, on calcule
les paramtres descriptifs ? , , v ( @.
Par Jol M. ZINSALO
Page 57
Biomtrie
On obtient ainsi pour chaque paramtre estim, une srie statistique compose de k lments
savoir les k estimations du paramtre tudi. Par exemple, on aura k valeurs de moyennes observes
(graphe ci-dessus).
La distribution associe ces k estimations constitue la distribution dchantillonnage du
paramtre. On peut alors associer une variable alatoire chacun des paramtres. La loi de
probabilit suivie par cette variable alatoire admet comme distribution, la distribution
dchantillonnage du paramtre auquel on pourra associer une esprance et une variance.
1.1.2. Approche thorique

En pratique, les donnes tudies sont relatives un seul chantillon. Cest pourquoi, il faut
rechercher les proprits des chantillons susceptibles dtre prlevs de la population ou plus
prcisment les lois de probabilit de variables alatoires associes un chantillon alatoire.
Par Jol M. ZINSALO
Page 58
Biomtrie
Ainsi les n observations x1 , x2 ,, xi , , xn, faites sur un chantillon peuvent tre considres
comme n variables alatoires X1 , X2 ,, Xi , , Xn. En effet, la valeur prise par le premier lment
extrait de la population X1, dpend de lchantillon obtenu lors du tirage alatoire.
Cette valeur sera diffrente si lon considre un autre chantillon. Il en est de mme pour les n
valeurs extraites de la population.
A partir de ces n variables alatoires, on peut dfinir alors une nouvelle variable qui sera fonction de
ces dernires telle que :
Y = f(X1, X2,, Xi , , Xn )
par exemple : Y = X1 + X2++ Xi +. Xn
Ainsi la loi de probabilit de la variable alatoire Y dpendra la fois de la loi de probabilit de la
variable alatoire X et de la nature de la fonction f.
1.2. Loi de probabilit de la moyenne

1.2.1. Dfinition
Soit X une variable alatoire suivant une loi normale desprance et de variance 2 et n copies
indpendantes X1,X2,,Xi,,Xn telle que Xi associe le ime lment de chacun des n chantillons
avec E(Xi) = et V(Xi) = 2.
e , telle que :
On construit alors la variable alatoire
g =
avec pour esprance :
1
k?g@ = k 3
Do :
k?g@ est galement not g .
et pour variance :
m?g@ est galement not (g .

Par Jol M. ZINSALO
1 + 2 + . . [ + . . . +
1
[4 = k 3
[4 =
1
=
[
1
k?[@ = =
k?g@ =
m?g@ =
Page 59
Biomtrie
La loi de probabilit de la variable alatoire g, moyenne de n v.a. X de loi de probabilit

N( , ), est une loi normale 5 1,
2.
est plus faible que la variance de la variable elle-mme ( .
Remarque : il est ais de voir sur le graphe ci-dessous que la variance associe une moyenne
Soit ltendue des valeurs observes dune variable alatoire

X pour 4 chantillons de mme taille dune mme population.
Les valeurs des moyennes arithmtiques sont indiques ainsi
que les limites relatives ltendue des valeurs de la variable
observe et celle des moyennes observes.
1.2.2. Convergence
En fonction de la nature de la variable alatoire continue X, de la taille de lchantillon n et de la
connaissance que nous avons sur le paramtre 2, la variable centre rduite construite avec X
converge vers diffrentes lois de probabilit (Table de convergence).
Effectif de
Loi de X
Ecart-type
Loi rduite
Loi de
lchantillon
Quelconque
Connu
N( ,
n 30
Inconnu
N( ,
N(0,1)
N(0,1)
Inconnue
Quelconque
n 30
Connu
N( ,
Normale
N(0,1)
Inconnu
T (n-1 ddl)
Par Jol M. ZINSALO
Page 60
Biomtrie
Lorsque la variance 2 est connue et n grand (n 30), on se trouve dans les conditions du
thorme central limite et la loi suivie par :
g
/
N?0,1@
Ceci reste vrai lorsque n 30 seulement si la loi suivie par X suit une loi normale. Lorsque la
variance 2 est inconnue et X suit une loi normale, la loi suivie par la variable centre rduite est
alors :
1 1 degrs de libert
Lorsque n 30, la loi de student tend vers une loi normale rduite (voir convergence).
Lorsque la variance 2 est inconnue et X ne suit pas une loi normale, la loi suivie par :
nest pas connue.
1.3.
Loi de probabilit dune frquence
Soit une population dans laquelle une proportion p des individus prsente une certaine proprit.
Si k est le nombre dindividu prsentant la proprit dans un chantillon de taille n, alors la variable
alatoire K rsultant de diffrents chantillonnages suit une loi binomiale B(n,p) avec E(K) = np et
V(K) = npq.
On construit la variable alatoire :
avec
pour esprance :
et pour variance :
Par Jol M. ZINSALO
8=
1
1
k?8@ = E q r = k?@ = =
1
1

m?8@ = V q r = ( k?@ = ( =

Page 61
Biomtrie
La loi de probabilit dune frquence
, suit une loi normale 5 q, r vrai si np > 5 et nq > 5.

$
2. Estimateur
2.1. Dfinition
Soient X1 , X2 ,, Xi , , Xn , n ralisations indpendantes de la variable alatoire X (discrte ou
continue) et un paramtre associ la loi de probabilit suivi par X, un estimateur du paramtre
est une variable alatoire fonction des Xi : = f (X1 , X2 ,, Xi , , Xn).

Si on considre n observations x1 , x2 ,, xi , , xn, lestimateur fournira une estimation de
note galement :
= ?
1 ,
2 , ,
[ , ,
Lestimation dun paramtre inconnu, not est fonction des observations rsultant dun
chantillonnage alatoire simple de la population. Lestimateur est donc une nouvelle variable
alatoire construite partir des donnes exprimentales et dont la valeur se rapproche du paramtre
que lon cherche connatre.
Lestimation de est une variable alatoire dont la distribution de probabilit sappelle la
distribution dchantillonnage du paramtre .
Lestimateur admet donc une esprance E() et une variance V().
2.2. Proprits
2.2.1. Convergence
Lestimateur doit tendre vers la valeur relle du paramtre lorsque le nombre dindividus
tudi augmente. On dit que lestimateur est convergent.
Si > 0
P( > ) 0
lorsque n
Ceci quivaut dire quen limite lorsque n .
2.2.2. Biais dun estimateur

Le biais dun estimateur not B() est la diffrence moyenne entre sa valeur et celle du paramtre
quil estime. Le biais doit tre gal 0 pour avoir un bon estimateur.
B() = E(-) = E()-E() = E()- = 0
do E() = .
Ainsi lestimateur sera sans biais si son esprance est gale la valeur du paramtre de la
population.
Par Jol M. ZINSALO
Page 62
Biomtrie
E() =
Exemple :
Soit les densits de probabilit de 3 estimateurs dune esprance ,
1 et 2 sont des estimateurs sans biais de car E(1) = E(2) =

3 est un estimateur biais de car E(3) - = - 0
Dans lexemple ci-dessus, 1 et 2 sont des estimateurs sans biais de car B(1) = E(1-
) = E(1) - = 0 car E(1) = , de mme pour B(2) alors que 3 est un estimateur biais
de car B(3) = E(3 - ) = E(3) - = - 0 car E(3) =
Remarque : Un estimateur est asymptotiquement sans biais si E() lorsque n
2.2.3. Variance dun estimateur
Si deux estimateurs sont convergents et sans biais, le plus efficace est celui qui a la variance la
plus faible car ses valeurs sont en moyenne plus proches de la quantit estime.
V() = E( - E())2 minimale
Exemple
Dans lexemple prcdent, on voit que V(1) < V(2). On peut donc conclure que 1 est un
meilleur estimateur de que 2.
Par Jol M. ZINSALO
Page 63
Biomtrie
Remarque : Quand les estimateurs sont biaiss, en revanche, leur comparaison nest pas simple.
Ainsi un estimateur peu biais mais de variance trs faible, pourrait mme tre prfr un
estimateur sans biais mais de grande variance.
Thorme :
Si un estimateur est asymptotiquement sans biais et si sa variance tend vers 0 lorsque n , il est
convergent.
P( )
V ( )
avec >0
2
(Ingalit de Bienaym-Tchbycheff)
- | tend vers 0 quand n augmente, V(

) doit aussi tendre vers
Cette ingalit exprime que si |
0.
3. Estimation ponctuelle et par intervalle

Lestimation dun paramtre quelconque est ponctuelle si lon associe une seule valeur
lestimateur partir des donnes observables sur un chantillon alatoire. Lestimation par
intervalle associe un chantillon alatoire, un intervalle [ , ] qui recouvre avec une
1
certaine probabilit.
3.1. Estimation ponctuelle
Si la distribution de la variable alatoire X est connue, on utilise la mthode du maximum de
vraisemblance pour estimer les paramtres de la loi de probabilit. En revanche si la distribution
nest pas connue, on utilise la mthode des moindres carrs.
3.1.1. Esprance
Soit X une variable alatoire continue suivant une loi normale N(,) dont la valeur des
paramtres nest pas connue et pour laquelle on souhaite estimer lesprance .
Soient X1 , X2 ,, Xi , , Xn , n ralisations indpendantes de la variable alatoire X, un estimateur
du paramtre est une suite de variable alatoire fonctions des Xi :
= f (X1 , X2 ,, Xi , , Xn)
Par Jol M. ZINSALO
Page 64
Biomtrie
La mthode des moindres carrs consiste rechercher les coefficients de la combinaison linaire
= a1X1 + a2X2 ++ aiXi + + anXn
telle que E () = et V() soit minimale.
La moyenne arithmtique constitue le meilleur estimateur de , esprance de la loi de
probabilit de la variable alatoire X :
= X =
1 n
Xi
n i =1
3.1.2. Variance
Soit X une variable alatoire continue suivant une loi normale N (,) pour laquelle on souhaite
estimer la variance 2.
Soient X1 , X2 ,, Xi , , Xn , n ralisations indpendantes de la variable alatoire X, un estimateur
du paramtre 2 est une suite de variable alatoire fonctions des Xi :
= f (X1 , X2 ,, Xi , , Xn)
Cas o lesprance est connue
La mthode des moindres carrs consiste rechercher les coefficients de la combinaison linaire
= a1(X1 - )2 + a2(X2 - )2 ++ ai(Xi- )2 ++ an ( Xn- )2
telle que E () = 2 et V() soit minimale.
La variance observe constitue le meilleur estimateur de 2, variance de la loi de probabilit de

la variable alatoire X lorsque lesprance est connue :
2 =
1 n
( X i ) 2
n i =1
Remarque : Cette estimation de la variance de la population est rarement utilise dans la mesure
o si la variance 2 nest pas connue, lesprance ne lest pas non plus.
Cas o lesprance est inconnue
Dans ce cas, nous allons estimer avec = X et dans ce cas
(X
i =1
Par Jol M. ZINSALO
) ( X i X) 2
2
i =1
Page 65
Biomtrie
On montre que s2 et 2 sont lis par la relation :
s2 =
n1 2
Le meilleur estimateur de 2, variance de la loi de probabilit de la variable alatoire X
lorsque
lesprance est inconnue est :
2 =
n 2
1 n
s =
( X i X) 2
n1
n 1 i =1
Remarque : Lorsque n augmente, la variance observe s2 tend vers la variance de la population 2.
lim s 2 = lim
n +
n +
n1 2
= 2
n
3.1.3. Frquence
Soit le schma de Bernoulli dans lequel le caractre A correspond au succs. On note p la frquence
des individus de la population possdant le caractre A. La valeur de ce paramtre tant inconnu,
on cherche estimer la frquence p partir des donnes observables sur un chantillon.
A chaque chantillon non exhaustif de taille n, on associe lentier k, nombre dindividus possdant
le caractre A.
Soit K une variable alatoire discrte suivant une loi binomiale B(n,p) et pour laquelle on souhaite
estimer la frquence p.
La frquence observe du nombre de succs observ dans un chantillon de taille n constitue le
meilleur estimateur de p :
p =
K
n
Remarque : Nous avions dj avanc cette proprit lors de ltablissement de la loi des grands
nombres.
Exemple :
On a prlev au hasard, dans une population de lapin, 100 individus. Sur ces 100 lapins, 20 sont
atteints par la myxomatose. Le pourcentage de lapins atteints par la myxomatose dans la population
est donc :
p =
K
20
= 0,2 soit 20% de lapins atteints dans la population.
=
n 100
Ce rsultat naura de signification que sil est associ un intervalle de confiance.
Par Jol M. ZINSALO
Page 66
Biomtrie
3.2. Estimation par intervalle
3.2.1. Dfinition
Lestimation par intervalle associe un chantillon alatoire, un intervalle [ 1 , 2 ] qui recouvre
avec une certaine probabilit.
Cet intervalle est appel lintervalle de confiance du paramtre car la probabilit que dont
la valeur est inconnue se trouve compris entre et est gale 1-, le coefficient de
1
confiance
p( 1 < < 2 ) = 1
Son complment correspond au coefficient de risque.

p ( [ , ] ) =
1
Un intervalle de confiance indique la prcision dune estimation car pour un risque donn,
lintervalle est dautant plus grand que la prcision est faible comme lindiquent les graphes cidessous. Pour chaque graphe, laire hachure en vert correspond au coefficient de risque .
Ainsi de part et dautre de la distribution, la valeur de
.
laire hachure vaut
2
= 0,01
99 chances sur 100 que la valeur du paramtre
recherch se trouve dans lintervalle de confiance mais
la prcision autour de la valeur prdite est faible.
= 0,05
recherch se trouve dans lintervalle de
confiance et la prcision autour de la valeur
prdite est correcte.
= 0,10
recherch se trouve dans lintervalle de confiance mais
la prcision autour de la valeur prdite est leve.
Par Jol M. ZINSALO
Page 67
Biomtrie
une valeur du coefficient de confiance 1 - donne par lexprimentateur.
3.2.2. Intervalle de confiance de la moyenne

Lintervalle de confiance de la moyenne pour un coefficient de risque est donc
< < X +
quelque soit la valeur de n si X N( , ) et la variance 2 est connue.

Exemple :
Pour des masses comprises entre 50g et 200g, une balance donne une pese avec une variance de
0,0015. Les rsultats des trois peses dun mme corps sont : 64,32 ; 64,27 ; 64 ,39.
On veut connatre le poids moyen de ce corps dans la population avec un coefficient de confiance
de 99%.
avec X = 64,33g = 64,33g et = 2,576 alors
= 2,576
0,039
= 0,058
1,732
et donc
= X
= 64,33 0,058
do le poids moyen de ce corps est compris dans lintervalle [64,27 ; 64,39] avec une probabilit
de 0,99.
Remarque : La valeur de est donne par la table de lcart-rduit pour une valeur
donne.
Coefficient de risque
Ecart-rduit
= 0,01
= 2,576
= 0,05
= 0,10
= 1,960
= 1,645
Quelle que soit la valeur de n, si X N( , ) et 2 est inconnue,

Par Jol M. ZINSALO
Page 68
Biomtrie
Le raisonnement reste le mme mais la variance de la population 2 doit tre estime par :
2 =
n 2
s
n1
(voir estimation ponctuelle)
Si p( X i < < X + i ) = 1 alors p( i < X < + i ) = 1

Connaissant la loi suivie par la v. a. X et celle suivie par la variable centre rduite, on peut tablir
que
p(
i
/ n
par consquent
<
X
+i
X
) = 1 sachant que
T(n 1 d.d.l.)
<
/ n / n
/ n
i
/ n
correspond la valeur de la variable de student pour une valeur de
probabilit donne note t pour n -1 degrs de libert.

Ainsi
i
/ n
= t implique i = t
Lintervalle de confiance de lesprance pour un coefficient de risque est donc
X t
< < X + t
Quelle que soit la valeur de n si X N( , ) et 2 est inconnue
Remarque : Lorsque n > 30, la loi de student converge vers une loi normale rduite. Ainsi la
valeur de t (n-1) est gale . Ci-dessous, un exemple pour un risque = 0,05.
Taille de lchantillon
n=10
n=20
n=30
n=40
Par Jol M. ZINSALO
Ecart-rduit
Variable de student
=1,960
t=2,228
=1,960
t=2,086
=1,960
t=2,042
=1,960
t=1,960
Page 69
Biomtrie
Exemples :
(1) Dans un chantillon de 20 tudiants de mme classe dge et de mme sexe, la taille moyenne
observe est de 1,73m et lcart-type de 10 cm. La taille moyenne de lensemble des tudiants de
luniversit est donc :
avec ; x = 1,73m ; 2 =
Do t
n 2 20
s =
0,01 = 0,011 et t = 2,086
n1
19
0,011
= 1,73m 0,049
= 1,960
= 0,049 ; ainsi = X
20
n
n
La taille moyenne des tudiants dans la population est comprise dans lintervalle [1,68 ; 1,78]
avec une probabilit de 0,95.
(2) Dans un chantillon de 100 tudiants, la taille moyenne de la population est :
x = 1,73m ; 2 =
Do
n 2 100
s =
0,01 = 0,01 et = 1,960
n1
99
0,010
= 1,960
= 0,02 ; ainsi = X
= 1,73m 0,02
100
n
n
La taille moyenne des tudiants dans la population est comprise dans lintervalle [1,71 ; 1,75] avec
une probabilit de 0,95.
Ainsi lorsque la taille de lchantillon augmente pour un mme coefficient de confiance (1)
lestimation autour de est plus prcise.
Si n > 30 et X suit une loi inconnue,
La dmarche est la mme que pour le cas prcdent puisque par dfinition la variance de la
population est inconnue et doit tre estime avec la variance observe :
2 =
n 2
s
n1
Comme pour le cas 1, la loi suivie par la variable centre rduite
X
N(0,1)
/ n
Lintervalle de confiance de lesprance pour un coefficient de risque est donc :
Par Jol M. ZINSALO
< < X +
Page 70
Biomtrie
vraie seulement si n est grand.
Si n < 30 et X suit une loi inconnue,
La loi de probabilit suivie par
X
nest pas connue et lon a recours aux statistiques non
/ n
paramtriques.
3.2.3. Intervalle de confiance dune proportion
Etablir lintervalle de confiance autour de la frquence p de la population partir de son estimateur
K
revient tablir la valeur de i pour une valeur du coefficient de confiance (1 - ) donne par
n
lexprimentateur telle que :
P(
K
K
K
i<p<
+ i ) = 1 ou P(p i <
< p + i) = 1
n
n
n
Connaissant la loi suivie par la v. a.
K
et daprs le thorme central limite, on peut tablir que
n
K
p
+i
P(
<
) = 1 sachant que
< n
pq
pq
pq
n
n
n
i
par consquent
pq
n
K
p
n
N(0,1)
pq
n
correspond la valeur de la variable normale rduite pour probabilit
donne note ou cart rduit.
Ainsi
i
pq
n
Par dfinition, v(
= implique i =
pq
n
K
pq
pq
K
nK
nest pas connue et on lestime par
avec p =
et q =
)=
n
n
n
n
n
Lintervalle de confiance de la frquence p pour un coefficient de risque est donc
K
pq
K
pq

vraie seulement si n est grand et np, nq > 5
< p < +
n
n
n
n
Remarque : Si la taille de lchantillon est faible, on a recours aux lois exactes.
Par Jol M. ZINSALO
Page 71
Biomtrie
Exemple : Un laboratoire dagronomie a effectu une tude sur le maintien du pouvoir germinatif
des graines de Papivorus subquaticus aprs une conservation de 3 ans.
Sur un lot de 80 graines, 47 ont germ. Ainsi la probabilit de germination des graines de Papivorus
subquaticus aprs trois ans de conservation avec un coefficient de confiance de 95% est donc :
avec p =
alors
K
47
=
= 0,588
n
80
q =
n K
33
=
0,412
n
80
et
= 1,96 ;
pq
0,588 0,412
= 1,96
= 0,108 d' o p = 0,588 0,108
n
80
ainsi la probabilit de germination est comprise dans lintervalle [0,480 ; 0,696] avec une
probabilit de 0,95.
Par Jol M. ZINSALO
Page 72
Biomtrie
Chapitre 6
TESTS DHYPOTHESE
Un test dhypothse est un procd dinfrence permettant de contrler (accepter ou rejeter)

partir de l'tude d'un ou plusieurs chantillons alatoires, la validit dhypothses relatives une ou
plusieurs populations. Les mthodes de linfrence statistique nous permettent de dterminer,
avec une probabilit donne, si les diffrences constates au niveau des chantillons peuvent tre
imputables au hasard ou si elles sont suffisamment importantes pour signifier que les chantillons
proviennent de populations vraisemblablement diffrentes.
Les tests dhypothses font appel un certain nombre dhypothses concernant la nature de la
population dont provient lchantillon tudi (normalit de la variable, galit des variances, etc).
En fonction de lhypothse teste, plusieurs types de tests peuvent tre raliss :
Les tests destins vrifier si un chantillon peut tre considr comme extrait dune
population donne, vis--vis d'un paramtre comme la moyenne ou la frquence observe
(tests de conformit) ou par rapport sa distribution observe (tests dajustement). Dans
ce cas la loi thorique du paramtre est connue au niveau de la population. Est-ce que le
taux de glucose moyen mesur dans un chantillon dindividus traits est conforme au taux
de glucose moyen connu dans la population ? (test de conformit) Est-ce que la distribution
des frquences gnotypiques observes pour un locus donn est conforme celle attendue
sous l'hypothse du modle de Hardy-Weinberg ? (test dajustement).
Les tests destins comparer plusieurs populations laide dun nombre quivalent
dchantillons (tests dgalit ou dhomognit) sont les plus couramment utiliss. Dans
ce cas la loi thorique du paramtre est inconnue au niveau des populations. On peut
ajouter cette catgorie le test dindpendance qui cherche tester lindpendance entre
deux caractres, gnralement qualitatifs. Y a-t-il une diffrence entre le taux de glucose
moyen mesur pour deux chantillons dindividus ayant reu des traitements diffrents ?
(tests dgalit ou dhomognit). Est-ce que la distribution des frquences gnotypiques
observes pour un locus donn est indpendante du sexe des individus ? (test
dindpendance).
Par Jol M. ZINSALO
Page 73
Biomtrie
1. Principe des tests
Le principe des tests dhypothse est de poser une hypothse de travail et de prdire les
consquences de cette hypothse pour la population ou lchantillon. On compare ces prdictions
avec les observations et lon conclut en acceptant ou en rejetant lhypothse de travail partir de
rgles de dcisions objectives.
Dfinir les hypothses de travail, constitue un lment essentiel des tests d'hypothses de mme que
vrifier les conditions d'application de ces dernires (normalit de la variable, galit des variances
ou homoscdasticit, etc).
Diffrentes tapes doivent tre suivies pour tester une hypothse :
(1) dfinir lhypothse nulle (note H0) contrler,
(2) choisir un test statistique ou une statistique pour contrler H0,
(3) dfinir la distribution de la statistique sous lhypothse H0 est ralise ,
(4) dfinir le niveau de signification du test ou rgion critique note ,
(5) calculer, partir des donnes fournies par lchantillon, la valeur de la statistique
(6) prendre une dcision concernant lhypothse pose et faire une interprtation
1.1.
Choix de lhypothse tester
1.1.1. Hypothse nulle et hypothse alternative

Lhypothse nulle note H0 est lhypothse que lon dsire contrler : elle consiste dire quil
nexiste pas de diffrence entre les paramtres compars ou que la diffrence observe nest pas
significative et est due aux fluctuations dchantillonnage.
Cette hypothse est formule dans le but dtre rejete.
Lhypothse alternative note H1 est la ngation de H0, elle est quivalente dire H0 est fausse
. La dcision de rejeter H0 signifie que H1 est ralise ou H1 est vraie.
Remarque : Il existe une dissymtrie importante dans les conclusions des tests. En effet, la
dcision daccepter H0 nest pas quivalente H0 est vraie et H1 est fausse . Cela traduit
seulement lopinion selon laquelle, il ny a pas dvidence nette pour que H0 soit fausse.
Un test conduit rejeter ou ne pas rejeter une hypothse nulle jamais laccepter demble.
Par Jol M. ZINSALO
Page 74
Biomtrie
1.1.2. Test unilatral ou bilatral
La nature de H0 dtermine la faon de formuler H1 et par consquence la nature unilatrale ou
bilatrale du test.
Test bilatral
Si H0 consiste dire que la population estudiantine avec une frquence de fumeurs p est
reprsentative de la population avec une frquence de fumeurs p0 , on pose alors :
H0 : p = p0 et H1 : p p0
H0 : p = p0 et H1 : p p0
Le test sera bilatral car on considre que la frquence p peut tre suprieure ou infrieure la
frquence p0 .
La rgion critique colorie correspond une probabilit
de part et dautre de la courbe.

2
Test unilatral
Si lon fait lhypothse que la frquence de fumeurs dans la population estudiantine p est suprieure
la frquence de fumeurs dans la population p0, on pose alors
H0 : p = p0 et H1 : p > p0
H0 : p = p0 et H1 : p > p0
Le test sera unilatral car on considre que la frquence p ne peut tre que suprieure la
frquence p0 .
La rgion critique colorie correspond une probabilit .
Le raisonnement inverse peut tre formul avec lhypothse suivante :
H0 : p = p0 et H1 : p < p0
Remarque : Seuls les tests bilatraux seront dvelopps dans le cours. Les tests unilatraux seront
traits au niveau des exemples.
Par Jol M. ZINSALO
Page 75
Biomtrie
1.2.
Choix dun test statistique
Ce choix dpend de la nature des donnes, du type dhypothse que lon dsire contrler, des
affirmations que lon peut admettre concernant la nature des populations tudies (normalit, galit
des variances) et dautres critres que nous prciserons.
Un test statistique ou une statistique est une fonction des variables alatoires reprsentant
lchantillon dont la valeur numrique obtenue pour lchantillon considr permet de distinguer
entre H0 vraie et H0 fausse.
Dans la mesure o la loi de probabilit suivie par le paramtre p0 au niveau de la population
en gnral est connue, on peut ainsi tablir la loi de probabilit de la statistique S telle que :
S = p p0
1.3.
(voir intervalle de confiance dune frquence)
Choix de la rgion critique et rgle de dcision
Connaissant la loi de probabilit suivie par la statistique S sous lhypothse H0 , il est possible
dtablir une valeur seuil, Sseuil de la statistique pour une probabilit donne appele le niveau de
signification du test : .
La rgion critique correspond lensemble des valeurs telles que : S > Sseuil
et le niveau de signification est telle que :

P(S > Sseuil) = avec P(S Sseuil) = 1
Selon la nature unilatrale ou bilatrale du test, la dfinition de la rgion critique varie.
Test unilatral
H0 : p=p0
Test bilatral
H0 :p=p0
Hypothse
Alternative
H1 : p > p0
H1 : p < p0
Valeur de S sous H1
S = p p0
S>0
S<0
s 0
P(S < Sseuil) =
p( s > S seuil ) =
Niveau de
signification
Par Jol M. ZINSALO
P(S > Sseuil) =
H1 : p p0
Page 76
Biomtrie
Il existe deux stratgies pour prendre une dcision en ce qui concerne un test dhypothse :
La premire stratgie fixe a priori la valeur du seuil de signification et la seconde tablit la
valeur de la probabilit critique obs a posteriori.
Rgles de dcision 1 :
Sous lhypothse H0 est vraie et pour un seuil de signification fix
si la valeur de la statistique S calcule (Sobs.) est suprieure la valeur seuil Sseuil

Sobs > Sseuil alors lhypothse H0 est rejete au risque derreur et lhypothse H1 est
accepte.
si la valeur de la statistique S calcule (Sobs.) est infrieure la valeur seuil Sseuil

Sobs Sseuil alors lhypothse H0 ne peut tre rejete.
Remarque : Le choix du risque est li aux consquences pratiques de la dcision : si les
consquences sont graves, on choisira = 1% ou 1, mais si le dbat est plutt acadmique, le
traditionnel = 5 % fera le plus souvent laffaire.
Rgles de dcision 2 :
La probabilit critique telle que P(S Sobs.) = obs est value
si obs 0,05 lhypothse H0 est accepte car le risque derreur de rejeter H0 alors quelle
est vrai est trop important.
si obs < 0,05 lhypothse H0 est rejete car le risque derreur de rejeter H0 alors quelle est
vrai est trs faible.
1.4.
Risques derreur, puissance et robustesse dun test

1.4.1.
Risque derreur de premire espce
Le risque derreur est la probabilit que la valeur exprimentale ou calcule de la statistique S

appartienne la rgion critique si H0 est vrai. Dans ce cas H0 est rejete et H1 est considre
comme vraie.
Le risque de premire espce est celui de rejeter H0 alors qu'elle est vraie
= P( rejeter H0 / H0 vraie)
Par Jol M. ZINSALO
Page 77
Biomtrie
ou accepter H1 alors quelle est fausse
= P( accepter H1 / H1 fausse)
La valeur du risque doit tre fixe a priori par lexprimentateur et jamais en fonction des
donnes. Cest un compromis entre le risque de conclure tort et la facult de conclure.
Remarque : Toutes choses tant gales par ailleurs, la rgion critique diminue lorsque
dcrot (voir intervalle de confiance) et donc on rejette moins frquemment H0. A vouloir
commettre moins derreurs, on conclut plus rarement.
Exemple :
Si lon cherche tester lhypothse quune pice de monnaie nest pas truque , nous allons
adopter la rgle de dcision suivante : (mettre image dune pice)
H0 : la pice nest pas truque est
accepte si X [40,60]
rejete si X [40,60] donc soit X < 40 ou X > 60
avec X nombre de faces obtenus en lanant 100 fois la pice.
Quel est le risque derreur de premire espce dans ce cas ?
1.4.2.
Risque derreur de deuxime espce
Le risque derreur est la probabilit que la valeur exprimentale ou calcule de la statistique

nappartienne pas la rgion critique si H1 est vrai. Dans ce cas H0 est accepte et H1 est
considre comme fausse.
Le risque de deuxime espce est celui daccepter H0 alors qu'elle est fausse
= P( accepter H0 / H0 fausse) ou P( accepter H0 / H1 vraie)
ou rejeter H1 alors quelle est vraie
= P( rejeter H1 / H1 vraie)
Remarque : Pour quantifier le risque , il faut connatre la loi de probabilit de la statistique S
sous lhypothse H1.
Exemple :
Si lon reprend lexemple prcdent de la pice de monnaie, la probabilit p dobtenir face est de
0,6 pour une pice truque. Si lon adopte toujours la mme rgle de dcision :
Par Jol M. ZINSALO
Page 78
Biomtrie
H0 : la pice nest pas truque est
accepte si X [40,60]
rejete si X [40,60] donc soit X < 40 ou X > 60
avec X nombre de faces obtenues en lanant 100 fois la pice.
Quel est le risque derreur de second espce dans ce cas ?
1.4.3. La puissance et la robustesse dun test (1 - )
Les tests ne sont pas faits pour dmontrer H0 mais pour rejeter H0 . Laptitude dun test
rejeter H0 alors quelle est fausse constitue la puissance du test.
La puissance dun test est : 1 - = P( rejeter H0 / H0 fausse) = P(accepter H1/H1 vraie).
La relation entre les deux risques derreur figure sur le graphe ci-dessous.
La puissance dun test est fonction de la nature de H1, un test unilatral est plus puissant qu'un
test bilatral.
La puissance dun test augmente avec taille de l'chantillon N tudi valeur de constant.
La puissance dun test diminue lorsque diminue.
Exemple :
Si lon reprend lexemple prcdent de la pice de monnaie, calculez la puissance du test lorsque la
probabilit dobtenir face est respectivement 0,3 - 0,4 - 0,6 - 0,7 -0,8 pour une pice truque. Que
constatez-vous ?
Les diffrentes situations que lon peut rencontrer dans le cadre des tests dhypothse sont rsumes
dans le tableau suivant :
Par Jol M. ZINSALO
Page 79
Biomtrie
Ralit
H0 vraie
H0 fausse
Dcision
Manque de puissance
Non rejet de H0
correct
Rejet de H0
Risque de seconde espce

Puissance du test
Rejet tort
Risque de premire espce
1-
La robustesse dune technique statistique reprsente sa sensibilit des carts aux hypothses
faites.
Exemple : Toute chose tant gale par ailleurs, que se passe-t-il si lhypothse de normalit nest
pas satisfaite ?
1.5.
Tests de conformit
Les tests de conformit sont destins vrifier si un chantillon peut tre considr comme
extrait dune population donne ou reprsentatif de cette population, vis--vis d'un paramtre
comme la moyenne, la variance ou la frquence observe. Ceci implique que la loi thorique du
paramtre est connue au niveau de la population.
1.5.1. Comparaison dune moyenne observe et dune moyenne thorique
1.5.1.1.
Principe du test
Soit X, une variable alatoire observe sur une population, suivant une loi normale et un
chantillon extrait de cette population.
Population connue
X N ( 0,
0)
Population inconnue
X N ( ,
)
Echantillonnage alatoire simple

Echantillon
Hypothses
H0 : =0 H1 : #0
Par Jol M. ZINSALO
Page 80
Biomtrie
Le but est de savoir si un chantillon de moyenne x , estimateur de , appartient une
population de rfrence connue desprance 0 (H0 vraie) et ne diffre de 0 que par des
fluctuations dchantillonnage ou bien appartient une autre population inconnue desprance
(H1 vraie).
Pour tester cette hypothse, il existe deux statistiques : la variance 02 de la population de rfrence
est connue (test ) ou cette variance est inconnue et il faut lestimer (test T).
1.5.1.2.
Variance de la population connue
1.5.1.2.1. Statistique du test

Soit X la distribution dchantillonnage de la moyenne dans la population inconnue suit une loi
2
).
n
normale telle que : X N ( ,
La statistique tudie est lcart : S = X - 0 dont la distribution de probabilit est la suivante

2
2
) avec sous H0, E(S) = 0 et V(S) =
n
n
S N ( ,
Nous pouvons tablir grce au thorme central limite la variable Z centre rduite telle que
Z=
S E(S )
V (S )
X 0
2
n
Sous H0 : = 0 avec 2 connue

Z=
X 0
2
n
suit une loi normale centre rduite N(0,1)
1.5.1.2.2. Application et Dcision

Lhypothse teste est la suivante :
H0 : = 0 contre H1 : 0
Une valeur z de la variable alatoire Z est calcule :
z=
x 0
2
n
note aussi obs
calcule (obs) est compare avec la valeur seuil lue sur la table
Par Jol M. ZINSALO
Page 81
Biomtrie
de la loi normale centre rduite pour un risque derreur fix (Rgle de dcision 1).
si obs > seuil lhypothse H0 est rejete au risque derreur : lchantillon appartient une
population desprance et nest pas reprsentatif de la population de rfrence desprance
0.
si obs seuil lhypothse H0 est accepte: lchantillon est reprsentatif de la population de
rfrence desprance 0.
1.5.2.
1.5.2.1.
Variance de la population inconnue
Statistique du test
La dmarche est la mme que pour le test mais la variance de la population ntant pas
connue, elle est estime par :
2 =
n 2
s (estimation ponctuelle).
n1
La statistique tudie est lcart : S = X - 0 dont la distribution de probabilit est la suivante

2
2
S N ( 0,
) avec E(S) = 0 et V(S) =
n
n
Nous pouvons tablir grce au thorme central limite la variable T centre rduite telle que
T=
S E(S )
V (S )
X 0
2
n
Sous H0 : = 0 avec 2 inconnue

T=
1.5.2.2.
X 0
2
n
suit une une loi de Student n-1 degrs de libert.
Application et Dcision

H0 : = 0 contre H1 : 0
Une valeur t de la variable alatoire T est calcule :
t=
Par Jol M. ZINSALO
x 0
2
n
x 0
s2
n1
Page 82
Biomtrie
t calcule (tobs) est compare avec la valeur tseuil lue dans la table de Student pour un risque
derreur fix et (n - 1) degrs de libert.
si tobs > tseuil lhypothse H0 est rejete au risque derreur : lchantillon
appartient une population desprance et nest pas reprsentatif de la population de rfrence
desprance 0 .
si tobs tseuil lhypothse H0 est accepte: lchantillon est reprsentatif de la population de
rfrence desprance 0.
Remarque : Si n < 30, la variable alatoire X tudie doit imprativement suivre une loi
normale N(,). Pour n 30, la variable de student t converge vers une loi normale centre
rduite .
Exemple : Pour tudier un lot de fabrication de comprims, on prlve au hasard 10 comprims
parmis les 30 000 produits et on les pse. On observe les valeurs de poids en grammes :
0,81 0,84 0,83 0,80 0,85 0,86 0,85 0,83 0,84 0,80
Le poids moyen observ est-il compatible avec la valeur 0,83g, moyenne de la production au seuil
98% ?.
1.5.3. Comparaison dune frquence observe et dune frquence thorique
1.5.3.1.
Principe du test
Soit X une variable qualitative prenant deux modalits (succs X=1, chec X=0) observe sur une
population et un chantillon extrait de cette population.
Population inconnue
X B (n, p)
Population connue
X B (n, p0)
Echantillon
Hypothses
H0 : p = p0 H1 : p p0
Par Jol M. ZINSALO
Page 83
Biomtrie
K
, estimateur de p, appartient une
n
population de rfrence connue de frquence p0 (H0 vraie) ou une autre population inconnue
de frquence p (H1 vraie).
Le but est de savoir si un chantillon de frquence observe
1.5.3.2.
Statistique du test
La distribution dchantillonnage de la frquence de succs dans la population inconnue,
K
n
p q
K
suit N(p, 0 0 ) , les variances tant supposes gales dans la
n
n
population de rfrence et la population do est extrait lchantillon.
suit une loi normale telle que :
La statistique tudie est lcart : S =
S N(0,
K
p 0 dont la distribution de probabilit est la suivante :
n
p0 q0
p q
) avec sous H0 E(S) = 0 et V(S) = 0 0
n
n
Nous pouvons tablir grce au thorme central limite la variable Z centre rduite telle que
Z=
K
p0
mais seulement si np0 et nq0 10
= n
V (S )
p0 q0
n
S E(S )
Sous H0 : p = p0
K
p0
n
Z=
p 0 q0
n
1.5.3.3.
Application et dcision
Lhypothse teste est la suivante : H0 : p = p0 contre H1 : p p0

K
p0
n
Z=
p0 q0
n
note aussi obs
calcule (obs) est compare avec la valeur seuil lue sur la table de la loi normale centre
rduite pour un risque derreur fix (Rgles de dcision 1).
Par Jol M. ZINSALO
Page 84
Biomtrie
si obs > seuil lhypothse H0 est rejete au risque derreur : lchantillon appartient
une population de frquence p et nest pas reprsentatif de la population de rfrence de
frquence p0 .
si obs seuil lhypothse H0 est accepte: lchantillon est reprsentatif de la population

de rfrence de frquence p0.
Exemple :
Une anomalie gntique touche en France 1/1000 des individus. On a constat dans une rgion donne : 57
personnes atteintes sur 50 000 naissances.
Cette rgion est-elle reprsentative de la France entire ?
1.6.
Tests dhomognit
Les tests dhomognit destins comparer deux populations laide dun nombre quivalent
dchantillons (tests dgalit ou dhomognit) sont les plus couramment utiliss. Dans ce cas la
loi thorique du paramtre tudi (par exemple p, , 2 ) est inconnue au niveau des
populations tudies.
1.6.1.
1.6.1.1.
Comparaison de deux variances
Principe du test
Soit X, une variable alatoire observe sur 2 populations suivant une loi normale et deux
chantillons indpendants extraits de ces deux populations.
Population 1
X1 N ( 1 ,
1)
Population 2
X2 N ( 2,
2)
Echantillon 2
Echantillon 1
Hypothses
H0 : 1 =22 H1 : 12 22
2
Par Jol M. ZINSALO
Page 85
Biomtrie
On fait lhypothse que les deux chantillons proviennent de 2 populations dont les variances sont
gales. Le test de comparaison de variance est ncessaire lors de la comparaison de deux
moyennes lorsque les variances des populations 12 et 22 ne sont pas connues. Cest galement la
statistique associe lanalyse de variance.
1.6.1.2.
Statistique du test
La statistique associe au test de comparaison de deux variances correspond au rapport des deux
variances estimes.
Sous H0 : 12 = 22
Fobs
n1 2
s1
n1 1
=
=
n2 2
s2
n2 1
2
1
2
2
avec 12 > 22
suit une loi de Fisher-Snedecor (n1-1, n2 -1) degrs de libert
car le rapport des variances doit tre suprieur 1.
Remarque : Il existe dautres statistiques que celle de Fisher Sndecor pour comparer deux
variances, notamment le test de Hartley qui impose lgalit de la taille des chantillons compars
n1= n2 mais que nous ne dvelopperons pas dans ce cours.
1.6.1.3.
La valeur de la statistique F calcule (Fobs) est compare avec la valeur Fseuil lue dans la table de
la loi de Fisher-Snedecor pour un risque derreur fix et (n1-1, n2 -1) degrs de libert.
si Fobs Fseuil lhypothse H0 est rejete au risque derreur : les deux chantillons sont
extraits de deux populations ayant des variances statistiquement diffrentes 12 et 22 .
si Fobs Fseuil lhypothse H0 est accepte: les deux chantillons sont extraits de deux
populations ayant mme variance 2 .
Remarque : Pour lapplication de ce test, il est impratif que X N(,) et que les deux
chantillons soient indpendants.
Par Jol M. ZINSALO
Page 86
Biomtrie
Exemple :
Un biologiste effectue des dosages par une mthode de
mesure de radioactivit et ne dispose donc que dun
nombre trs limit de valeurs.
Les concentrations C1 et C2 mesures sur deux
prlvements ont donn les valeurs suivantes :
C1 : 3,9 3,8 4,1 3,6 C2 : 3,9 2,8 3,1 3,7 4,1
La variabilit des valeurs obtenues pour les deux

prlvements est-elle similaire ?
1.6.2.
1.6.2.1.
Comparaison de deux moyennes
Principe du test
Soit X un caractre quantitatif continu observ sur 2 populations suivant une loi normale et deux
chantillons indpendants extraits de ces deux populations.
Population 1
X1 N ( 1 ,
1)
Population 2
X2 N ( 2,
2)
Echantillon 1
Echantillon 2
Hypothses
H0 : 1 = 2 H1 : 1
Par Jol M. ZINSALO
Page 87
Biomtrie
On fait lhypothse que les deux chantillons proviennent de 2 populations dont les esprances
sont gales.
Il existe plusieurs statistiques associes la comparaison de deux moyennes en fonction de la nature
des donnes.
1.6.2.2. Les variances des populations sont connues

Soit X1 la distribution dchantillonnage de la moyenne dans la population 1 suit une loi
12
22
normale telle que X1 N( 1 , ) et de mme pour X 2 N( 2 , )
n1
n2
X1 et X 2
tant deux variables alatoires indpendantes, nous pouvons tablir la loi de
probabilit de la variable alatoire tudier X1 - X 2

E( X1 - X 2 ) = E( X1 ) E( X 2 ) = 1 - 2
(Proprit de l esprance)
12 22
V( X1 - X 2 ) = V( X1 ) + V( X 2 ) =
+
n1 n 2
(Proprit de la variance)
Sachant que X1 - X 2
suit une loi normale N(

1 - 2 ,
12 22
+
) , nous pouvons tablir
n1 n 2
grce au thorme central limite la variable Z centre rduite telle que

Z=
( X 1 X 2 ) E( X 1 X 2 )
V ( X1 X 2 )
( X1 X 2 ) ( 1 2 )
12 22
+
n1 n 2
Sous H0 : 1 = 2 avec 12 et 22 connues
Z=
( X1 X 2 )
12 22
+
n1 n 2
.
1.6.2.2.2. Application et dcision
Par Jol M. ZINSALO
Page 88
Biomtrie
rduite pour un risque derreur fix.
si obs seuil lhypothse H0 est rejete au risque derreur : les deux chantillons sont
extraits de deux populations ayant des esprances respectivement 1 et 2.
si obs seuil lhypothse H0 est accepte: les deux chantillons sont extraits de deux
populations ayant mme esprance .
Remarque : Pour lapplication de ce test, il est impratif que X N(,) pour les chantillons de
taille < 30 et que les deux chantillons soient indpendants.
Exemple :
On a effectu une tude, en milieu urbain et en milieu rural, sur le rythme cardiaque humain :
Peut-on affirmer quil existe une diffrence significative entre les rythmes cardiaques moyens
des deux populations ?
1.6.2.3. Les variances des populations sont inconnues et gales

Les variances des populations ntant pas connues, on fait lhypothse que les deux populations
prsentent la mme variance.
Par Jol M. ZINSALO
Page 89
Biomtrie
H 0 : 12 = 22 = 2
(voir test de comparaison des variances)
Lgalit des variances des deux populations ou homoscdasticit permet alors dtablir la loi de
probabilit de X1 - X 2 avec
X1 N ( 1 ,
2
2
) et X 2 N( 2 , )
n1
n2
1
1
Sachant que X1 - X 2 suit une loi normale N ( 1 2 , 2 + )
n1 n 2
grce au thorme central limite la variable T telle que
T=
( X1 X 2 ) E( X1 X 2 )
V ( X1 X 2 )
nous pouvons tablir
( X 1 X 2 ) ( 1 2 )
1
1
2 +
n1 n 2
Sous H0 : 1 = 2 avec 12 = 22 =
T=
( X1 X 2 )
1
1
2 +
n1 n 2
suit une loi de Student (n1+n2 2) degrs de libert.
1.6.2.3.2. Application et dcision

H0 : 1 = 2 contre H1 : 1 2
Les variances des populations ntant pas connues, lgalit des variances doit tre vrifie
H0 : 12 = 22 = 2 contre H1 : 12 22
test de Fisher-Snedecor.
Une valeur t de la variable alatoire T est calcule :

Par Jol M. ZINSALO
Page 90
Biomtrie
t=
x1 x 2
1
1
2 +
n1 n 2
avec 2 =
n1s12 + n 2s 22
estimation de la variance 2 commune
n1 + n 2
t calcule (tobs) est compare avec la valeur tseuil lue dans la table de Student pour un risque
derreur fix et (n1 + n2 2) degrs de libert.
si tobs > tseuil lhypothse H0 est rejete au risque derreur : les deux chantillons sont
si tobs tseuil lhypothse H0 est accepte: les deux chantillons sont extraits de deux
Remarque : Pour lapplication de ce test, il est impratif que X N(,) pour les chantillons
de taille < 30, que les deux chantillons soient indpendants et que les deux variances estimes
soient gales.
Exemple :
Dans le but dtudier linfluence du type datmosphre dlevage sur la dure de dveloppement
des drosophiles femelles, ces dernires ont t leves 14C sous atmosphre normale (N) ou
enrichie en C02 (C02). Les rsultats suivants ont t obtenus :
864, 768, 912, 804, 924, 984, 888, 816, 840, 936, 792, 876
CO2
840, 948, 936, 1032, 912, 948, 1020, 936, 1056, 876, 1032, 918
Que peut-on conclure ?

1.6.2.4. Les variances des populations sont inconnues et ingales
Si les variances des populations ne sont pas connues et si leurs estimations partir des chantillons
sont significativement diffrentes ( test de comparaison des variances), il faut considrer deux
cas de figure selon la taille des chantillons compars :
les grands chantillons avec n1 et n2 suprieurs 30.

les petits chantillons avec n1 et/ou n2 infrieurs 30.
Par Jol M. ZINSALO
Page 91
Biomtrie
Cas o n1 et n2 > 30
La statistique utilise est la mme que pour le cas o les variances sont connues.
Sous H0 : 1 = 2
Z=
( X1 X 2 )
12 22
+
n1 n 2
Comme les variances sont inconnues et significativement diffrentes 2 12 22 , on remplace

les variances des populations par leurs estimations ponctuelles calcules partir des chantillons,
12 =
n1 2
s1 et
n1 1
22 =
n2 2
s2
n2 1

H0 : 1 = 2 contre H1 : 1 2
rduite pour un risque derreur fix.
si obs > seuil lhypothse H0 est rejete au risque derreur : les deux chantillons sont
Remarque : Pour lapplication de ce test, il est impratif que X N(,) et que les deux
chantillons soient indpendants.
Exemple :
Par Jol M. ZINSALO
Page 92
Biomtrie
Dans le but dtudier linfluence ventuelle de la lumire sur la croissance du poisson Lebistes
Reticulus, on a lev deux lots de ce poisson dans des conditions dclairage diffrentes. Au 95me
jour, on a mesur en mm les longueurs xi des poissons. On a obtenu les rsultats suivants :
Lot 1 (180 individus) : clairage 400 lux

Lot 2 (90 individus) : clairage 3 000 lux.
xi1 = 3 780
x2i1=84 884
xi2 = 2 043 x2i2=46 586
Que peut-on conclure ?
Cas o n1 et/ou n2 < 30

Lorsque les variances sont ingales et les chantillons de petites tailles, la loi de probabilit
suivie par X1 - X 2 nest pas connue. On a recours alors au statistique non paramtrique.
1.6.3.
1.6.3.1.
Comparaison de deux frquences
Principe du test
Soit X une variable qualitative prenant deux modalits (succs X=1, chec X=0) observe sur 2
populations et deux chantillons indpendants extraits de ces deux populations. On fait
lhypothse que les deux chantillons proviennent de 2 populations dont les probabilits de succs
sont identiques.
Par Jol M. ZINSALO
Page 93
Biomtrie
Le problme est de savoir si la diffrence entre les deux frquences observes est relle ou
explicable par les fluctuations dchantillonnage. Pour rsoudre ce problme, deux tests de
comparaison de frquences sont possibles :
Test ou test de la variable centre rduite et test du Khi-deux 2
1.6.3.2. Statistique du test

La distribution dchantillonnage de la frquence de succs dans la population 1,
K1
suit une
n1
loi normale telle que :
Par Jol M. ZINSALO
Page 94
Biomtrie
K1
K
et 2 tant deux variables alatoires indpendantes, nous pouvons tablir la loi de probabilit
n1
n2
de la variable alatoire tudier
Sachant que
K1 K 2
n1 n2
K1 K 2
n1 n2
suit une loi normale N(p1 p 2 ,
p1q1 p 2q 2
) , nous pouvons tablir
+
n1
n2
grce au thorme central limite la variable Z centre rduite telle que
K1 K 2
(p1 p 2 )
+
n1
n 2
Z=
p1q1 p 2q 2
+
n1
n2
Sous H0 : p1 = p2 avec p =
K1 K 2
n
n
2
Z= 1
1
1
pq( + )
n1 n 2
1.6.3.3.
n1p1 + n 2p 2
n1 + n 2
La valeur p, probabilit du succs commune aux deux populations nest en ralit pas connue.
On lestime partir des rsultats observs sur les deux chantillons :
p =
k1 + k 2
n1 + n 2
o k1 et k2 reprsentent le nombre de succs observs respectivement pour
lchantillon 1 et pour lchantillon 2.
Par Jol M. ZINSALO
Page 95
Biomtrie
H0 : p1 = p2 contre H1 : p1 p2
z=
k1 k 2
n1 n 2
1
1
pq +
n1 n 2
avec p =
k1 + k 2
n1 + n 2
z ou calcule (obs) est compare avec la valeur seuil lue sur la table de la loi normale
centre rduite pour un risque derreur fix.
si obs > seuil lhypothse H0 est rejete au risque derreur : les deux chantillons sont
extraits de deux populations ayant des probabilits de succs respectivement p1 et p2.
populations ayant mme probabilit de succs p.
Exemple :
On veut tester limpact des travaux dirigs dans la russite lexamen de statistique.
Quen concluez-vous ?
Par Jol M. ZINSALO
Page 96

Biometrie Capet 2013 Zinsalo Joel

Transféré par

Informations du document

Copyright

Formats disponibles

Partager ce document

Partager ou intégrer le document

Options de partage

Avez-vous trouvé ce document utile ?

Ce contenu est-il inapproprié ?

Droits d'auteur :

Formats disponibles

Biometrie Capet 2013 Zinsalo Joel

Transféré par

Droits d'auteur :

Formats disponibles

REPUBLIQUE DU BENIN

Ministre de lEnseignement Suprieur et de la Recherche

Ecole Normale Suprieure de lEnseignement Technique

Filires : Production vgtale

Cours prpar et anim par :

Anne acadmique : 2012 2013.

3 : Caractrisation des donnes dune srie statistique :

Chapitre 4 : Statistique deux variables corrlation

l'information. Nouvelle bibliothque scientifique, Flammarion.

statistique non paramtrique. Expos fondamental. Presses

Universit Laval, Dunod, 357 pp.

Applications agronomiques (3 vol.). Duculot, Gembloux, Presses Agron., 378 +

1970. Statistical principles in experimental design. McGraw-

Hill, Mladinska Knijiga, p. 672.

Par Jol M. ZINSALO

la conception des expriences biologiques, en particulier dans la mdecine

la collecte des informations,

la compilation et analyse des donnes chiffres de ces expriences,

l'interprtation des rsultats en vue d'avancer une conclusion.

La biostatistique est exploite dans plusieurs domaines :

la sant publique, y compris l'pidmiologie, les services de sant, la

la conception et analyse d'essais cliniques en mdecine,

la gnomique, gntique des populations et la gntique statistique afin de

l'cologie : en vue de de mettre en place des prvisions cologiques,

l'analyse de squences biologiques.

Durant tout le XXe sicle, le mot biomtrie a t utilis quasi exclusivement

Par Jol M. ZINSALO

den accrotre les connaissances scientifiques

de planifier des stratgies

daider la prise de dcision.

la statistique descriptive : qui dsigne les mthodes visant rsumer des

ou statistique infrentielle : Il sagit

dassimiler une distribution statistique un modle, une << loi de

Par Jol M. ZINSALO

Par Jol M. ZINSALO

Par Jol M. ZINSALO

Les variables qualitatives nominales : valeur selon des catgories distinctes,

Les variables qualitatives ordinales : l on peut dfinir un ordre, une

Parmi les caractres quantitatifs, on distingue les caractres quantitatifs

On peut donc tablir la typologie suivante des caractres :

Par Jol M. ZINSALO

Lexhaustivit des modalits : toute unit de la population correspond

Par Jol M. ZINSALO

On appelle srie statistique lensemble des donnes obtenues en vrac ou dans

nombre total dlments formant un chantillon est appel taille de lchantillon

1. Effectif partiel Frquence relative

le nombre dlments par

modalit ou par classe selon le type de variable considre.

On appelle frquence relative note

le rapport de leffectif partiel par la taille de

Cas du caractre qualitatif

Cas du caractre quantitatif

Caractre quantitatif discret

2.2.2. Cas du caractre quantitatif continu

On identifie ensuite la plus grande valeur de la srie note

On calcule ensuite lamplitude

On fixe la borne infrieure de la premire classe (juste infrieure

obtient la borne suprieure en ajoutant lamplitude la borne infrieure fixe. On

Par Jol M. ZINSALO

Les modalits sont ici les classes.

Dpouillement Effectif Frquence

A chaque classe statistique

[ est associe un centre de classe ci ainsi

quune amplitude de classe ai.