Vous êtes sur la page 1sur 96

REPUBLIQUE DU BENIN

Ministre de lEnseignement Suprieur et de la Recherche


Scientifique

Ecole Normale Suprieure de lEnseignement Technique


de LOKOSSA

Cours : BIOMETRIE

Filires : Production vgtale


Cohorte : 7

Cours prpar et anim par :


Jol M. ZINSALO
Enseignant lEPAC/UAC

Contacts : 97939253/95842387/90081208
E-mail : zinzalojoel@yahoo.fr

Anne acadmique : 2012 2013.

Biomtrie
Objectifs
Fournir ltudiant les connaissances de base des outils utiliss en biostatistique
et linitier lexploitation de celles-ci dans les prises de dcision.

CONTENU DU MODULE
Chapitre 1 : Terminologie et concepts de base
Chapitre 2 : Traitement des donnes dune srie statistique
Chapitre

3 : Caractrisation des donnes dune srie statistique :


Paramtres de position Paramtres de dispersion
Diagrammes en botes

Chapitre 4 : Statistique deux variables corrlation


Chapitre 5 : Test dhypothse
Chapitre 5 : Test de Khi-Deux

Rfrences bibliographiques
1. Putt S.N.H., Shaw A.P.M., Woods A.J., Tyler L., James A.D., 1987.
pidmiologie et conomie vtrinaires en Afrique Manuel lusage des
planificateurs de la sant animale. Addis Abeba, CIPEA, 146 p.
2. Scherrer, B. 1984, Biostatistique, Montral, Paris, Casablanca, Gatan Morin
diteur, 850 p
3. BERTIN

J.

1977.

La

graphique

et

le

traitement

graphique

de

l'information. Nouvelle bibliothque scientifique, Flammarion.


4. CAPERAA
modles

Philippe
en

&

VAN

CUTSEM

Bernard,

1988.

Mthodes

et

statistique non paramtrique. Expos fondamental. Presses

Universit Laval, Dunod, 357 pp.


5. DAGNELIE

Pierre,

1969

1970.

Thorie

et

mthodes

statistiques.

Applications agronomiques (3 vol.). Duculot, Gembloux, Presses Agron., 378 +


451 pp.
6. FISHER R.A., 1946.Statistical methods for research workers, Olivier &
Boyd, London. traduction franaise aux Presses Universitaires.
7. HAYS W. L., 1963. Statistics for psychologists. Holt, Rinehart & Winston.
Par Jol M. ZINSALO

Page 2

Biomtrie
8. LE GUELTE L., LE BERRE M., DAHAN G., RAMOUSSE R. & COULON
J. 1983. Traitement statitistique informatis des donnes en thologie.
tudes et analyses comportementales, 1(4) :202-268. Pour une histoire de la
statistique. Tome 1. Insee, Imprimerie Nationale, 593 pp.
9. SCHWARTZ D. 1963. Mthodes statistiques l'usage des mdecins et
des biologistes. Paris, Flammarion Mdecine Sciences. SIEGEL Sidney,
1956. Non parametric statistics for the behavioral sciences , McGraw Hill,
312 pp.
10. SNEDECOR G.W. Calculation and interpretation of analysis of variance
and covariance, Collegiate Press, Ames, Iowa.
11. SPRENT P. 1992. Pratique des statistiques nonparmtriques. INRA Editions.
VESSEREAU A. 1948. Mthodes statistiques en biologie et en agronomie.
Baillre et fils, Paris, p.381.
12. VIGNERON
WINER

B.J.

E.

1997.

Gographie

et

statistique.

Que

sais-je?,

PUF.

1970. Statistical principles in experimental design. McGraw-

Hill, Mladinska Knijiga, p. 672.

Par Jol M. ZINSALO

Page 3

Biomtrie
INTRODUCTION GENERALE
Le terme biomtrie signifie mesure + vivant ou mesure du vivant , et
dsigne dans un sens trs large l'tude quantitative des tres vivants. Parmi les
principaux domaines d'application de la biomtrie, on peut citer l'agronomie,
l'anthropologie, l'cologie et la mdecine.
L'usage de ce terme se rapporte de plus en plus l'usage de ces techniques des
fins de reconnaissance, d'authentification et d'identification, le sens premier du
mot biomtrie tant alors repris par le terme biostatistique.
La biostatistique est l'application des mthodes statistiques un large ventail
de sujets en biologie. La science de la biostatistique englobe :

la conception des expriences biologiques, en particulier dans la mdecine


et l'agriculture,

la collecte des informations,

la compilation et analyse des donnes chiffres de ces expriences,

l'interprtation des rsultats en vue d'avancer une conclusion.

La biostatistique est exploite dans plusieurs domaines :

la sant publique, y compris l'pidmiologie, les services de sant, la


nutrition et l'environnement,

la conception et analyse d'essais cliniques en mdecine,

la gnomique, gntique des populations et la gntique statistique afin de


relier la variation dans le gnotype avec une variation dans le phnotype.
La biostatistique a ainsi t exploite dans l'agriculture afin d'amliorer les
cultures et les animaux d'levage,

l'cologie : en vue de de mettre en place des prvisions cologiques,

l'analyse de squences biologiques.

Durant tout le XXe sicle, le mot biomtrie a t utilis quasi exclusivement


dans le sens trs large de l'tude quantitative des tres vivants, notamment
l'aide des mthodes statistiques.

Par Jol M. ZINSALO

Page 4

Biomtrie
Lorigine du mot statistique remonte au latin classique status (tat) qui, par
une srie dvolutions successives, aboutit au franais statistique, attest pour la
premire fois en 1771.
Cest vers la mme poque que statistik apparat en allemand, alors que les
anglophones utilisent lexpression political arithmetic jusquen 1798, date
laquelle le mot statistics fait son entre dans cette langue.
Dfinition : La statistique est lensemble des mthodes ou techniques qui
permettent lorganisation, lanalyse et la synthse des observations en vue :
-

den accrotre les connaissances scientifiques

de planifier des stratgies

daider la prise de dcision.

On distingue :
-

la statistique descriptive : qui dsigne les mthodes visant rsumer des


informations numriques nombreuses. Il sagit danalyser a priori des
donnes empiriques observes afin de les synthtiser.

La statistique mathmatique

ou statistique infrentielle : Il sagit

dassimiler une distribution statistique un modle, une << loi de


probabilit >> thorique dfinie a priori sur la base de laquelle on peut par
exemple tester des hypothses thoriques.
Cet outil est utilis dans des disciplines nombreuses et varies : la dmographie,
la sociologie, lpidmiologie, lconomie, la mtorologie, La statistique
comprend : la collecte des donnes, le traitement des donnes collectes,
l'interprtation des donnes, la prsentation afin de rendre les donnes
comprhensibles par tous.
En effet, le traitement et l'interprtation des donnes ne peuvent se faire que
lorsque celles-ci ont t collectes.
Ainsi la statistique est un domaine des mathmatiques qui possde une
composante thorique ainsi qu'une composante applique. La composante
thorique est proche de la thorie des probabilits et forme avec cette dernire,
les sciences de l'alatoire.

Par Jol M. ZINSALO

Page 5

Biomtrie
La statistique plus applique est utilise dans presque tous les domaines de
l'activit humaine : ingnierie, management, conomie, biologie, informatique,
etc.
Actuellement, on distingue gnralement les statistiques (au pluriel) de la
statistique (au singulier). En effet, La statistique (au singulier) dsigne loutil,
lensemble des mthodes. Les statistiques peuvent tre dfinies comme ltude
mthodique des faits sociaux qui dfinissent un Etat, par des procds
numriques (dnombrements, inventaires, recensements,). Les statistiques
dsignent aussi des objets, les donnes numriques observes que ces mthodes
permettent danalyser.

Par Jol M. ZINSALO

Page 6

Biomtrie
Chapitre 1 :
TERMINOLOGIE ET CONCEPTS DE BASE

1. Population
On appelle population est lensemble de tous les lments sur lesquels porte une
tude statistique.
La population statistique peut tre constitue dtres humains, mais galement
danimaux, dobjets, ou dvnements.
On distingue deux types de population.
La population relle : cest celle quon peut trouver dans la nature.
La population fictive : introuvable dans la nature, la population fictive sort de
limagination. On peut bien sr tirer des conclusions sur la population fictive.
2. Echantillon
On appelle chantillon, tout sous-ensemble de la population. Il doit tre choisi de
faon alatoire de faon que tous les lments aient la mme probabilit dtre
choisie.
On peut dduire les proprits de toute une population partir de lanalyse dun
chantillon.
Il est capital que lchantillon soit choisi de faon alatoire et analys de manire
adquate. En particulier, il faut que lchantillon soit reprsentatif de la
population. Un chantillon non reprsentatif est dit biais.
3. Unit statistique
Chaque lment de la population ou de lchantillon est appel unit
statistique ou unit exprimentale et le nombre dunits dans la population
est appel effectif de la population ; Cet effectif de la population est not n.

Par Jol M. ZINSALO

Page 7

Biomtrie
4. Caractre
On appelle caractre tout critre observable sur chaque unit de la population,
et permettant donc de dcrire la population.
Encore appele facteur ou variable cest toute caractristique prise par les
individus de la population. On appelle aussi variable tout ce qui peut prendre
plus dune valeur. Exemples : lge, le sexe, le poids, la taille.
On peut distinguer deux types de caractres : un caractre quantitatif et un
caractre qualitatif. Un caractre est dit quantitatif sil est mesurable ; En
revanche, un caractre est dit qualitatif sil est non mesurable.
Les variables qualitatives sont utilises pour dcrire et se divisent en deux
groupes :
-

Les variables qualitatives nominales : valeur selon des catgories distinctes,


il ny a pas dordre. Exemple : le sexe, les yeux, espce dun animal, mort
ou survie pendant une priode donne

Les variables qualitatives ordinales : l on peut dfinir un ordre, une


hirarchie. Exemple : Le niveau scolaire, le rang (1er, 2e, ). Autres
exemples : note dun tudiant un examen, tat dembonpoint dun animal
(maigre, moyen, gras).

Parmi les caractres quantitatifs, on distingue les caractres quantitatifs


discrets et les caractres quantitatifs continus.
Un caractre quantitatif est dit discret lorsque, sur un intervalle donn, le
caractre ne peut prendre quun nombre fini de valeurs. Exemple : Le nombre
dobjets vendus par jour, le nombre denfants par famille. Il sera en revanche
appel caractre quantitatif continu sil peut prendre nimporte quelle valeur sur
un intervalle donn.

On peut donc tablir la typologie suivante des caractres :


Caractre ou
variable
quantitatif

qualitatif

Par Jol M. ZINSALO

nominal

Page 8

ordinal

Discret

Continu

Biomtrie

5. Modalits et nomenclature.
Dfinition : on appelle << modalits >> les divers tats que peut prendre un
caractre. La liste des modalits dun caractre est appele << nomenclature >>
du caractre.
La nomenclature associe un caractre nest pas unique et dpend en fait du
degr de dtail que le statisticien entend donner son tude.
Limportant est que la nomenclature respecte les deux proprits suivantes :
Lincompatibilit des modalits : sur aucune unit de la population ne
peuvent tre observes plusieurs modalits du caractre. Par exemple,
pour le caractre << nombre denfants par mnage >>,

0 enfant

0 enfant

1 enfant

1 enfant

2 enfant

2 enfant

3 enfants

3 enfants

4 enfants

2 enfants

Incompatibilit

=> compatibilit

Lexhaustivit des modalits : toute unit de la population correspond


une modalit dans la nomenclature.
0 enfant

0 enfant

1 enfant

1 enfant

2 enfants

2 enfants

3 enfants

3 enfants
4 enfants et plus

Non exhaustivit

=> exhaustivit

Les modalits dun caractre x sont notes x1, x2, , xi,, xk.

Par Jol M. ZINSALO

Page 9

Biomtrie
Lorsque le caractre tudi est quantitatif continu, les observations sont
regroupes en modalits reprsentant des intervalles numriques appels
classes .

Chapitre 2 :
TRAITEMENT DES DONNEES DUNE SERIE STATISTIQUE

On appelle srie statistique lensemble des donnes obtenues en vrac ou dans


lordre chronologique. Ce sont des lments qui constituent lchantillon. Le
et il est not .

nombre total dlments formant un chantillon est appel taille de lchantillon

1. Effectif partiel Frquence relative


On appelle effectif partiel ou frquence absolue

le nombre dlments par

modalit ou par classe selon le type de variable considre.

On appelle frquence relative note


lchantillon. On a :

le rapport de leffectif partiel par la taille de


=

100

2. Tableau statistique
On appelle tableau statistique un tableau qui comporte 3 parties :
-

Le titre

Le corps

La source.

Le titre est toujours libell comme suit : Distribution (ou rpartition) de tels
individus ou de telles populations selon tel caractre.
Le corps est le tableau lui-mme.
Par Jol M. ZINSALO

Page 10

Biomtrie
La source renseigne sur le lieu et la date dlaboration du tableau. Elle permet
au lecteur de vrifier lexactitude des donnes. Sil sagit dun exercice propos, on
crit source fictive ou source inconnue.
2.1.

Cas du caractre qualitatif

La couleur des cheveux par exemple est un caractre qualitatif (nominal). Les
modalits peuvent tre : blonde, brune, rousse,

2.2.

Cas du caractre quantitatif

2.2.1.

Caractre quantitatif discret

Comme nous lavons prcdemment dit, il faut toujours distinguer les trois
parties dun tableau statistique : le titre le corps la source.

2.2.2. Cas du caractre quantitatif continu


Dans ce cas, la variable prend un nombre infini de valeurs dans un intervalle
donn. Il faut donc grouper les donnes par classes.
On calcule le nombre de classes par la formule :
= 1 + 3,3

On identifie ensuite la plus grande valeur de la srie note


valeur de la srie note

. On calcule ltendue

On calcule ensuite lamplitude

et la plus petite

par la formule :

par la formule :
=

On fixe la borne infrieure de la premire classe (juste infrieure

) et on

obtient la borne suprieure en ajoutant lamplitude la borne infrieure fixe. On


procde ensuite au dpouillement des donnes en utilisant :

ou

Par Jol M. ZINSALO

Page 11

Biomtrie

Les modalits sont ici les classes.


Le corps du tableau statistique se prsente comme suit :
Modalits
; "#$

Dpouillement Effectif Frquence


partiel relative (%)
7

%&' ( ; "#$(

%&' ) ; "#$)

%&' + ; "#$+

Total

A chaque classe statistique

= [

100

[ est associe un centre de classe ci ainsi

quune amplitude de classe ai.


Lamplitude de classe mesure la taille de lintervalle, lcart entre les bornes
. =

suprieure et infrieure de la classe :

Le centre de classe reprsente la valeur moyenne thorique des observations au


sein de la classe.

Exemple :

xi
[4,6[
[6,7[
[7,8[
[8,9[
Par Jol M. ZINSALO

/ =

ai
2
1
1
1

+
2

ci
5
6,5
7,5
8,5
Page 12

Biomtrie
[9,10[
[10,13[

1
3

9,5
11,5

Lorsque le statisticien dpouille, classe, et regroupe les observations, il doit


respecter certaines rgles de cohrence :
1- La nomenclature doit imprativement tre incompatible et exhaustive.
2- Le nombre de modalits doit tre choisi de manire appropri. Un trop
faible nombre de modalits conduit une perte dinformation trop
importante, en masquant les particularits de la distribution. Un trop
grand nombre de modalits conduit en revanche alourdir le traitement
statistique de linformation et se perdre dans le dtail.

Exemple : Rpartition par ge de la population des lapins.


Nomenclature 1
[0,1[
[1,2[
[2,3[

[119,120[
120 et plus

nomenclature 2
[0,10[
[10,20[
[20,30[

[80,90[
90 et plus

nomenclature 3
[0,20[
[20,60[
60et plus

La nomenclature 1 est trs (et mme trop) riche en information et trs lourde
manipuler. La nomenclature 3 est au contraire trop agrge, de sorte que
linformation contenue dans la distribution sera pauvre. La nomenclature 2
constitue un compromis.

3- Il est souvent pratique de regrouper les classes faiblement reprsentes


dans la distribution pour allger son traitement. Par exemple, dans la
nomenclature 2
[90,100[
[100,110[

===>

90 et plus

[110,120[
[120,130[

Par Jol M. ZINSALO

Page 13

Biomtrie
4- Il convient dtre prudent pour dfinir le centre des classes situes aux
extrmits de la nomenclature. Ce dernier doit tre choisi de manire bien
reprsenter la valeur moyenne des observations au sein de la modalit.
Par exemple, dans la nomenclature 2, la borne suprieure de la classe 90
ans et plus est indtermine. En posant cette borne suprieure gale
120 ans, on aurait un centre de classe gal 115 ans.
Pour la nomenclature vrifiant les proprits dexhaustivit et dincompatibilit
des modalits, la proprit suivante est vrifie :
+

= .

se lit somme de i gal 1 k des ni o lindice muet i prend successivement les


valeurs 1, 2, 3 , k. Ainsi,

+ +

La nomenclature vrifiant les proprits dexhaustivit et dincompatibilit des


modalits, la proprit suivante est vrifie :
+

Preuve :

1 2=

= 1.

4=

= 1.

Remarque : Cette proprit de somme unitaire doit imprativement

tre

respecte. Il convient parfois darrondir la valeur de certaines frquences relatives


pour garantir la somme unitaire.

Par Jol M. ZINSALO

Page 14

Biomtrie
Les notions deffectifs et de frquences cumuls supposent que lon puisse classer
les observations par ordre croissant ou dcroissant. Or, ceci nest possible
quavec des caractres quantitatifs (ge, salaire, ). Leffectif cumul croissant ne
sera donc pas dfini pour les caractres qualitatifs, pour lesquels les observations
ne peuvent tre ordonnes (couleur des yeux, marque de voiture, ).

Dfinition : On appelle effectifs cumul croissant de la modalit xi du


caractre quantitatif x , not Ni+, le nombre dunits de la population pour
lesquelles la modalit du caractre x observe est infrieure ou gale la ime.
5- =

++

Lecture : Ni+ units de la population vrifient une valeur observe du caractre x


infrieure ou gale e i+. (Ou xi si le caractre est quantitatif discret).

Dfinition : On appelle effectif cumul dcroissant de la modalit xi du


caractre quantitatif x , not Ni-, le nombre dunit de la population pour
lesquelles la modalit du caractre x observe est suprieure ou gale la ime.
5 =
,

+ +

+.

Lecture : 5 , units de la population vrifient une valeur observe du caractre X

suprieure ou gale ei-. (Ou xi si le caractre est quantitatif discret).

Exemple : Flotte des navires de pche mtropolitains au 31 / 12/ 2001 selon la


longueur en mtres :
Longueur
en ni
Ni+
mtres
Moins de 12
4199
4199
519
4718
[12 ,16[
811
5529
[16 ,25[
88
5617
[25, 38[
38 et plus
69
5686
Total
5686
Source : Direction des pches maritimes
Par Jol M. ZINSALO

Ni5686
1487
968
157
69
Page 15

Biomtrie
N2+ = 4718
Lecture :

4718 bateaux de la flotte de pche franaises mesuraient moins

de 16 mtres fin 2001.


N4+ = 5617

5617 bateaux de la flotte de pche franaises mesuraient

moins de 38 mtres fin 2001.


N2- = 1487

1487 bateaux de la flotte de pche franaises mesuraient 12

mtres et plus fin 2001.


N4- = 157

157 bateaux de la flotte de pche franaises mesuraient 25

mtres et plus fin 2001.

Dfinition : On appelle frquence cumule croissante de la modalit xi du


caractre quantitatif x , not Fi+, la proportion dunits de la population pour
lesquelles la modalit du caractre x observe est infrieure ou gale la ime.
8 =
-

+ + 9

/ : 8 =
-

5-

Lecture : (100. Fi+)% des units de la population vrifient une valeur observe du
caractre x infrieure ou gale ei+. (Ou xi si le caractre est quantitatif discret)

Dfinition : On appelle frquence cumule dcroissante de la modalit xi du


caractre quantitatif x , not Fi-, la proportion dunits de la population pour
lesquelles la modalit du caractre x observe est suprieure ou gale la ime.
8 =
,

ou encore :

Par Jol M. ZINSALO

=
8 =
,

++

5,

Page 16

Biomtrie
Lecture : (100. Fi-)% des units de la population vrifient une valeur observe du
caractre x suprieure

ou gale ei+. (Ou xi si le caractre est quantitatif

discret)

Exemple : Flotte des navires de pche mtropolitains au 31 / 12/ 2001 selon la


longueur en mtres :

Longueur
en ni
Ni+
mtres
Moins de 12
4199
0,7485
519
0,8298
[12 ,16[
811
0,9724
[16 ,25[
88
0,9879
[25, 38[
38 et plus
69
1
Total
5686
Source : Direction des pches maritimes

Lecture :
F2+ = 0,8298

Ni1
0,2615
0,1702
0,0276
0,0121
-

82,98% des bateaux de la flotte de pche franaises

mesuraient moins de 16 mtres fin 2001.


F4+ = 0,9879

98,79% des bateaux de la flotte de pche franaises

mesuraient moins de 38 mtres fin 2001.

F2- = 0,2615

26,15% des

bateaux de la flotte de pche franaises

mesuraient 12 mtres et plus fin 2001.


N4 - =

0,0276

2,76% des

bateaux de la flotte de pche franaises

mesuraient de 25 mtres et plus fin 2001.

Par Jol M. ZINSALO

Page 17

Biomtrie
Exercice
La distribution des dures dincubation de la brucellose chez 40 vaches ges de
10 ans sont :
269,7 263,6 264,4 259,7 262,4 263,4 260,7 265,0 267,0 265,6
268,8 260,3 263,4 267,6 264,1 272,9 264,8 261,4 264,5 266,2
265,9 265,3 266,4 255,8 267,1 265,5 264,5 262,2 271,0 264,4
269,8 266,1 268,7 261,2 263,1 264,6 258,7 262,3 261,2 262,1.
1. Dterminer le nombre de classes ncessaires.
2. Dterminer ltendue de la srie
3. Dterminer lamplitude des classes et les classes de donnes. Arrondir
lamplitude lentier suprieur.
4. Dpouiller les donnes de la srie statistique.

3. Diagrammes
On entend souvent quun schma vaut mieux quun long discours. Effectivement,
lorsque lon veut tudier une srie dobservations statistiques, il est souvent
judicieux den donner une reprsentation graphique.
Cette reprsentation dpend de la nature des donnes tudies. En effet, il existe
plusieurs types de donnes : donnes quantitatives continues (mesures par une
unit de grandeur, comme le mtre, le franc), quantitatives discrtes (rsultant
dun dnombrement et sexprimant en nombres entiers) ou qualitatives nominales
(codes par une lettre, par exemple F pour fminin, M pour masculin, ou un
chiffre sans signification numrique) et ordinales (objets classs par ordre de
prfrence).
Les reprsentations graphiques fondamentales sont :
des diagrammes, dans le cas de donnes qualitatives, quantitatives
discrtes ;
des histogrammes, dans le cas de donnes quantitatives continues.
Par Jol M. ZINSALO

Page 18

Biomtrie
3.1.

Cas dun caractre qualitatif

Il existe deux diagrammes de base :


un diagramme circulaire encore appel camembert et
une reprsentation par tuyau dorgues.
Ces diagrammes reprsentent les effectifs ou les pourcentages de lchantillon
suivant chaque modalit de la variable qualitative :
Le diagramme circulaire est constitu dun disque reprsentant la totalit
de lchantillon. Chaque modalit de la variable qualitative est caractrise
par un secteur circulaire dont laire, et par suite langle au centre,
reprsente leffectif de lchantillon correspondant.
360

Le disque est divis en secteur selon la loi suivante :

tel que :

> =

>

360

est la taille de lchantillon et

leffectif partiel de chaque modalit.

La reprsentation par tuyau dorgues : on reporte le long de laxe des


abscisses la liste des modalits de la variable et le long de laxe des
ordonnes leffectif de lchantillon correspondant chacune dentre elles
dans lordre croissant ou dcroissant. Il sagit dun ensemble de rectangles
rgulirement espacs de mme base et deffectif partiel ordonn par ordre
croissant ou dcroissant.

1.2.
1.2.1.

Cas du caractre quantitatif


Caractre quantitatif discret

On reprsente les donnes statistiques par


un diagramme en btons : on reporte le long de laxe des abscisses la liste
des modalits de la variable et le long de laxe des ordonnes leffectif de
lchantillon correspondant chacune dentre elles.

Par Jol M. ZINSALO

Page 19

Biomtrie
les points ? ,

@ et les points ?

1, 0@ et ?

+ 1, 0@.

Le polygone des frquences ou des effectifs : cest la courbe ferme reliant

Exercice
Le tableau suivant reprsente la rpartition du nombre denfants par mnage
dans un quartier donn.
Nombre denfants Nombre de mnages
1

50

60

30

90

1) Reprsenter le diagramme en btons


2) Prsenter le polygone des effectifs.

Exercice
Dans un pays, on a tudi, sur une priode de temps trs longue, le nombre de
suicides des jeunes de moins de 20 ans.
Il y a eu 19 annes o on a compt 1 suicide par an
17 annes o on a compt 2 suicides par an
20 annes o on a compt 3 suicides par an
15 annes o on a compt 4 suicides par an
11 annes o on a compt 5 suicides par an
8 annes o on a compt 6 suicides par an
2 annes o on a compt 7 suicides par an
3 annes o on a compt 8 suicides par an
3 annes o on a compt 9 suicides par an
3 annes o on a compt 10 suicides ou plus par an
9 annes o il ny a eu aucun suicide.
1) Prciser la population tudie, lindividu, le caractre tudi et ses
modalits.
2) Etablir le tableau statistique complet.
3) Prsenter le diagramme en btons reprsentatif des effectifs.
Par Jol M. ZINSALO

Page 20

Biomtrie
4) Prsenter le polygone des effectifs.

Solution
1) La population tudie est lensemble des jeunes de moins de 20 ans dun pays
qui se sont suicids pendant une priode trs longue. Un individu est
reprsent par une anne. Le caractre tudi est le suicide. Les modalits de
celui-ci correspondent au nombre de suicides observs soit de 0 10 et plus.
2) Il sagit de prsenter un tableau statistique 8 colonnes donnant

respectivement Modalits (Nombre de suicides


), Nombre de suicides observs (

), Effectif (nombre dannes

), Frquences relatives (en %), Effectifs

cumuls croissants, Effectifs cumuls dcroissants, Frquences cumules


croissantes, Frquences cumules dcroissantes.

1.2.2.

Caractre quantitatif continu

On peut reprsenter les donnes quantitatives continues par :


-

Un histogramme : cest un ensemble de rectangles de bases respectives les


amplitudes des classes et de hauteurs proportionnelles aux effectifs partiels
hauteur les densits deffectifs B en lieu et place des effectifs partiels

des classes. Si les classes nont pas la mme amplitude, on utilise pour
calcule la densit B connaissant lamplitude . par la formule :

B =

. On

Le polygone statistique ou polygone des effectifs : il est obtenu en joignant


les milieux des sommets des rectangles de lhistogramme. Cest la courbe
labels y compris les points ? , 0@ et ?

+ 1,0@.

ferme joignant les milieux des barres suprieures des rectangles appels

Le polygone cumulatif : On distingue le polygone cumulatif croissant et le


polygone cumulatif dcroissant. Pour le polygone cumulatif croissant les
effectifs cumuls croissants sont ports sur laxe des ordonnes ; la donne
cumule est porte au point dabscisse correspondant la borne suprieure

Par Jol M. ZINSALO

Page 21

Biomtrie
de la classe. Pour le polygone cumulatif dcroissant les effectifs cumuls
dcroissants sont ports sur laxe des ordonnes ; la donne cumule est
porte au point dabscisse correspondant la borne infrieure de la classe.

Exercice
En utilisant les donnes de lexercice 3 :
1) Faire un tableau statistique complet.
2) Construire lhistogramme du revenu trimestriel de ces habitants.
3) Construire lhistogramme avec les centres des classes.
4) Prsenter le polygone statistique.
5) Prsenter le graphique reprsentatif des frquences cumules croissantes
et celui des frquences cumules dcroissantes.

Exercice
La Direction Rgionale de lagriculture et de la fort dun pays nous a donn en
2011, la rpartition par tranche dges des chefs dexploitation agricole de la
rgion centre.
Moins de 25 ans

580 exploitations

de 25 29 ans

2162 exploitations

de 30 39 ans

8063 exploitations

de 40 49 ans

9569 exploitations

de 50 59 ans

16 660 exploitations

plus de 60 ans

15 913 exploitations.

1) Dfinir la population tudie, lindividu et le caractre tudis ainsi que les


modalits de celui-ci.
2) Etablir le tableau statistique complet de cette srie.
3) Quelle proportion dexploitations ont un chef g de 40 ans ? de moins de
30 ans ? entre 25 et 60 ans ?
4) Prsenter :
a) Lhistogramme reprsentatif des effectifs
b) Le polygone des effectifs

Par Jol M. ZINSALO

Page 22

Biomtrie
c) le graphique reprsentatif des frquences cumules croissantes et celui
des frquences cumules dcroissantes. Quelle est la signification du
point dintersection ?

Solution
1) La population tudie est lensemble des chefs des exploitations agricoles de la
Rgion centre en 2011. Un individu est constitu dun chef dexploitation. Le
caractre tudi est son ge. Il varie de moins de 25 ans plus de 60 ans : ce
sont ses diffrentes modalits.
2) Tableau statistique
Classes

Centre

ges

Effectifs

de

Nombre

classes

tablis

Frquences
(%)

Effectifs

Effectifs

Frquences

Frquences

Cumuls

Cumuls

Cumules

Cumules

croissants

dcroissants

croissantes

dcroissantes

Total

Par Jol M. ZINSALO

Page 23

Biomtrie
CHAPITRE 3 :
Caractrisation des donnes :
Paramtres de position Paramtres de dispersion
Diagrammes en botes

De lexamen dune distribution statistique ou dune reprsentation graphique de


cette dernire, on peut retirer plusieurs impressions gnrales :

Lordre de grandeur des observations situes au centre de la distribution :


cest la tendance centrale .

La largeur de la srie, c'est--dire la plus ou moins grande fluctuation


des observations autour de la tendance centrale : cest la dispersion .

1. Caractristiques de tendance centrale


Les mesures de tendance centrale permettent dobtenir une ide juste de lordre
de grandeur des valeurs ainsi que de la valeur centrale de la caractristique que
lon dsire tudier.
Les trois principaux indicateurs de tendance centrale sont le mode, la mdiane,
et les moyennes.

1.1.

Le mode

Le mode dune distribution statistique, not Mo, est la modalit du caractre la


plus reprsente dans la distribution.
Elle est galement appele valeur dominante de la distribution.
Il correspond au sommet de la distribution : le mode est la valeur la plus
frquente.
On appelle distribution unimodale, une distribution prsentant un seul mode

Par Jol M. ZINSALO

Page 24

Biomtrie
f
r

q
u
e
n
c
e

X
Une distribution bimodale est une distribution prsentant deux modes

f
r

q
u
e
n
c
e

X
modes

Une distribution multimodale ou plurimodale est une distribution prsentant


plusieurs modes (2,3,). Elle est souvent le reflet dune population compose de
plusieurs sous-populations distinctes.
La dtermination du mode dune distribution diffre selon le type du caractre
observ.
1.1.1.

Cas des caractres qualitatifs et quantitatifs discret

Le mode correspondant alors la modalit deffectif (ou de frquence relative)


maximale.
Exemple : Mdailles de la France aux J.O. de Sydney en 2000 :
xi (mtal)
Or
Argent
Bronze
TOTAL

Par Jol M. ZINSALO

ni
13
14
11
38

Mo = argent

Page 25

Biomtrie
Exemple : Mdailles de la France aux J.O. dAtlanta en 1996 :
xi (mtal)
Or
Argent
Bronze
TOTAL
1.1.2.

ni
15
7
15
37

Mo = {or, bronze}

Cas des caractres quantitatifs continus

Lorsque le caractre est continu, les modalits prennent la forme de classes


dintervalles qui peuvent tre damplitude gale ou variable.
Lorsque les classes ont la mme amplitude, le mode est la modalit
correspondant leffectif le plus lev ou la frquence relative la plus leve.

Exemple : Rpartition des ouvriers dune entreprise selon le salaire mensuel

Salaire en kF

Nombre douvriers

3500 moins de 3700

21

3700 moins de 3900

49

3900 moins de 4100

100

4100 moins de 4300

24

4300 moins de 4500

Source : INSEE, France, 1984.


Leffectif le plus grand est 100. La classe modale est donc C3900; 4100C et le mode
3900 + 4100
= 4000 8
2

Mo est le centre de la classe modale soit :


F =

Pour dterminer le mode dans le cas o les classes nont pas la mme amplitude,
il faut rapporter leffectif de chaque modalit son amplitude, de manire
comparer les diffrentes modalits sur une base commune.

Par Jol M. ZINSALO

Page 26

Biomtrie
Exemple : rparation par ge des habitants dune commune
xi (ge en annes)
[0, 18[
[18, 35[
[35, 55[
[55, 105[
TOTAL

ni
72
102
105
171
450

Source : INSAE, Bnin, 2001


Dans un premier temps, on pourrait conclure que la classe modale est la
modalit [55, 105[. CECI EST FAUX !!! En effet, on ne peut comparer les effectifs
des diffrentes modalits sans les ramener une base commune, do la
dfinition suivante.

Dfinition : on appelle densit de la modalit xi du caractre quantitatif continu


x , note di, le rapport de leffectif de cette modalit sur son amplitude.
B =

La classe modale correspondant alors la modalit dont la densit est maximale.


Le mode est le centre de cette classe modale.
Exemple :

Xi (ge en annes)

ni

ai

d i = ni / ai

[0, 18[

72

18

d1= 72 /18 = 4

[18 ,35[

102

17

d2 = 102 / 17 = 6

[35 ,55[

105

20

d3 = 105 / 20 = 5,25

[55, 105[

171

50

d4 = 171 / 50 = 3,42

Total

350

Lecture : Dans la modalit dge [0, 18[, on trouve en moyenne 4 personnes par
tranche dun an.
Dans la modalit dge [18, 35[ , on trouve en moyenne 6 personnes par tranche
dun an.

Par Jol M. ZINSALO

Page 27

Biomtrie
Dans la modalit dge [35, 55[, on trouve en moyenne 5,25 personnes par
tranche dun an.
Dans la modalit dge [55, 105[, on trouve en moyenne 3,42 personnes par
tranche dun an.
La modalit la plus reprsente est donc bien [18, 35[. On a donc :
Mo = [18, 35[ .

Proprits du mode
Le mode soufre de certains dfauts :
Sa dtermination nest pas prcise pour les variables continues
(Mo = [18 ,35[ dans lexemple).
Il ne se prte pas au calcul algbrique.

En revanche, le mode constitue un indicateur simple et dinterprtation


immdiate.

1.2.

La mdiane

On appelle mdiane dune distribution statistique, note Me, la valeur de la


variable qui partage en deux groupes deffectif identique les observations classes
par ordre croissant. En dautres termes, la mdiane est la valeur du caractre
note Me telle que :
5GH
=

ou encore 8GH
= 0,5.

La mdiane est la valeur pour laquelle il y a autant dindividus gauche qu


droite dans lchantillon.
La mdiane est une valeur telle que la moiti des observations xi lui soient
infrieures ou gales

1.2.1.

Cas des variables discrtes.

Il sagit des donnes non groupes par classe. Il faut dans

un premier temps

ordonner les observations par ordre croissant. Le calcul de la mdiane dpend de


la parit de la taille de lchantillon.
Par Jol M. ZINSALO

Page 28

Biomtrie
1.2.1.1. Taille dchantillon impaire
Si n est impair, alors la mdiane est lobservation de rang
ordonne (ordre croissant).

dans la srie

Exemple : On considre la distribution dun chantillon de 9 personnes selon la


taille en cm :
153 157 159 165 167 172 173 178 182.
n= 9 impair => Me = observation de rang (9+1)/2=5=167cm
La moiti des individus de lchantillon mesurent moins de 1,67 mtres, et lautre
moiti plus de 1,67 m.

1.2.1.2. Taille dchantillon paire


Si n est pair, alors on pose

= 2 et on dtermine
=

par la formule :

+ 1. On calcule la mdiane Me par la

Les donnes sont ensuite classes par ordre croissant. On identifie ensuite la
donne de rang
formule :

et la donne de rang

P =

QRSS T U SV + QRSS T U SV ? + W@
X

Exemple : On donne la distribution dun chantillon de 10 personnes selon la


taille en cm :
n= 10 est pair => = 2 .

153 157 159 165 167 172 173 178 182 184

On trouve :

10
=5
2

La donne de rang 5 est 167 cm et la donne de rang 6 est 172 cm.


La mdiane Me est donc :

Par Jol M. ZINSALO

Page 29

Biomtrie
F =

167 + 172
= 169,5
2

La moiti des individus de lchantillon mesurent moins de 169,5 cm, et lautre


moiti plus de 169,5 cm.

1.2.2.

Cas des variables continues

Ici les donnes sont groupes par classe.


On dtermine la classe mdiane en dterminant
cumul croissant englobe la ? 2@ []

2 et on compare cette valeur

avec les effectifs cumuls croissants. La classe mdiane est celle dont leffectif
donne (celle dont leffectif cumul

croissant lui est immdiatement suprieure ou gale). On calcule ensuite la


mdiane Me par la formule :

^_

o
S

S
`_,W
X
P = ^_ + _
SP

est la borne infrieure de la classe mdiane

`_,W est la somme des effectifs partiels de toutes les classes prcdant la classe
est le nombre total des donnes dans la srie

SP est leffectif partiel de la classe mdiane


mdiane

est lamplitude de la classe mdiane.

Proprits de la mdiane
La mdiane nest pas dfinie pour les caractres qualitatifs, et son interprtation
pose problme pour les variables discrtes. En fait, la mdiane est un indicateur
utile et pertinent dans le seul cas des variables continues, o linterprtation de
la mdiane est simple et parlante .
La mdiane a pour avantage dtre peu sensible aux valeurs numriques de la
srie ; elle ne dpend gure que de lordre des observations et est constante mme
si les premires et dernires observations varient considrablement. Elle nest pas
toujours facile calculer, et parfois mme nexiste pas.

Par Jol M. ZINSALO

Page 30

Biomtrie
1.3.

Moyennes

On tudiera la moyenne arithmtique, la moyenne pondre, la moyenne


gomtrique, la moyenne harmonique et la moyenne quadratique.

1.3.1. Moyenne arithmtique


La moyenne arithmtique ou moyenne ou moyenne arithmtique simple est la
moyenne est note et dtermine par la formule :

somme des grandeurs mesures divise par le nombre total dindividus. La

Exemple :

Pour un examen de DUT, les notes dun tudiant dans 7 matires sont :
18 16 15 - 14 12 - 17 11.
18 + 16 + 15 + 14 + 12 + 17 + 11
= 14,71
7

La note moyenne est donc :


=

Cette formule est utilise pour des donnes non groupes (c'est--dire des
donnes en vrac ou en ordre chronologique).
Pour calculer la moyenne arithmtique dune variable continue dont les
observations sont donc regroupes en classe, on considre que les valeurs
observes sont rparties de manire uniforme au sein de chaque intervalle. Ceci
xi est gale au centre ci de cette classe. On utilise les centres / des classes et
revient supposer que la valeur moyenne des observations au sein dune classe

leurs effectifs partiels

pour ainsi calculer la moyenne arithmtique. On utilise

la formule :
e=
d

W S_ f_

tant le nombre de classes et n leffectif total.


Le plus souvent il sagit plutt de calculer une moyenne pondre.

Par Jol M. ZINSALO

Page 31

Biomtrie
Il peut arriver que des donnes soient rptes un certain nombre de fois dans
une srie statistique.
La moyenne pondre est une moyenne arithmtique dans laquelle chaque
modalit

de la variable X est multiplie (ou pondre) par leffectif partiel


W S_ d_

W S_ d_

correspondant. La moyenne pondre se calcule par :


e=
d

W S_

Exemple : notes obtenues par un lve au baccalaurat :


Xi (note sur 20)

ni (coefficient)

ni. xi

24

16

32

13

39

10

Total

12

113

?4 2@ + ?8 3@ + ?16 2@ + ?13 3@ + ?5 2@ 113


=
= 9,42.
12
12

La moyenne pondre de cet lve au baccalaurat est :


=

La moyenne arithmtique pondre peut galement tre dfinie partir des


frquences relatives :
=

@=

? .

@=

@=

Proprit :
Sur deux populations Pa et Pb de mme nature, et deffectif respectif na et nb, on a
la valeur moyenne du caractre, note respectivement ggg et ggg.
h Alors, la moyenne

observ le mme caractre quantitatif X. Sur chaque sous-population, on obtient


du caractre x sur lensemble de la population P = Pa U Pb est :
Si
S
e=
ggg +
ggg
d
d
d
S + Si
S + Si i

Par Jol M. ZINSALO

Page 32

Biomtrie
Exemple : Les 300 copies de statistique ont t corriges en deux fois :
120 copies avec une moyenne de 09/20
180 copies avec une moyenne de 11,5/20
120
180
9+
11,5 = 10,5.
300
300

Quelle est la note moyenne sur lensemble des copies ?


=

Exercice 2
Dans une population de 12 000 familles de huit enfants, on tudie le caractre
nombre de garons parmi les huit enfants de chaque famille . La rpartition de
ces familles suivant le nombre de garons est la suivante :
Nombre
Nombre de familles
de garons
ayant n garons
0
48
1
295
2
1425
3
2213
4
3438
5
2457
6
1607
7
453
8
64
1. Construire le diagramme en btons des observations.
2. Quel est le mode de cette srie statistique ?
3. Calculer la mdiane.
4. Calculer la moyenne.

Exercice 3
En vue dtudier la rpartition des ouvriers agricoles dune rgion en fonction du
salaire journalier, on choisit un chantillon reprsentatif de cette population. On
observe que le salaire journalier est compris entre 80 kF et 200 kF, un intervalle
partag en 8 intervalles conscutifs gaux. La rpartition des individus de
lchantillon dans ces 8 classes est la suivante :

Par Jol M. ZINSALO

Page 33

Biomtrie
Salaires

journaliers d

Effectifs des

C80, 95C

classes

C110, 125C

56

C125, 140C

135

C170, 185C

60

C95, 110C

11

C140, 155C

140

C185, 200C

30

C155, 170C

96

1. Construire lhistogramme et le polygone des frquences de cette srie


statistique.
2. Quelle est la classe modale ? Calculer la mdiane de cette srie statistique.
3. Calculer la moyenne.

La moyenne arithmtique est un paramtre de tendance centrale robuste et


simple interprter, except dans certains cas particuliers :

Lorsque la distribution contient de points aberrants (des valeurs


extrmes qui dforment la distribution).

Dans le cas de variables discrtes o linterprtation est problmatique (2,1


enfants par femme ).

Le concept de moyenne nest cependant pas univoque et ne se rduit pas la


seule moyenne arithmtique. Trois autres types de moyennes peuvent tre
dfinies, correspondant chacune un contexte bien particulier dutilisation.
La moyenne possde des proprits mathmatiques intressantes et est facile
manipuler

mathmatiquement.

Elle

dpend

de

toutes

les

valeurs

xi

et

particulirement des valeurs xi trs grandes en valeur absolue, surtout si les


observations sont peu nombreuses.

Par Jol M. ZINSALO

Page 34

Biomtrie
Lorsque les donnes sont peu nombreuses, que certaines observations sont trs
leves en valeur absolue, et quil existe un risque derreur de mesure non
ngligeable, on choisira la mdiane comme ordre de grandeur des observations.
Lorsque les observations sont prcises, fiables et relativement nombreuses, on
choisira la moyenne comme ordre de grandeur des observations.

2. Caractristiques de dispersion
Les indicateurs de tendance centrale ne permettent pas eux seuls de
caractriser la distribution statistique. Ils renseignent sur lordre de grandeur
au milieu de la srie , mais nindique rien quant la rpartition des
observations autour du centre de la distribution.
Exemple : Age de mariage de deux groupes dindividus

Groupe 1

21

22

23

24

30

30

36

37

38

39

Groupe 2

28

29

29

30

30

30

30

31

31

32

Groupe 1
Groupe 1

: Mo = Me = = 30

: Mo = Me = = 30

Bien que les deux sries aient exactement les mmes caractristiques de
tendance centrale, les distributions sont clairement trs diffrentes :
Dans le groupe 1, les observations sont beaucoup plus disperses autour de la
tendance centrale.
Nous allons ici dfinir les indicateurs synthtiques permettant de mesurer
cette dispersion. Ces indicateurs sont de plusieurs types :
-

Ltendue dune srie

Lcart moyen

La variance et lcart type

Le coefficient de variation

Les quantiles.

Par Jol M. ZINSALO

Page 35

Biomtrie
2.1.

Ltendue dune srie

Ltendue

dune srie est aussi appele range ou intervalle de variation. Cest la

diffrence entre la valeur la plus leve


On a :

Exemple : ge de mariage

= dj

et la plus faible
d

de la srie.

dj_S

Groupe 1 : tendue = 39 21 = 18
Groupe 2 : tendue = 32 28 = 4
Lentendue, pour simple quelle soit calculer et interprter, ne constitue pas
pour autant une mesure fiable de dispersion. En effet,
-

Elle ne prend en compte que deux des n observations ;

Deux sries la dispersion trs diffrente peuvent avoir une tendue


identique.

2.2.

Lcart moyen
, et den calculer la moyenne

Pour chaque modalit, il est intressant de calculer lcart de chaque valeur de la


variable la moyenne arithmtique, soit

arithmtique. Lcart moyen E se dfinit comme la moyenne arithmtique des


carts la moyenne arithmtique de la srie.
On le note :

2.3.

$ | |
k=
$

La variance et lcart type

Pour viter la compensation entre carts positifs et ngatifs la moyenne dans le


but de mesurer la dispersion, une autre solution consiste lever ces carts
une puissance paire, pour liminer les signes - . Cest le principe de dfinition
de la variance.

La variance est la moyenne des carrs des carts la moyenne arithmtique. On


la dsigne par V :
-

pour une srie simple :

Par Jol M. ZINSALO

Page 36

Biomtrie
1

m=
-

@( 9 m = n

4 o

pour une srie groupe par classe ou le cas de valeurs distinctes


1

?/

m=

@(

9 m = n

/ 3
(

/4 o

Exemple : Age au mariage de deux groupes dindividus


Groupe 1

21

29

29

30

30

31

31

39

Groupe 2

29

29

29

30

30

31

31

31

Groupe 1:

1
m = pq
8

Groupe 1:

1
166
30@ = ?81 + 1 + 1 + 1 + 0 + 0 + 1 + 1 + 81r =
= 20,75
8
8

1
m = pq
8

1
6
30@ = ?1 + 1 + 1 + 0 + 0 + 1 + 1 + 1r = = 8,75
8
8

La dispersion est donc largement suprieure dans le premier groupe.

La variance na pas dinterprtation isolment. En effet, elle nest pas exprime dans
lunit de mesure de la variable (ici lanne), mais en carr de cette variable (des
annes au carr !!). Pour combler ce dfaut, on dfinit lcart type, not , comme la
racine carre de la variance.
Lcart type est donc exprim dans lunit de mesure de la variable :
-

pour une srie simple :

= m = t
-

@( 9 = t n

4 o

pour une srie groupe par classe ou le cas de valeurs distinctes


1

=t
Par Jol M. ZINSALO

?/ @( 9 = t n

/ 3
(

/4 o
Page 37

Biomtrie
Exemple : Age au mariage de deux groupes dindividus.
Groupe 1 : ? @ = u20,75 = 4,56 . v
Groupe 2 : ? @ = u0,75 = 0,75 . v

Exemple : Flotte des navires de pche mtropolitaine au 31/12/2001 selon la


longueur en mtres :
Longueur

en Ni

Ci

(Ci )

ni-(C1- )

mtres
Moins de 200

4199

10*

-2,62

28824

[12, 16[

519

14

1,38

988

[16, 25[

811

20,5

7,88

50358

[25, 38[

88

31,5

18,88

31368

38 et plus

69

45*

32,88

72344

TOTAL

5686

183882

Source : Direction des Pches maritimes

m=

2.4.

= 12,62 ]w: v.

183882
= 32,34 = u32,34 = 5,69 ]w: v.
5686

Le coefficient de variation

Les indicateurs de dispersion prcdents sont exprims dans lunit de mesure de


la variable. Alors, comment comparer la dispersion de deux variables statistiques
dont les units de mesure et les ordres de grandeur diffrent ? Par exemple, la
distribution par taille des navires de pche est-elle plus disperse que celles par
ge au mariage des groupes dindividus ?
Pour saffranchir de lunit de mesure et de lordre de grandeur, on dfinit un
indicateur de dispersion relative, le coefficient de variation.

Par Jol M. ZINSALO

Page 38

Biomtrie
Le coefficient de variation CV est calcul par la formule :
{
yz = W||
e
d

e est
Il est indpendant de lunit de mesure de la caractristique observe. Si d
ngative, on retient la valeur absolue de CV.

Pour deux variables X et Y, CV(X) > CV(Y) la distribution de X est plus


disperse que celle de Y.
e), indiquant ainsi que la moyenne
donnes est homogne (concentre autour de d

Plus le coefficient de variation est faible (infrieur 15%), plus la srie de


e est bien reprsentative de lensemble des donnes de la srie.
d

Exemple
4,56
= 0,152
30

Age de mariage de deux groupes dindividus (groupe 1) :


= 30 w = 4,56 . v }m =

0,87
= 0,029
30

Age de mariage de deux groupes dindividus (groupe 2)


= 30 w = 0,87 . v }m =

Flotte des navires de pche

= 12,62 w = 5,69 . v }m =

5,69
= 0,451
12,62

On peut conclure que la distribution la plus disperse est celle des bateaux de
pche par taille.

2.5.

Les quantiles

Les quantiles sont les valeurs de la variable statistique qui partagent la


distribution classe en ordre croissant en plusieurs sous-groupes deffectif
identique. Les quantiles les plus frquemment utiliss sont :
Les quartiles : ce sont les valeurs Q1, Q2, Q3, qui partagent lensemble des
observations classes par ordre croissant en 4 sous-ensembles comprenant
chacun 25 % de la population totale.

Par Jol M. ZINSALO

Page 39

Biomtrie
Les dciles : ce sont les valeurs D1, D2 D3, , D8, D9 qui partagent lensemble des
observations classes par ordre croissant en 10 sous ensembles comprenant
chacun 10% de la population totale.
Les centiles : Ce sont les valeurs C1, C2 C3, , C98 C99 qui partagent lensemble
des observations classes par ordre croissant en 100 sous ensembles comprenant
chacun 1% de la population totale.

Le 1er quartile not ~W dune srie ordonne (ordre croissant) est le nombre en

de duquel se trouvent au plus 25% des donnes ; le deuxime quartile ~X

plus 50% des donnes ; cest donc la mdiane. Le troisime quartile ~ est le
correspond la mdiane et reprsente le nombre en de duquel se trouvent au

nombre en de duquel se trouvent au plus 75% des donnes. Lorsque les


calculer ~W et ~ .

donnes sont groupes en classes, on utilise les expressions suivantes pour


~W = + 4

8
~W

3
8
~ = + 4
.
~

: borne infrieure de la classe qui contient ou )


: nombre de donnes dans la srie

8 : somme des frquences absolues des classes prcdant la classe qui contient le
premier ou le troisime quartile

~W
~

: frquence absolue de la classe contenant le premier quartile


: frquence absolue de la classe contenant le troisime quartile

. : amplitude de classe.

Par Jol M. ZINSALO

Page 40

Biomtrie
De faon analogue, on calcule les dciles Dj et les centiles Cj par les formules :
Dciles 6 C

Centiles }6 C
2.6.

C Q =

,
_

C y =

,
_

?
+ _

S
@ `_,W
W|

S_

S
@
W||
S_

`_,W

Diagramme en botes

Intervalle interquartile
On appelle intervalle interquartile IQ la diffrence entre le troisime quartile ) et

le premier quartile .

~ = ~

~W

Pour construire un diagramme en bote, on positionne de manire ordonne et


lchelle les quartiles, la mdiane et les valeurs extrmes de la srie. On construit
ensuite une bote rectangulaire relie les quartiles

et ) , de sorte que la

longueur de la bote est lintervalle interquartile IQ. On trace par la suite un trait
lintrieur de la bote pour reprsenter la mdiane et un autre partir de
chaque extrmit de la bote jusquaux valeurs extrmes de la srie.

Figure : Diagramme en bote

Par Jol M. ZINSALO

Page 41

Biomtrie
Exercice
La distribution des dures dincubation de la brucellose chez 40 vaches ges de
10 ans sont :
269,7 263,6 264,4 259,7 262,4 263,4 260,7 265,0 267,0 265,6
268,8 260,3 263,4 267,6 264,1 272,9 264,8 261,4 264,5 266,2
265,9 265,3 266,4 255,8 267,1 265,5 264,5 262,2 271,0 264,4
269,8 266,1 268,7 261,2 263,1 264,6 258,7 262,3 261,2 262,1.
1. Calculer les quartiles , ( et ) .

2. Construire le diagramme en bote.

Solution
Tout dpend de la parit de la taille de lchantillon .
Il faut dabord ordonner les donnes de la srie.

Si n est impair, les rangs de , ( et ) dans la srie ordonne sont arrondis


lentier suprieur.

Calcul du premier quartile ~W

Pour cet exercice, la taille de lchantillon n est paire.


-

Le rang

est tel que :

1
n
4

1
= 40 = 10
4

soit :

Le premier quartile correspond la moyenne de la 10e et la 11e donne dans la


srie ordonne :

262,2 + 262,3
= 262,25
2

Calcul du deuxime quartile ~X

Le rang

est tel que :

soit :

Par Jol M. ZINSALO

2
n
4

2
= 40 = 20
4
Page 42

Biomtrie
Le deuxime quartile correspond la moyenne de la 20e et la 21e donne dans la
srie ordonne :

( = FH =

264,5 + 264,5
= 264,5
2

Calcul du troisime quartile ~

Le rang

est tel que :

3
n
4

3
= 40 = 30
4

soit :

Le premier quartile correspond la moyenne de la 30e et la 31e donne dans la


srie ordonne :

2.7.

) =

266,2 + 266,4
= 266,3
2

Rgle pratique pour dtecter une valeur aberrante

Une valeur aberrante est une donne qui scarte de faon marque de lensemble
des donnes. Une rgle pratique utilise pour identifier une valeur aberrante est
la suivante :

moins 1,5 au-dessus du troisime quartile ou en-dessous du premier quartile.

Une donne peut tre appele valeur aberrante si elle scarte dune distance dau

Une valeur aberrante doit tre examine avec soin pour identifier la cause
ventuelle de cet cart important par rapport lensemble des donnes. Les
valeurs aberrantes affectent la moyenne arithmtique.

Exercice
En se rfrant aux donnes de lexercice prcdent, dtecter les valeurs
aberrantes sil y a lieu.
On a trouv :

Par Jol M. ZINSALO

= 262,25 w ) = 266,3
Page 43

Biomtrie
Lintervalle interquartile qui contient 50% des donnes du centre de la
distribution est :

= ) = 4,05 w 1,5 = 6,075

si elle est suprieure 1,5 = 262,25 6,075 = 256,175


Ainsi, on peut dclarer une donne aberrante :

si elle est suprieure ) + 1,5 = 266,3 + 6,075 = 272,375


ou

On constate que les deux valeurs extrmes 255,8 et 272,9 peuvent tre dclares
valeurs aberrantes.

Par Jol M. ZINSALO

Page 44

Biomtrie
Chapitre 4 :
STATISTIQUE A DEUX VARIABLES CORRELATION

1. Corrlation entre deux variables


Jusqu' prsent, nous nous sommes intresss des questions du type:
quelle est la taille moyenne des garons bninois gs d'une vingtaine
d'annes ?
quelle est la probabilit pour qu'un mdicament soit efficace ?
quel pourcentage de voix un parti politique recueillera-t-il aux prochaines
lections ?
quelle fraction des barres mtalliques produites par une usine sera-t-elle
rejete par le client ?
le poids moyen des pains produits dans une boulangerie est-il suprieur
800 grammes ?
Dans toutes ces questions, nous tudions le comportement statistique d'une
seule variable: taille, efficacit du mdicament, pourcentage de voix, longueur des
barres, poids des pains.
Il existe cependant toute une gamme de problmes statistiques o l'on s'intresse
la relation entre plusieurs variables.
Exemples:
les individus les plus grands sont-ils les plus lourds ?
le revenu d'une famille a-t-il une influence sur les rsultats scolaires des
enfants ?
y a-t-il une relation entre le tabagisme et les cancers du poumon ?
le rendement en crales dpend-il de la quantit d'engrais utilise ?
la productivit d'une entreprise est-elle lie au salaire des ouvriers ou
employs ?
Dans ces questions, nous dsirons savoir si le comportement d'une variable est
influenc par la valeur d'une autre variable:
taille

poids

revenu

rsultats

tabagisme

cancer

rendement

engrais

La relation peut tre causale ou non.


Par Jol M. ZINSALO

Page 45

Biomtrie
Pour tudier les relations ou corrlations entre deux variables statistiques, on
peut les porter sur un graphique.
Exemple: relation entre la taille et le poids des individus
pour chaque individu de l'chantillon, on porte sur un graphique:
sa taille en abscisse (l'abscisse d'un point correspond sa projection sur l'axe
horizontal)
son poids en ordonne (l'ordonne d'un point correspond sa projection sur
l'axe vertical)
chaque individu est donc, dans ce graphique, reprsent par un point (point
reprsentatif)
soit un individu mesurant 172 cm et pesant 66 kg:

70
p
66
o
i
d 60
s
(kg)

point reprsentatif

50
150

160

170

172

180

taille (cm)
Dans le graphe, il y aura donc autant de points qu'il y a d'individus dans
l'chantillon.

p
o 80
i
d 70
s
(kg) 60
50
150

.
.
. . .
.. . . . .
.
. .. . . . .
. . .. . . .
. .

170
180
190
200
taille (cm)
Relation entre le poids et la taille dans un chantillon de 30 individus.
Par Jol M. ZINSALO

160

Page 46

Biomtrie
On peut (par la pense ou rellement) tracer une droite qui passe au mieux par
ces points (au milieu du "nuage" de points).
Si cette droite "monte", on dira qu'il y a corrlation positive entre les deux
variables.
Si elle "descend", c'est une corrlation ngative.
Si elle est "horizontale", ou si on ne peut pas dcider, c'est qu'il y a absence de
corrlation.
Corrlation positive:

.
.
. . .
.. . . . .
.
. .. . . . .
. . .. . . .
. .
x
Corrlation ngative:

. .. .
. . . .. .. . .
. . .
.
. . . .. . .
. .
.
.
.

.
x

Absence de corrlation:

Par Jol M. ZINSALO

Page 47

Biomtrie

. .. .
. .. . . . .

. .. . . . . .
.
.. . . . .
x

. .. . .
.
. . .. .. . . . .
. . .. . . . .
. . .
x

La qualit de la corrlation entre deux variables peut se mesure par la dispersion


des points autour de la relation moyenne.
Corrlation parfaite:

. .

..

x
Bonne corrlation (corrlation forte):

. .

. .

.. .

.
. ..

x
Mauvaise corrlation (corrlation faible):

Par Jol M. ZINSALO

Page 48

Biomtrie

.
. .
.

.
. .

.
.

.
x

Exemple:
1. Corrlation entre le poids et la taille pour les garons de 2me candidature
communication (1998).

100

.. . .
. .. ..
..
. .. ...... .
..
. . . ..
.. . .
.

p
o 80
i
d
s
(kg) 60

.
40
140

160
180
taille (cm)

200

On constate une augmentation du poids avec la taille (corrlation positive): les


garons les plus grands sont gnralement les plus lourds.
Mais la dispersion des points est assez grande: la corrlation est assez faible.
2. Corrlation entre le poids et la taille pour les filles de 2me candi. commu.

Par Jol M. ZINSALO

Page 49

Biomtrie

p
o 80
i
d
s
(kg) 60

40
140

. . ..... .
.
. .. .
.
.
. .. ... ....... .
. ..... . ..
...... ...
.
160
180
taille (cm)

200

On ne constate pas de relation entre le poids et la taille (absence de


corrlation): le poids des filles est indpendant de leur taille.
(Les filles les plus grandes sont donc les plus minces)

2. Mthode des moindres carrs


Si on se contente de tracer main leve la droite qui "passe au mieux" par les
points reprsentatifs, diffrentes personnes vont obtenir des rsultats diffrents.
Il existe une mthode mathmatique pour dterminer la "meilleure" droite: c'est la
mthode des moindres carrs.
Elle consiste, dans sa version la plus simple, trouver la droite qui minimise les
carrs des carts des points reprsentatifs cette droite.

d5
d3
d1

d4

d2

X
Par Jol M. ZINSALO

Page 50

Biomtrie
Trouver la droite telle que la somme des carrs des carts d1, d2, soit minimale:

d 2 = minimum
Soit

Y = aX + b
l'quation de la droite cherche (droite de rgression)
Les coefficients a et b peuvent tre calculs partir des formules suivantes:
Pente:
a=

(X

)( ) (
)( ) (
)(
(X X ) + (X X ) + L + (X X )

X . Y1 Y + X 2 X . Y2 Y + L + X n X . Yn Y
2

ou:

a=

( X X ).(Y Y )
(X X )2

Ordonne l'origine:

b = Y a. X
Rappels:
1
X
n
1
Y = Y
n
X=

3. Coefficient de corrlation
Le signe de la pente a donne le sens de corrlation, mais pas sa qualit.
a>0

corrlation positive

a<0

corrlation ngative

a=0

pas de corrlation

La qualit de la corrlation peut tre mesure par un coefficient de corrlation r


r=

( X X ).(Y Y )
2
( X X ) (Y Y ) 2

Le coefficient de corrlation est compris entre 1 et +1.


Par Jol M. ZINSALO

Page 51

Biomtrie
Plus il s'loigne de zro, meilleure est la corrlation
r = +1

corrlation positive parfaite

r = 1

corrlation ngative parfaite

r=0

absence totale de corrlation

Quelques exemples de corrlation


(le coefficient de corrlation r est indiqu dans chaque cas)

Par Jol M. ZINSALO

Page 52

Biomtrie
Exemples:
1. Supposons un chantillon alatoire de 4 firmes pharmaceutiques prsentant
les dpenses de recherche X et les profits Y suivants (en milliers de dollars):
X

40

50

40

60

30

40

50

50

Trouvez la droite de rgression et le coefficient de corrlation.


Calculons tout d'abord X et Y:
X =

1
1
160
X = (40 + 40 + 30 + 50 ) =
= 40

n
4
4

Y=

1
1
200
Y = (50 + 60 + 40 + 50 ) =
= 50

n
4
4

Compltons le tableau suivant:

(X X )2 (Y Y )2

(X X ) .(Y Y )

XX

Y Y

40

50

40

60

+10

+100

30

40

10

10

+100

+100

+100

50

50

+10

+100

On a donc:

(X X ) = 200
2
(Y Y ) = 200
(X X )(. Y Y ) = 100
2

Les coefficients de la droite de rgression sont:


a=

(X X )(. Y Y ) = 100 = 0,5


2
200
(X X )

b = Y a. X = 50 0,5 40 = 50 20 = 30

Et le coefficient de corrlation:

Par Jol M. ZINSALO

Page 53

Biomtrie

r=

(X X )(. Y Y )
2
2
(X X ) (Y Y )

100
200 200

100
= 0,5
200

La corrlation est positive et de qualit moyenne

Y
60

50
40
30

40

50

60

2. La corrlation entre la taille (X) et le poids (Y) pour les garons de 2me candi.
commu. donne les rsultats suivants:
(a)

droite de rgression Y = aX + b
a = 0,816

(b)

b = -77,0

coefficient de corrlation
r = 0,61

la corrlation est donc positive, de qualit moyenne


3. De la mme manire, pour les filles, on obtient:
(a)

droite de rgression
a = 0,239

(b)

b = 16,6

coefficient de corrlation
r = 0,20

la corrlation est positive (les filles les plus grandes tendent tre les plus
lourdes), mais de trs mauvaise qualit (r proche de zro).
Remarques:
1. Le coefficient de corrlation nous donne des informations sur l'existence d'une
relation linaire (sous forme d'une droite) entre les deux grandeurs
considres.
Un coefficient de corrlation nul ne signifie pas l'absence de toute relation
entre les deux grandeurs. Il peut exister une relation non linaire entre elles.

Par Jol M. ZINSALO

Page 54

Biomtrie
(cf. exemple (f) ci-dessus: la connaissance de X nous donne des informations
sur la valeur de Y).
2.

Il ne faut pas confondre corrlation et relation causale.


Une bonne corrlation entre deux grandeurs peut rvler une relation de
cause effet entre elles, mais pas ncessairement.
Exemples:
1. Si on compare la dure de vie des individus la quantit de mdicaments
pour le cur qu'ils ont absorbe, on observera probablement une
corrlation ngative. Il serait imprudent de conclure que la prise de
mdicaments pour le cur abrge la vie des individus
(en fait, dans ce cas, la corrlation est l'indice d'une cause commune: la
maladie de cur).
2. Le soleil tire son nergie de ractions nuclaires transformant l'hydrogne
en hlium. Notre socit tire une bonne part de son nergie de la
combustion du ptrole. Si on compare, anne aprs anne, la quantit
d'hlium contenue dans le soleil au prix moyen du ptrole, on obtiendra
une bonne corrlation positive, sans qu'il y ait la moindre relation de
cause effet, ni aucune cause commune.
3. Depuis une dizaine d'annes, la taille de mon fils cadet, n en 1989, est
trs bien corrle avec la puissance de calcul des ordinateurs personnels.
Cette excellente corrlation ne rvle bien videmment aucune relation de
cause effet, ni cause commune.
L'existence d'une corrlation, aussi bonne soit elle, n'est jamais la preuve d'une
relation de cause effet.

Par Jol M. ZINSALO

Page 55

Biomtrie

CHAPITRE 5

ESTIMATION

Un phnomne sera entirement dtermin si lon connat la loi de probabilit suivie par la variable
alatoire donne dans la population. On a alors deux cas de figure :
-

soit la loi de probabilit suivie par X est connue a priori et on vrifie a posteriori que les
observations faites partir dun chantillon sont en accord avec elle. Cest le cas par exemple de
la rpartition des gnotypes attendus dans une population sous le modle de Hardy-Weinberg.
On effectue alors un test dajustement entre la distribution thorique et la distribution
observe.

soit la loi de probabilit suivie par X est inconnue mais suggre par la description de
lchantillon (nature de la variable, forme de la distribution des frquences, valeurs des
paramtres descriptifs). Dans ce cas, il est ncessaire destimer les paramtres de la loi de
probabilit partir des paramtres tablis sur lchantillon.

Linfrence statistique traite principalement de ces deux types de problmes : lestimation de


paramtres (esprance, variance, probabilit de succs) et les tests dhypothses.
Linfrence statistique ne conduit jamais une conclusion stricte, elle attache toujours une
probabilit cette conclusion. Cela provient du fait que lon tente de tirer des conclusions sur une
population (grand nombre dindividus) sur la base des observations ralises sur un chantillon,
reprsentant une portion restreinte de la population.
Lestimation a pour objectif de dterminer les valeurs inconnues des paramtres de la population
(p, , 2) ou (proportion, moyenne, variance) partir des donnes de lchantillon ? , , v ( @. Il
est alors ncessaire de dterminer la prcision de ces estimations en tablissant un intervalle de
confiance autour des valeurs prdites.
Les statistiques infrentielles ou inductives peuvent se rsumer par le schma suivant :

Par Jol M. ZINSALO

Page 56

Biomtrie

1. Distribution dchantillonnage
Pour rsoudre les problmes destimation de paramtres inconnus, il faut tout dabord tudier les
distributions dchantillonnage, cest dire la loi de probabilit suivie par lestimateur.
Remarque :
En thorie de lestimation, il sagit de distinguer soigneusement trois concepts diffrents :

les paramtres de la population comme la moyenne dont la valeur est certaine mais
inconnue symboliss par des lettres grecques

les rsultats de lchantillonnage comme la moyenne x dont la valeur est certaine mais connue
symboliss par des minuscules.

les variables alatoires des paramtres, comme la moyenne alatoire X dont la valeur est
incertaine puisque alatoire mais dont la loi de probabilit est souvent connue et symbolises
par des majuscules.
1.1. Dfinition
1.1.1. Approche empirique

Il est possible dextraire dune population de paramtres p, ou 2 pour une variable alatoire X,
k chantillons alatoires simples de mme effectif, n. Sur chaque chantillon de taille n, on calcule
les paramtres descriptifs ? , , v ( @.

Par Jol M. ZINSALO

Page 57

Biomtrie

On obtient ainsi pour chaque paramtre estim, une srie statistique compose de k lments
savoir les k estimations du paramtre tudi. Par exemple, on aura k valeurs de moyennes observes
(graphe ci-dessus).
La distribution associe ces k estimations constitue la distribution dchantillonnage du
paramtre. On peut alors associer une variable alatoire chacun des paramtres. La loi de
probabilit suivie par cette variable alatoire admet comme distribution, la distribution
dchantillonnage du paramtre auquel on pourra associer une esprance et une variance.

1.1.2. Approche thorique


En pratique, les donnes tudies sont relatives un seul chantillon. Cest pourquoi, il faut
rechercher les proprits des chantillons susceptibles dtre prlevs de la population ou plus
prcisment les lois de probabilit de variables alatoires associes un chantillon alatoire.

Par Jol M. ZINSALO

Page 58

Biomtrie
Ainsi les n observations x1 , x2 ,, xi , , xn, faites sur un chantillon peuvent tre considres
comme n variables alatoires X1 , X2 ,, Xi , , Xn. En effet, la valeur prise par le premier lment
extrait de la population X1, dpend de lchantillon obtenu lors du tirage alatoire.
Cette valeur sera diffrente si lon considre un autre chantillon. Il en est de mme pour les n
valeurs extraites de la population.
A partir de ces n variables alatoires, on peut dfinir alors une nouvelle variable qui sera fonction de
ces dernires telle que :
Y = f(X1, X2,, Xi , , Xn )
par exemple : Y = X1 + X2++ Xi +. Xn
Ainsi la loi de probabilit de la variable alatoire Y dpendra la fois de la loi de probabilit de la
variable alatoire X et de la nature de la fonction f.

1.2. Loi de probabilit de la moyenne


1.2.1. Dfinition
Soit X une variable alatoire suivant une loi normale desprance et de variance 2 et n copies
indpendantes X1,X2,,Xi,,Xn telle que Xi associe le ime lment de chacun des n chantillons
avec E(Xi) = et V(Xi) = 2.

e , telle que :
On construit alors la variable alatoire
g =

avec pour esprance :

1
k?g@ = k 3

Do :
k?g@ est galement not g .
et pour variance :

m?g@ est galement not (g .


Par Jol M. ZINSALO

1 + 2 + . . [ + . . . +
1

[4 = k 3

[4 =

1
=

[
1

k?[@ = =

k?g@ =

m?g@ =

Page 59

Biomtrie

La loi de probabilit de la variable alatoire g, moyenne de n v.a. X de loi de probabilit


N( , ), est une loi normale 5 1,

2.

est plus faible que la variance de la variable elle-mme ( .

Remarque : il est ais de voir sur le graphe ci-dessous que la variance associe une moyenne

Soit ltendue des valeurs observes dune variable alatoire


X pour 4 chantillons de mme taille dune mme population.
Les valeurs des moyennes arithmtiques sont indiques ainsi
que les limites relatives ltendue des valeurs de la variable
observe et celle des moyennes observes.

1.2.2. Convergence
En fonction de la nature de la variable alatoire continue X, de la taille de lchantillon n et de la
connaissance que nous avons sur le paramtre 2, la variable centre rduite construite avec X
converge vers diffrentes lois de probabilit (Table de convergence).
Effectif de

Loi de X

Ecart-type

Loi rduite

Loi de

lchantillon
Quelconque

Connu

N( ,

n 30
Inconnu
N( ,

N(0,1)

N(0,1)

Inconnue

Quelconque
n 30

Connu
N( ,
Normale

N(0,1)

Inconnu
T (n-1 ddl)

Par Jol M. ZINSALO

Page 60

Biomtrie
Lorsque la variance 2 est connue et n grand (n 30), on se trouve dans les conditions du
thorme central limite et la loi suivie par :

g
/

N?0,1@

Ceci reste vrai lorsque n 30 seulement si la loi suivie par X suit une loi normale. Lorsque la
variance 2 est inconnue et X suit une loi normale, la loi suivie par la variable centre rduite est
alors :

1 1 degrs de libert

Lorsque n 30, la loi de student tend vers une loi normale rduite (voir convergence).

Lorsque la variance 2 est inconnue et X ne suit pas une loi normale, la loi suivie par :

nest pas connue.

1.3.

Loi de probabilit dune frquence

Soit une population dans laquelle une proportion p des individus prsente une certaine proprit.
Si k est le nombre dindividu prsentant la proprit dans un chantillon de taille n, alors la variable
alatoire K rsultant de diffrents chantillonnages suit une loi binomiale B(n,p) avec E(K) = np et
V(K) = npq.
On construit la variable alatoire :

avec
pour esprance :

et pour variance :

Par Jol M. ZINSALO

8=

1
1
k?8@ = E q r = k?@ = =

1
1

m?8@ = V q r = ( k?@ = ( =

Page 61

Biomtrie

La loi de probabilit dune frquence

, suit une loi normale 5 q, r vrai si np > 5 et nq > 5.


$

2. Estimateur
2.1. Dfinition
Soient X1 , X2 ,, Xi , , Xn , n ralisations indpendantes de la variable alatoire X (discrte ou
continue) et un paramtre associ la loi de probabilit suivi par X, un estimateur du paramtre

est une variable alatoire fonction des Xi : = f (X1 , X2 ,, Xi , , Xn).


Si on considre n observations x1 , x2 ,, xi , , xn, lestimateur fournira une estimation de
note galement :
= ?

1 ,

2 , ,

[ , ,

Lestimation dun paramtre inconnu, not est fonction des observations rsultant dun
chantillonnage alatoire simple de la population. Lestimateur est donc une nouvelle variable
alatoire construite partir des donnes exprimentales et dont la valeur se rapproche du paramtre
que lon cherche connatre.
Lestimation de est une variable alatoire dont la distribution de probabilit sappelle la
distribution dchantillonnage du paramtre .
Lestimateur admet donc une esprance E() et une variance V().
2.2. Proprits
2.2.1. Convergence
Lestimateur doit tendre vers la valeur relle du paramtre lorsque le nombre dindividus
tudi augmente. On dit que lestimateur est convergent.
Si > 0

P( > ) 0

lorsque n

Ceci quivaut dire quen limite lorsque n .

2.2.2. Biais dun estimateur


Le biais dun estimateur not B() est la diffrence moyenne entre sa valeur et celle du paramtre
quil estime. Le biais doit tre gal 0 pour avoir un bon estimateur.
B() = E(-) = E()-E() = E()- = 0
do E() = .
Ainsi lestimateur sera sans biais si son esprance est gale la valeur du paramtre de la
population.
Par Jol M. ZINSALO

Page 62

Biomtrie
E() =
Exemple :
Soit les densits de probabilit de 3 estimateurs dune esprance ,

1 et 2 sont des estimateurs sans biais de car E(1) = E(2) =


3 est un estimateur biais de car E(3) - = - 0
Dans lexemple ci-dessus, 1 et 2 sont des estimateurs sans biais de car B(1) = E(1-
) = E(1) - = 0 car E(1) = , de mme pour B(2) alors que 3 est un estimateur biais
de car B(3) = E(3 - ) = E(3) - = - 0 car E(3) =
Remarque : Un estimateur est asymptotiquement sans biais si E() lorsque n

2.2.3. Variance dun estimateur

Si deux estimateurs sont convergents et sans biais, le plus efficace est celui qui a la variance la
plus faible car ses valeurs sont en moyenne plus proches de la quantit estime.
V() = E( - E())2 minimale

Exemple
Dans lexemple prcdent, on voit que V(1) < V(2). On peut donc conclure que 1 est un
meilleur estimateur de que 2.
Par Jol M. ZINSALO

Page 63

Biomtrie
Remarque : Quand les estimateurs sont biaiss, en revanche, leur comparaison nest pas simple.
Ainsi un estimateur peu biais mais de variance trs faible, pourrait mme tre prfr un
estimateur sans biais mais de grande variance.

Thorme :
Si un estimateur est asymptotiquement sans biais et si sa variance tend vers 0 lorsque n , il est
convergent.

P( )

V ( )
avec >0
2

(Ingalit de Bienaym-Tchbycheff)

- | tend vers 0 quand n augmente, V(


) doit aussi tendre vers
Cette ingalit exprime que si |
0.

3. Estimation ponctuelle et par intervalle


Lestimation dun paramtre quelconque est ponctuelle si lon associe une seule valeur
lestimateur partir des donnes observables sur un chantillon alatoire. Lestimation par
intervalle associe un chantillon alatoire, un intervalle [ , ] qui recouvre avec une
1

certaine probabilit.
3.1. Estimation ponctuelle
Si la distribution de la variable alatoire X est connue, on utilise la mthode du maximum de
vraisemblance pour estimer les paramtres de la loi de probabilit. En revanche si la distribution
nest pas connue, on utilise la mthode des moindres carrs.

3.1.1. Esprance
Soit X une variable alatoire continue suivant une loi normale N(,) dont la valeur des
paramtres nest pas connue et pour laquelle on souhaite estimer lesprance .
Soient X1 , X2 ,, Xi , , Xn , n ralisations indpendantes de la variable alatoire X, un estimateur
du paramtre est une suite de variable alatoire fonctions des Xi :

= f (X1 , X2 ,, Xi , , Xn)

Par Jol M. ZINSALO

Page 64

Biomtrie
La mthode des moindres carrs consiste rechercher les coefficients de la combinaison linaire
= a1X1 + a2X2 ++ aiXi + + anXn
telle que E () = et V() soit minimale.
La moyenne arithmtique constitue le meilleur estimateur de , esprance de la loi de
probabilit de la variable alatoire X :

= X =

1 n
Xi
n i =1

3.1.2. Variance
Soit X une variable alatoire continue suivant une loi normale N (,) pour laquelle on souhaite
estimer la variance 2.
Soient X1 , X2 ,, Xi , , Xn , n ralisations indpendantes de la variable alatoire X, un estimateur
du paramtre 2 est une suite de variable alatoire fonctions des Xi :
= f (X1 , X2 ,, Xi , , Xn)
Cas o lesprance est connue
La mthode des moindres carrs consiste rechercher les coefficients de la combinaison linaire
= a1(X1 - )2 + a2(X2 - )2 ++ ai(Xi- )2 ++ an ( Xn- )2
telle que E () = 2 et V() soit minimale.

La variance observe constitue le meilleur estimateur de 2, variance de la loi de probabilit de


la variable alatoire X lorsque lesprance est connue :

2 =

1 n
( X i ) 2

n i =1

Remarque : Cette estimation de la variance de la population est rarement utilise dans la mesure
o si la variance 2 nest pas connue, lesprance ne lest pas non plus.
Cas o lesprance est inconnue
Dans ce cas, nous allons estimer avec = X et dans ce cas

(X
i =1

Par Jol M. ZINSALO

) ( X i X) 2
2

i =1

Page 65

Biomtrie
On montre que s2 et 2 sont lis par la relation :

s2 =

n1 2

Le meilleur estimateur de 2, variance de la loi de probabilit de la variable alatoire X

lorsque

lesprance est inconnue est :

2 =

n 2
1 n
s =
( X i X) 2

n1
n 1 i =1

Remarque : Lorsque n augmente, la variance observe s2 tend vers la variance de la population 2.

lim s 2 = lim

n +

n +

n1 2
= 2
n

3.1.3. Frquence
Soit le schma de Bernoulli dans lequel le caractre A correspond au succs. On note p la frquence
des individus de la population possdant le caractre A. La valeur de ce paramtre tant inconnu,
on cherche estimer la frquence p partir des donnes observables sur un chantillon.
A chaque chantillon non exhaustif de taille n, on associe lentier k, nombre dindividus possdant
le caractre A.
Soit K une variable alatoire discrte suivant une loi binomiale B(n,p) et pour laquelle on souhaite
estimer la frquence p.
La frquence observe du nombre de succs observ dans un chantillon de taille n constitue le
meilleur estimateur de p :
p =

K
n

Remarque : Nous avions dj avanc cette proprit lors de ltablissement de la loi des grands
nombres.
Exemple :
On a prlev au hasard, dans une population de lapin, 100 individus. Sur ces 100 lapins, 20 sont
atteints par la myxomatose. Le pourcentage de lapins atteints par la myxomatose dans la population
est donc :
p =

K
20
= 0,2 soit 20% de lapins atteints dans la population.
=
n 100

Ce rsultat naura de signification que sil est associ un intervalle de confiance.

Par Jol M. ZINSALO

Page 66

Biomtrie
3.2. Estimation par intervalle
3.2.1. Dfinition
Lestimation par intervalle associe un chantillon alatoire, un intervalle [ 1 , 2 ] qui recouvre
avec une certaine probabilit.
Cet intervalle est appel lintervalle de confiance du paramtre car la probabilit que dont
la valeur est inconnue se trouve compris entre et est gale 1-, le coefficient de
1

confiance
p( 1 < < 2 ) = 1

Son complment correspond au coefficient de risque.


p ( [ , ] ) =
1

Un intervalle de confiance indique la prcision dune estimation car pour un risque donn,
lintervalle est dautant plus grand que la prcision est faible comme lindiquent les graphes cidessous. Pour chaque graphe, laire hachure en vert correspond au coefficient de risque .
Ainsi de part et dautre de la distribution, la valeur de

.
laire hachure vaut
2

= 0,01
99 chances sur 100 que la valeur du paramtre
recherch se trouve dans lintervalle de confiance mais
la prcision autour de la valeur prdite est faible.

= 0,05
95 chances sur 100 que la valeur du paramtre
recherch se trouve dans lintervalle de
confiance et la prcision autour de la valeur
prdite est correcte.

= 0,10
90 chances sur 100 que la valeur du paramtre
recherch se trouve dans lintervalle de confiance mais
la prcision autour de la valeur prdite est leve.

Par Jol M. ZINSALO

Page 67

Biomtrie
une valeur du coefficient de confiance 1 - donne par lexprimentateur.

3.2.2. Intervalle de confiance de la moyenne


Lintervalle de confiance de la moyenne pour un coefficient de risque est donc

< < X +

quelque soit la valeur de n si X N( , ) et la variance 2 est connue.


Exemple :
Pour des masses comprises entre 50g et 200g, une balance donne une pese avec une variance de
0,0015. Les rsultats des trois peses dun mme corps sont : 64,32 ; 64,27 ; 64 ,39.
On veut connatre le poids moyen de ce corps dans la population avec un coefficient de confiance
de 99%.
avec X = 64,33g = 64,33g et = 2,576 alors

= 2,576

0,039
= 0,058
1,732

et donc

= X

= 64,33 0,058

do le poids moyen de ce corps est compris dans lintervalle [64,27 ; 64,39] avec une probabilit
de 0,99.
Remarque : La valeur de est donne par la table de lcart-rduit pour une valeur
donne.

Coefficient de risque

Ecart-rduit

= 0,01

= 2,576

= 0,05
= 0,10

= 1,960
= 1,645

Quelle que soit la valeur de n, si X N( , ) et 2 est inconnue,


Par Jol M. ZINSALO

Page 68

Biomtrie
Le raisonnement reste le mme mais la variance de la population 2 doit tre estime par :
2 =

n 2
s
n1

(voir estimation ponctuelle)

Si p( X i < < X + i ) = 1 alors p( i < X < + i ) = 1


Connaissant la loi suivie par la v. a. X et celle suivie par la variable centre rduite, on peut tablir
que

p(

i
/ n

par consquent

<

X
+i
X
) = 1 sachant que
T(n 1 d.d.l.)
<
/ n / n
/ n

i
/ n

correspond la valeur de la variable de student pour une valeur de

probabilit donne note t pour n -1 degrs de libert.


Ainsi

i
/ n

= t implique i = t

Lintervalle de confiance de lesprance pour un coefficient de risque est donc

X t

< < X + t

Quelle que soit la valeur de n si X N( , ) et 2 est inconnue

Remarque : Lorsque n > 30, la loi de student converge vers une loi normale rduite. Ainsi la
valeur de t (n-1) est gale . Ci-dessous, un exemple pour un risque = 0,05.

Taille de lchantillon
n=10
n=20
n=30
n=40

Par Jol M. ZINSALO

Ecart-rduit

Variable de student

=1,960

t=2,228

=1,960

t=2,086

=1,960

t=2,042

=1,960

t=1,960

Page 69

Biomtrie
Exemples :
(1) Dans un chantillon de 20 tudiants de mme classe dge et de mme sexe, la taille moyenne
observe est de 1,73m et lcart-type de 10 cm. La taille moyenne de lensemble des tudiants de
luniversit est donc :
avec ; x = 1,73m ; 2 =

Do t

n 2 20
s =
0,01 = 0,011 et t = 2,086
n1
19

0,011

= 1,73m 0,049
= 1,960
= 0,049 ; ainsi = X
20
n
n

La taille moyenne des tudiants dans la population est comprise dans lintervalle [1,68 ; 1,78]
avec une probabilit de 0,95.
(2) Dans un chantillon de 100 tudiants, la taille moyenne de la population est :
x = 1,73m ; 2 =

Do

n 2 100
s =
0,01 = 0,01 et = 1,960
n1
99

0,010

= 1,960
= 0,02 ; ainsi = X
= 1,73m 0,02
100
n
n

La taille moyenne des tudiants dans la population est comprise dans lintervalle [1,71 ; 1,75] avec
une probabilit de 0,95.
Ainsi lorsque la taille de lchantillon augmente pour un mme coefficient de confiance (1)
lestimation autour de est plus prcise.
Si n > 30 et X suit une loi inconnue,
La dmarche est la mme que pour le cas prcdent puisque par dfinition la variance de la
population est inconnue et doit tre estime avec la variance observe :
2 =

n 2
s
n1

Comme pour le cas 1, la loi suivie par la variable centre rduite

X
N(0,1)
/ n
Lintervalle de confiance de lesprance pour un coefficient de risque est donc :

Par Jol M. ZINSALO

< < X +

Page 70

Biomtrie
vraie seulement si n est grand.
Si n < 30 et X suit une loi inconnue,
La loi de probabilit suivie par

X
nest pas connue et lon a recours aux statistiques non
/ n

paramtriques.
3.2.3. Intervalle de confiance dune proportion
Etablir lintervalle de confiance autour de la frquence p de la population partir de son estimateur
K
revient tablir la valeur de i pour une valeur du coefficient de confiance (1 - ) donne par
n
lexprimentateur telle que :
P(

K
K
K
i<p<
+ i ) = 1 ou P(p i <
< p + i) = 1
n
n
n

Connaissant la loi suivie par la v. a.

K
et daprs le thorme central limite, on peut tablir que
n

K
p
+i
P(
<
) = 1 sachant que
< n
pq
pq
pq
n
n
n
i

par consquent

pq
n

K
p
n
N(0,1)
pq
n

correspond la valeur de la variable normale rduite pour probabilit

donne note ou cart rduit.

Ainsi

i
pq
n

Par dfinition, v(

= implique i =

pq
n

K
pq
pq
K
nK
nest pas connue et on lestime par
avec p =
et q =
)=
n
n
n
n
n

Lintervalle de confiance de la frquence p pour un coefficient de risque est donc

K
pq
K
pq

vraie seulement si n est grand et np, nq > 5
< p < +
n
n
n
n
Remarque : Si la taille de lchantillon est faible, on a recours aux lois exactes.
Par Jol M. ZINSALO

Page 71

Biomtrie
Exemple : Un laboratoire dagronomie a effectu une tude sur le maintien du pouvoir germinatif
des graines de Papivorus subquaticus aprs une conservation de 3 ans.
Sur un lot de 80 graines, 47 ont germ. Ainsi la probabilit de germination des graines de Papivorus
subquaticus aprs trois ans de conservation avec un coefficient de confiance de 95% est donc :
avec p =

alors

K
47
=
= 0,588
n
80

q =

n K
33
=
0,412
n
80

et

= 1,96 ;

pq
0,588 0,412
= 1,96
= 0,108 d' o p = 0,588 0,108
n
80

ainsi la probabilit de germination est comprise dans lintervalle [0,480 ; 0,696] avec une
probabilit de 0,95.

Par Jol M. ZINSALO

Page 72

Biomtrie

Chapitre 6

TESTS DHYPOTHESE

Un test dhypothse est un procd dinfrence permettant de contrler (accepter ou rejeter)


partir de l'tude d'un ou plusieurs chantillons alatoires, la validit dhypothses relatives une ou
plusieurs populations. Les mthodes de linfrence statistique nous permettent de dterminer,
avec une probabilit donne, si les diffrences constates au niveau des chantillons peuvent tre
imputables au hasard ou si elles sont suffisamment importantes pour signifier que les chantillons
proviennent de populations vraisemblablement diffrentes.
Les tests dhypothses font appel un certain nombre dhypothses concernant la nature de la
population dont provient lchantillon tudi (normalit de la variable, galit des variances, etc).
En fonction de lhypothse teste, plusieurs types de tests peuvent tre raliss :

Les tests destins vrifier si un chantillon peut tre considr comme extrait dune
population donne, vis--vis d'un paramtre comme la moyenne ou la frquence observe
(tests de conformit) ou par rapport sa distribution observe (tests dajustement). Dans
ce cas la loi thorique du paramtre est connue au niveau de la population. Est-ce que le
taux de glucose moyen mesur dans un chantillon dindividus traits est conforme au taux
de glucose moyen connu dans la population ? (test de conformit) Est-ce que la distribution
des frquences gnotypiques observes pour un locus donn est conforme celle attendue
sous l'hypothse du modle de Hardy-Weinberg ? (test dajustement).

Les tests destins comparer plusieurs populations laide dun nombre quivalent
dchantillons (tests dgalit ou dhomognit) sont les plus couramment utiliss. Dans
ce cas la loi thorique du paramtre est inconnue au niveau des populations. On peut
ajouter cette catgorie le test dindpendance qui cherche tester lindpendance entre
deux caractres, gnralement qualitatifs. Y a-t-il une diffrence entre le taux de glucose
moyen mesur pour deux chantillons dindividus ayant reu des traitements diffrents ?
(tests dgalit ou dhomognit). Est-ce que la distribution des frquences gnotypiques
observes pour un locus donn est indpendante du sexe des individus ? (test
dindpendance).

Par Jol M. ZINSALO

Page 73

Biomtrie
1. Principe des tests
Le principe des tests dhypothse est de poser une hypothse de travail et de prdire les
consquences de cette hypothse pour la population ou lchantillon. On compare ces prdictions
avec les observations et lon conclut en acceptant ou en rejetant lhypothse de travail partir de
rgles de dcisions objectives.
Dfinir les hypothses de travail, constitue un lment essentiel des tests d'hypothses de mme que
vrifier les conditions d'application de ces dernires (normalit de la variable, galit des variances
ou homoscdasticit, etc).
Diffrentes tapes doivent tre suivies pour tester une hypothse :
(1) dfinir lhypothse nulle (note H0) contrler,
(2) choisir un test statistique ou une statistique pour contrler H0,
(3) dfinir la distribution de la statistique sous lhypothse H0 est ralise ,
(4) dfinir le niveau de signification du test ou rgion critique note ,
(5) calculer, partir des donnes fournies par lchantillon, la valeur de la statistique
(6) prendre une dcision concernant lhypothse pose et faire une interprtation
1.1.

Choix de lhypothse tester

1.1.1. Hypothse nulle et hypothse alternative


Lhypothse nulle note H0 est lhypothse que lon dsire contrler : elle consiste dire quil
nexiste pas de diffrence entre les paramtres compars ou que la diffrence observe nest pas
significative et est due aux fluctuations dchantillonnage.
Cette hypothse est formule dans le but dtre rejete.
Lhypothse alternative note H1 est la ngation de H0, elle est quivalente dire H0 est fausse
. La dcision de rejeter H0 signifie que H1 est ralise ou H1 est vraie.

Remarque : Il existe une dissymtrie importante dans les conclusions des tests. En effet, la
dcision daccepter H0 nest pas quivalente H0 est vraie et H1 est fausse . Cela traduit
seulement lopinion selon laquelle, il ny a pas dvidence nette pour que H0 soit fausse.
Un test conduit rejeter ou ne pas rejeter une hypothse nulle jamais laccepter demble.

Par Jol M. ZINSALO

Page 74

Biomtrie
1.1.2. Test unilatral ou bilatral
La nature de H0 dtermine la faon de formuler H1 et par consquence la nature unilatrale ou
bilatrale du test.
Test bilatral
Si H0 consiste dire que la population estudiantine avec une frquence de fumeurs p est
reprsentative de la population avec une frquence de fumeurs p0 , on pose alors :

H0 : p = p0 et H1 : p p0
H0 : p = p0 et H1 : p p0
Le test sera bilatral car on considre que la frquence p peut tre suprieure ou infrieure la
frquence p0 .
La rgion critique colorie correspond une probabilit

de part et dautre de la courbe.


2

Test unilatral
Si lon fait lhypothse que la frquence de fumeurs dans la population estudiantine p est suprieure
la frquence de fumeurs dans la population p0, on pose alors

H0 : p = p0 et H1 : p > p0

H0 : p = p0 et H1 : p > p0
Le test sera unilatral car on considre que la frquence p ne peut tre que suprieure la
frquence p0 .
La rgion critique colorie correspond une probabilit .
Le raisonnement inverse peut tre formul avec lhypothse suivante :
H0 : p = p0 et H1 : p < p0

Remarque : Seuls les tests bilatraux seront dvelopps dans le cours. Les tests unilatraux seront
traits au niveau des exemples.

Par Jol M. ZINSALO

Page 75

Biomtrie
1.2.

Choix dun test statistique

Ce choix dpend de la nature des donnes, du type dhypothse que lon dsire contrler, des
affirmations que lon peut admettre concernant la nature des populations tudies (normalit, galit
des variances) et dautres critres que nous prciserons.
Un test statistique ou une statistique est une fonction des variables alatoires reprsentant
lchantillon dont la valeur numrique obtenue pour lchantillon considr permet de distinguer
entre H0 vraie et H0 fausse.
Dans la mesure o la loi de probabilit suivie par le paramtre p0 au niveau de la population
en gnral est connue, on peut ainsi tablir la loi de probabilit de la statistique S telle que :
S = p p0

1.3.

(voir intervalle de confiance dune frquence)

Choix de la rgion critique et rgle de dcision

Connaissant la loi de probabilit suivie par la statistique S sous lhypothse H0 , il est possible
dtablir une valeur seuil, Sseuil de la statistique pour une probabilit donne appele le niveau de
signification du test : .
La rgion critique correspond lensemble des valeurs telles que : S > Sseuil

et le niveau de signification est telle que :


P(S > Sseuil) = avec P(S Sseuil) = 1
Selon la nature unilatrale ou bilatrale du test, la dfinition de la rgion critique varie.

Test unilatral
H0 : p=p0

Test bilatral
H0 :p=p0

Hypothse
Alternative

H1 : p > p0

H1 : p < p0

Valeur de S sous H1
S = p p0

S>0

S<0

s 0

P(S < Sseuil) =

p( s > S seuil ) =

Niveau de
signification

Par Jol M. ZINSALO

P(S > Sseuil) =

H1 : p p0

Page 76

Biomtrie
Il existe deux stratgies pour prendre une dcision en ce qui concerne un test dhypothse :
La premire stratgie fixe a priori la valeur du seuil de signification et la seconde tablit la
valeur de la probabilit critique obs a posteriori.
Rgles de dcision 1 :
Sous lhypothse H0 est vraie et pour un seuil de signification fix

si la valeur de la statistique S calcule (Sobs.) est suprieure la valeur seuil Sseuil


Sobs > Sseuil alors lhypothse H0 est rejete au risque derreur et lhypothse H1 est
accepte.

si la valeur de la statistique S calcule (Sobs.) est infrieure la valeur seuil Sseuil


Sobs Sseuil alors lhypothse H0 ne peut tre rejete.
Remarque : Le choix du risque est li aux consquences pratiques de la dcision : si les
consquences sont graves, on choisira = 1% ou 1, mais si le dbat est plutt acadmique, le
traditionnel = 5 % fera le plus souvent laffaire.
Rgles de dcision 2 :
La probabilit critique telle que P(S Sobs.) = obs est value
si obs 0,05 lhypothse H0 est accepte car le risque derreur de rejeter H0 alors quelle
est vrai est trop important.
si obs < 0,05 lhypothse H0 est rejete car le risque derreur de rejeter H0 alors quelle est
vrai est trs faible.

1.4.

Risques derreur, puissance et robustesse dun test


1.4.1.

Risque derreur de premire espce

Le risque derreur est la probabilit que la valeur exprimentale ou calcule de la statistique S


appartienne la rgion critique si H0 est vrai. Dans ce cas H0 est rejete et H1 est considre
comme vraie.
Le risque de premire espce est celui de rejeter H0 alors qu'elle est vraie
= P( rejeter H0 / H0 vraie)

Par Jol M. ZINSALO

Page 77

Biomtrie
ou accepter H1 alors quelle est fausse
= P( accepter H1 / H1 fausse)
La valeur du risque doit tre fixe a priori par lexprimentateur et jamais en fonction des
donnes. Cest un compromis entre le risque de conclure tort et la facult de conclure.
Remarque : Toutes choses tant gales par ailleurs, la rgion critique diminue lorsque
dcrot (voir intervalle de confiance) et donc on rejette moins frquemment H0. A vouloir
commettre moins derreurs, on conclut plus rarement.
Exemple :
Si lon cherche tester lhypothse quune pice de monnaie nest pas truque , nous allons
adopter la rgle de dcision suivante : (mettre image dune pice)
H0 : la pice nest pas truque est
accepte si X [40,60]
rejete si X [40,60] donc soit X < 40 ou X > 60
avec X nombre de faces obtenus en lanant 100 fois la pice.
Quel est le risque derreur de premire espce dans ce cas ?

1.4.2.

Risque derreur de deuxime espce

Le risque derreur est la probabilit que la valeur exprimentale ou calcule de la statistique


nappartienne pas la rgion critique si H1 est vrai. Dans ce cas H0 est accepte et H1 est
considre comme fausse.
Le risque de deuxime espce est celui daccepter H0 alors qu'elle est fausse
= P( accepter H0 / H0 fausse) ou P( accepter H0 / H1 vraie)
ou rejeter H1 alors quelle est vraie
= P( rejeter H1 / H1 vraie)
Remarque : Pour quantifier le risque , il faut connatre la loi de probabilit de la statistique S
sous lhypothse H1.
Exemple :
Si lon reprend lexemple prcdent de la pice de monnaie, la probabilit p dobtenir face est de
0,6 pour une pice truque. Si lon adopte toujours la mme rgle de dcision :

Par Jol M. ZINSALO

Page 78

Biomtrie
H0 : la pice nest pas truque est
accepte si X [40,60]
rejete si X [40,60] donc soit X < 40 ou X > 60
avec X nombre de faces obtenues en lanant 100 fois la pice.
Quel est le risque derreur de second espce dans ce cas ?
1.4.3. La puissance et la robustesse dun test (1 - )
Les tests ne sont pas faits pour dmontrer H0 mais pour rejeter H0 . Laptitude dun test
rejeter H0 alors quelle est fausse constitue la puissance du test.
La puissance dun test est : 1 - = P( rejeter H0 / H0 fausse) = P(accepter H1/H1 vraie).
La relation entre les deux risques derreur figure sur le graphe ci-dessous.

La puissance dun test est fonction de la nature de H1, un test unilatral est plus puissant qu'un
test bilatral.
La puissance dun test augmente avec taille de l'chantillon N tudi valeur de constant.
La puissance dun test diminue lorsque diminue.
Exemple :
Si lon reprend lexemple prcdent de la pice de monnaie, calculez la puissance du test lorsque la
probabilit dobtenir face est respectivement 0,3 - 0,4 - 0,6 - 0,7 -0,8 pour une pice truque. Que
constatez-vous ?
Les diffrentes situations que lon peut rencontrer dans le cadre des tests dhypothse sont rsumes
dans le tableau suivant :

Par Jol M. ZINSALO

Page 79

Biomtrie
Ralit
H0 vraie

H0 fausse

Dcision
Manque de puissance
Non rejet de H0

correct

Rejet de H0

Risque de seconde espce


Puissance du test

Rejet tort
Risque de premire espce

1-

La robustesse dune technique statistique reprsente sa sensibilit des carts aux hypothses
faites.
Exemple : Toute chose tant gale par ailleurs, que se passe-t-il si lhypothse de normalit nest
pas satisfaite ?
1.5.

Tests de conformit

Les tests de conformit sont destins vrifier si un chantillon peut tre considr comme
extrait dune population donne ou reprsentatif de cette population, vis--vis d'un paramtre
comme la moyenne, la variance ou la frquence observe. Ceci implique que la loi thorique du
paramtre est connue au niveau de la population.
1.5.1. Comparaison dune moyenne observe et dune moyenne thorique
1.5.1.1.

Principe du test

Soit X, une variable alatoire observe sur une population, suivant une loi normale et un
chantillon extrait de cette population.
Population connue
X N ( 0,
0)

Population inconnue
X N ( ,
)

Echantillonnage alatoire simple


Echantillon

Hypothses
H0 : =0 H1 : #0

Par Jol M. ZINSALO

Page 80

Biomtrie
Le but est de savoir si un chantillon de moyenne x , estimateur de , appartient une
population de rfrence connue desprance 0 (H0 vraie) et ne diffre de 0 que par des
fluctuations dchantillonnage ou bien appartient une autre population inconnue desprance
(H1 vraie).
Pour tester cette hypothse, il existe deux statistiques : la variance 02 de la population de rfrence
est connue (test ) ou cette variance est inconnue et il faut lestimer (test T).
1.5.1.2.

Variance de la population connue

1.5.1.2.1. Statistique du test


Soit X la distribution dchantillonnage de la moyenne dans la population inconnue suit une loi
2
).
n

normale telle que : X N ( ,

La statistique tudie est lcart : S = X - 0 dont la distribution de probabilit est la suivante


2
2
) avec sous H0, E(S) = 0 et V(S) =
n
n

S N ( ,

Nous pouvons tablir grce au thorme central limite la variable Z centre rduite telle que
Z=

S E(S )
V (S )

X 0

2
n

Sous H0 : = 0 avec 2 connue


Z=

X 0

2
n

suit une loi normale centre rduite N(0,1)

1.5.1.2.2. Application et Dcision


Lhypothse teste est la suivante :
H0 : = 0 contre H1 : 0
Une valeur z de la variable alatoire Z est calcule :
z=

x 0

2
n

note aussi obs

calcule (obs) est compare avec la valeur seuil lue sur la table
Par Jol M. ZINSALO

Page 81

Biomtrie
de la loi normale centre rduite pour un risque derreur fix (Rgle de dcision 1).
si obs > seuil lhypothse H0 est rejete au risque derreur : lchantillon appartient une
population desprance et nest pas reprsentatif de la population de rfrence desprance
0.
si obs seuil lhypothse H0 est accepte: lchantillon est reprsentatif de la population de
rfrence desprance 0.
1.5.2.
1.5.2.1.

Variance de la population inconnue

Statistique du test

La dmarche est la mme que pour le test mais la variance de la population ntant pas
connue, elle est estime par :
2 =

n 2
s (estimation ponctuelle).
n1

La statistique tudie est lcart : S = X - 0 dont la distribution de probabilit est la suivante


2
2
S N ( 0,
) avec E(S) = 0 et V(S) =
n
n

Nous pouvons tablir grce au thorme central limite la variable T centre rduite telle que
T=

S E(S )
V (S )

X 0

2
n

Sous H0 : = 0 avec 2 inconnue


T=

1.5.2.2.

X 0

2
n

suit une une loi de Student n-1 degrs de libert.

Application et Dcision

Lhypothse teste est la suivante :


H0 : = 0 contre H1 : 0
Une valeur t de la variable alatoire T est calcule :
t=

Par Jol M. ZINSALO

x 0

2
n

x 0
s2
n1
Page 82

Biomtrie
t calcule (tobs) est compare avec la valeur tseuil lue dans la table de Student pour un risque
derreur fix et (n - 1) degrs de libert.
si tobs > tseuil lhypothse H0 est rejete au risque derreur : lchantillon
appartient une population desprance et nest pas reprsentatif de la population de rfrence
desprance 0 .
si tobs tseuil lhypothse H0 est accepte: lchantillon est reprsentatif de la population de
rfrence desprance 0.
Remarque : Si n < 30, la variable alatoire X tudie doit imprativement suivre une loi
normale N(,). Pour n 30, la variable de student t converge vers une loi normale centre
rduite .
Exemple : Pour tudier un lot de fabrication de comprims, on prlve au hasard 10 comprims
parmis les 30 000 produits et on les pse. On observe les valeurs de poids en grammes :
0,81 0,84 0,83 0,80 0,85 0,86 0,85 0,83 0,84 0,80
Le poids moyen observ est-il compatible avec la valeur 0,83g, moyenne de la production au seuil
98% ?.
1.5.3. Comparaison dune frquence observe et dune frquence thorique
1.5.3.1.

Principe du test

Soit X une variable qualitative prenant deux modalits (succs X=1, chec X=0) observe sur une
population et un chantillon extrait de cette population.

Population inconnue
X B (n, p)

Population connue
X B (n, p0)

Echantillonnage alatoire simple

Echantillon

Hypothses
H0 : p = p0 H1 : p p0

Par Jol M. ZINSALO

Page 83

Biomtrie
K
, estimateur de p, appartient une
n
population de rfrence connue de frquence p0 (H0 vraie) ou une autre population inconnue
de frquence p (H1 vraie).

Le but est de savoir si un chantillon de frquence observe

1.5.3.2.

Statistique du test

La distribution dchantillonnage de la frquence de succs dans la population inconnue,

K
n

p q
K
suit N(p, 0 0 ) , les variances tant supposes gales dans la
n
n
population de rfrence et la population do est extrait lchantillon.
suit une loi normale telle que :

La statistique tudie est lcart : S =

S N(0,

K
p 0 dont la distribution de probabilit est la suivante :
n

p0 q0
p q
) avec sous H0 E(S) = 0 et V(S) = 0 0
n
n

Nous pouvons tablir grce au thorme central limite la variable Z centre rduite telle que

Z=

K
p0
mais seulement si np0 et nq0 10
= n
V (S )
p0 q0
n

S E(S )

Sous H0 : p = p0

K
p0
n
Z=
p 0 q0
n
1.5.3.3.

suit une loi normale centre rduite N(0,1)

Application et dcision

Lhypothse teste est la suivante : H0 : p = p0 contre H1 : p p0


Une valeur z de la variable alatoire Z est calcule :
K
p0
n
Z=
p0 q0
n

note aussi obs

calcule (obs) est compare avec la valeur seuil lue sur la table de la loi normale centre
rduite pour un risque derreur fix (Rgles de dcision 1).

Par Jol M. ZINSALO

Page 84

Biomtrie

si obs > seuil lhypothse H0 est rejete au risque derreur : lchantillon appartient
une population de frquence p et nest pas reprsentatif de la population de rfrence de
frquence p0 .

si obs seuil lhypothse H0 est accepte: lchantillon est reprsentatif de la population


de rfrence de frquence p0.

Exemple :
Une anomalie gntique touche en France 1/1000 des individus. On a constat dans une rgion donne : 57
personnes atteintes sur 50 000 naissances.
Cette rgion est-elle reprsentative de la France entire ?

1.6.

Tests dhomognit

Les tests dhomognit destins comparer deux populations laide dun nombre quivalent
dchantillons (tests dgalit ou dhomognit) sont les plus couramment utiliss. Dans ce cas la
loi thorique du paramtre tudi (par exemple p, , 2 ) est inconnue au niveau des
populations tudies.
1.6.1.
1.6.1.1.

Comparaison de deux variances

Principe du test

Soit X, une variable alatoire observe sur 2 populations suivant une loi normale et deux
chantillons indpendants extraits de ces deux populations.

Population 1
X1 N ( 1 ,
1)

Population 2
X2 N ( 2,
2)

Echantillonnage alatoire simple

Echantillon 2

Echantillon 1

Hypothses
H0 : 1 =22 H1 : 12 22
2

Par Jol M. ZINSALO

Page 85

Biomtrie
On fait lhypothse que les deux chantillons proviennent de 2 populations dont les variances sont
gales. Le test de comparaison de variance est ncessaire lors de la comparaison de deux
moyennes lorsque les variances des populations 12 et 22 ne sont pas connues. Cest galement la
statistique associe lanalyse de variance.

1.6.1.2.

Statistique du test

La statistique associe au test de comparaison de deux variances correspond au rapport des deux
variances estimes.
Sous H0 : 12 = 22

Fobs

n1 2
s1

n1 1
=
=
n2 2

s2
n2 1
2
1
2
2

avec 12 > 22

suit une loi de Fisher-Snedecor (n1-1, n2 -1) degrs de libert

car le rapport des variances doit tre suprieur 1.

Remarque : Il existe dautres statistiques que celle de Fisher Sndecor pour comparer deux
variances, notamment le test de Hartley qui impose lgalit de la taille des chantillons compars
n1= n2 mais que nous ne dvelopperons pas dans ce cours.

1.6.1.3.

Application et dcision

La valeur de la statistique F calcule (Fobs) est compare avec la valeur Fseuil lue dans la table de
la loi de Fisher-Snedecor pour un risque derreur fix et (n1-1, n2 -1) degrs de libert.
si Fobs Fseuil lhypothse H0 est rejete au risque derreur : les deux chantillons sont
extraits de deux populations ayant des variances statistiquement diffrentes 12 et 22 .
si Fobs Fseuil lhypothse H0 est accepte: les deux chantillons sont extraits de deux
populations ayant mme variance 2 .
Remarque : Pour lapplication de ce test, il est impratif que X N(,) et que les deux
chantillons soient indpendants.

Par Jol M. ZINSALO

Page 86

Biomtrie
Exemple :
Un biologiste effectue des dosages par une mthode de
mesure de radioactivit et ne dispose donc que dun
nombre trs limit de valeurs.
Les concentrations C1 et C2 mesures sur deux
prlvements ont donn les valeurs suivantes :
C1 : 3,9 3,8 4,1 3,6 C2 : 3,9 2,8 3,1 3,7 4,1

La variabilit des valeurs obtenues pour les deux


prlvements est-elle similaire ?

1.6.2.
1.6.2.1.

Comparaison de deux moyennes

Principe du test

Soit X un caractre quantitatif continu observ sur 2 populations suivant une loi normale et deux
chantillons indpendants extraits de ces deux populations.

Population 1
X1 N ( 1 ,
1)

Population 2
X2 N ( 2,
2)
Echantillonnage alatoire simple

Echantillon 1

Echantillon 2

Hypothses
H0 : 1 = 2 H1 : 1

Par Jol M. ZINSALO

Page 87

Biomtrie
On fait lhypothse que les deux chantillons proviennent de 2 populations dont les esprances
sont gales.
Il existe plusieurs statistiques associes la comparaison de deux moyennes en fonction de la nature
des donnes.

1.6.2.2. Les variances des populations sont connues


1.6.2.2.1. Statistique du test
Soit X1 la distribution dchantillonnage de la moyenne dans la population 1 suit une loi
12
22
normale telle que X1 N( 1 , ) et de mme pour X 2 N( 2 , )
n1
n2
X1 et X 2

tant deux variables alatoires indpendantes, nous pouvons tablir la loi de

probabilit de la variable alatoire tudier X1 - X 2


E( X1 - X 2 ) = E( X1 ) E( X 2 ) = 1 - 2

(Proprit de l esprance)

12 22
V( X1 - X 2 ) = V( X1 ) + V( X 2 ) =
+
n1 n 2

(Proprit de la variance)

Sachant que X1 - X 2

suit une loi normale N(


1 - 2 ,

12 22
+
) , nous pouvons tablir
n1 n 2

grce au thorme central limite la variable Z centre rduite telle que


Z=

( X 1 X 2 ) E( X 1 X 2 )
V ( X1 X 2 )

( X1 X 2 ) ( 1 2 )
12 22
+
n1 n 2

Sous H0 : 1 = 2 avec 12 et 22 connues

Z=

( X1 X 2 )
12 22
+
n1 n 2

suit une loi normale centre rduite N(0,1)

.
1.6.2.2.2. Application et dcision
Lhypothse teste est la suivante :
Par Jol M. ZINSALO

Page 88

Biomtrie

calcule (obs) est compare avec la valeur seuil lue sur la table de la loi normale centre
rduite pour un risque derreur fix.

si obs seuil lhypothse H0 est rejete au risque derreur : les deux chantillons sont
extraits de deux populations ayant des esprances respectivement 1 et 2.

si obs seuil lhypothse H0 est accepte: les deux chantillons sont extraits de deux
populations ayant mme esprance .

Remarque : Pour lapplication de ce test, il est impratif que X N(,) pour les chantillons de
taille < 30 et que les deux chantillons soient indpendants.

Exemple :
On a effectu une tude, en milieu urbain et en milieu rural, sur le rythme cardiaque humain :

Peut-on affirmer quil existe une diffrence significative entre les rythmes cardiaques moyens
des deux populations ?

1.6.2.3. Les variances des populations sont inconnues et gales


1.6.2.3.1. Statistique du test
Les variances des populations ntant pas connues, on fait lhypothse que les deux populations
prsentent la mme variance.

Par Jol M. ZINSALO

Page 89

Biomtrie
H 0 : 12 = 22 = 2

(voir test de comparaison des variances)

Lgalit des variances des deux populations ou homoscdasticit permet alors dtablir la loi de
probabilit de X1 - X 2 avec

X1 N ( 1 ,

2
2
) et X 2 N( 2 , )
n1
n2

1
1
Sachant que X1 - X 2 suit une loi normale N ( 1 2 , 2 + )
n1 n 2
grce au thorme central limite la variable T telle que

T=

( X1 X 2 ) E( X1 X 2 )
V ( X1 X 2 )

nous pouvons tablir

( X 1 X 2 ) ( 1 2 )
1
1
2 +
n1 n 2

Sous H0 : 1 = 2 avec 12 = 22 =

T=

( X1 X 2 )
1
1
2 +
n1 n 2

suit une loi de Student (n1+n2 2) degrs de libert.

1.6.2.3.2. Application et dcision


Lhypothse teste est la suivante :
H0 : 1 = 2 contre H1 : 1 2
Les variances des populations ntant pas connues, lgalit des variances doit tre vrifie

H0 : 12 = 22 = 2 contre H1 : 12 22

test de Fisher-Snedecor.

Une valeur t de la variable alatoire T est calcule :


Par Jol M. ZINSALO

Page 90

Biomtrie

t=

x1 x 2
1
1
2 +
n1 n 2

avec 2 =

n1s12 + n 2s 22
estimation de la variance 2 commune
n1 + n 2

t calcule (tobs) est compare avec la valeur tseuil lue dans la table de Student pour un risque
derreur fix et (n1 + n2 2) degrs de libert.
si tobs > tseuil lhypothse H0 est rejete au risque derreur : les deux chantillons sont
extraits de deux populations ayant des esprances respectivement 1 et 2.
si tobs tseuil lhypothse H0 est accepte: les deux chantillons sont extraits de deux
populations ayant mme esprance .
Remarque : Pour lapplication de ce test, il est impratif que X N(,) pour les chantillons
de taille < 30, que les deux chantillons soient indpendants et que les deux variances estimes
soient gales.
Exemple :
Dans le but dtudier linfluence du type datmosphre dlevage sur la dure de dveloppement
des drosophiles femelles, ces dernires ont t leves 14C sous atmosphre normale (N) ou
enrichie en C02 (C02). Les rsultats suivants ont t obtenus :

864, 768, 912, 804, 924, 984, 888, 816, 840, 936, 792, 876

CO2

840, 948, 936, 1032, 912, 948, 1020, 936, 1056, 876, 1032, 918

Que peut-on conclure ?


1.6.2.4. Les variances des populations sont inconnues et ingales
Si les variances des populations ne sont pas connues et si leurs estimations partir des chantillons
sont significativement diffrentes ( test de comparaison des variances), il faut considrer deux
cas de figure selon la taille des chantillons compars :

les grands chantillons avec n1 et n2 suprieurs 30.


les petits chantillons avec n1 et/ou n2 infrieurs 30.

Par Jol M. ZINSALO

Page 91

Biomtrie
Cas o n1 et n2 > 30
La statistique utilise est la mme que pour le cas o les variances sont connues.

Sous H0 : 1 = 2
Z=

( X1 X 2 )
12 22
+
n1 n 2

suit une loi normale centre rduite N(0,1)

Comme les variances sont inconnues et significativement diffrentes 2 12 22 , on remplace


les variances des populations par leurs estimations ponctuelles calcules partir des chantillons,

12 =

n1 2
s1 et
n1 1

22 =

n2 2
s2
n2 1

Lhypothse teste est la suivante :


H0 : 1 = 2 contre H1 : 1 2
Une valeur z de la variable alatoire Z est calcule :

calcule (obs) est compare avec la valeur seuil lue sur la table de la loi normale centre
rduite pour un risque derreur fix.
si obs > seuil lhypothse H0 est rejete au risque derreur : les deux chantillons sont
extraits de deux populations ayant des esprances respectivement 1 et 2.

si obs seuil lhypothse H0 est accepte: les deux chantillons sont extraits de deux
populations ayant mme esprance .
Remarque : Pour lapplication de ce test, il est impratif que X N(,) et que les deux
chantillons soient indpendants.
Exemple :

Par Jol M. ZINSALO

Page 92

Biomtrie
Dans le but dtudier linfluence ventuelle de la lumire sur la croissance du poisson Lebistes
Reticulus, on a lev deux lots de ce poisson dans des conditions dclairage diffrentes. Au 95me
jour, on a mesur en mm les longueurs xi des poissons. On a obtenu les rsultats suivants :

Lot 1 (180 individus) : clairage 400 lux


Lot 2 (90 individus) : clairage 3 000 lux.

xi1 = 3 780

x2i1=84 884

xi2 = 2 043 x2i2=46 586

Que peut-on conclure ?

Cas o n1 et/ou n2 < 30


Lorsque les variances sont ingales et les chantillons de petites tailles, la loi de probabilit
suivie par X1 - X 2 nest pas connue. On a recours alors au statistique non paramtrique.

1.6.3.
1.6.3.1.

Comparaison de deux frquences

Principe du test

Soit X une variable qualitative prenant deux modalits (succs X=1, chec X=0) observe sur 2
populations et deux chantillons indpendants extraits de ces deux populations. On fait
lhypothse que les deux chantillons proviennent de 2 populations dont les probabilits de succs
sont identiques.

Par Jol M. ZINSALO

Page 93

Biomtrie

Le problme est de savoir si la diffrence entre les deux frquences observes est relle ou
explicable par les fluctuations dchantillonnage. Pour rsoudre ce problme, deux tests de
comparaison de frquences sont possibles :

Test ou test de la variable centre rduite et test du Khi-deux 2

1.6.3.2. Statistique du test


La distribution dchantillonnage de la frquence de succs dans la population 1,

K1
suit une
n1

loi normale telle que :

Par Jol M. ZINSALO

Page 94

Biomtrie

K1
K
et 2 tant deux variables alatoires indpendantes, nous pouvons tablir la loi de probabilit
n1
n2
de la variable alatoire tudier

Sachant que

K1 K 2
n1 n2

K1 K 2
n1 n2

suit une loi normale N(p1 p 2 ,

p1q1 p 2q 2
) , nous pouvons tablir
+
n1
n2

grce au thorme central limite la variable Z centre rduite telle que

K1 K 2

(p1 p 2 )
+
n1
n 2

Z=
p1q1 p 2q 2
+
n1
n2

Sous H0 : p1 = p2 avec p =
K1 K 2

n
n
2
Z= 1
1
1
pq( + )
n1 n 2

1.6.3.3.

n1p1 + n 2p 2
n1 + n 2

suit une loi normale centre rduite N(0,1)

Application et dcision

La valeur p, probabilit du succs commune aux deux populations nest en ralit pas connue.
On lestime partir des rsultats observs sur les deux chantillons :

p =

k1 + k 2
n1 + n 2

o k1 et k2 reprsentent le nombre de succs observs respectivement pour

lchantillon 1 et pour lchantillon 2.

Par Jol M. ZINSALO

Page 95

Biomtrie
Lhypothse teste est la suivante :
H0 : p1 = p2 contre H1 : p1 p2
Une valeur z de la variable alatoire Z est calcule :

z=

k1 k 2

n1 n 2
1
1
pq +
n1 n 2

avec p =

k1 + k 2
n1 + n 2

z ou calcule (obs) est compare avec la valeur seuil lue sur la table de la loi normale
centre rduite pour un risque derreur fix.
si obs > seuil lhypothse H0 est rejete au risque derreur : les deux chantillons sont
extraits de deux populations ayant des probabilits de succs respectivement p1 et p2.
si obs seuil lhypothse H0 est accepte: les deux chantillons sont extraits de deux
populations ayant mme probabilit de succs p.
Exemple :
On veut tester limpact des travaux dirigs dans la russite lexamen de statistique.

Quen concluez-vous ?

Par Jol M. ZINSALO

Page 96

Vous aimerez peut-être aussi