Vous êtes sur la page 1sur 179

Universit Pierre et Marie Curie

Biostatistique
PACES - UE4
2013 - 2014

Responsables : F. Carrat et A. Mallet


Auteurs : F. Carrat, A. Mallet, V. Morice

Mise jour : 21 octobre 2013


Relecture : V. Morice, A. Mallet, A.J. Valleron, F. Carrat et S. Tzenas

2/179

Biostatistique - Carrat, Mallet, Morice

2013 - 2014

Sommaire

Sommaire
3

Sommaire

Avant-propos

11

Introduction
1
2
2.1
2.2
3

11
12
12
13
14
15

Chapitre 1 :
1.1
1.2
1.3

15
15
16
19

2.1
2.2
2.3
2.4
2.5
2.6
2.6.1
2.6.2

2013 - 2014

3.1
3.2
3.3
3.4
3.5
3.6
3.6.1
3.6.2
3.6.3

Rappels mathmatiques

Ensembles, lments
Oprations sur les ensembles
Ensembles finis, dnombrables, non dnombrables
Ensembles produits
Familles densembles
Autres rappels mathmatiques
Rappel sur les sommes
Rappel sur les intgrales

Chapitre 3 :

25
26
27
27
29
29
29
30
30

Statistique(s) et Probabilit(s)

Statistique
Population et chantillon
Statistique et probabilit

Chapitre 2 :

19
19
21
21
22
22
22
23
25

La variabilit et lincertain
La mesure dune grandeur
Units et quations aux dimensions
Erreurs de mesure
La dcision dans lincertain

Elments de calcul des Probabilits

Introduction
Exprience alatoire, ensemble fondamental et vnements
Oprations sur les vnements
Rgles du calcul des probabilits
Remarque
Illustration de quelques ensembles probabiliss
Ensemble probabilis fini
Ensemble fini quiprobable
Ensembles probabiliss infinis

Biostatistique - Carrat, Mallet, Morice

3/179

Sommaire

30
31
33

33
34
35
36
38
38
41

41
41
42
42
43
43
44
44
45
47
47
47
47
48
49
51
51
52
52
52
55
55
57
57
58
59
61

4/179

3.6.3.1
3.6.3.2

Cas dnombrable
Cas dun ensemble probabilis infini non dnombrable

Chapitre 4 :
4.1
4.2
4.3
4.4
4.5
4.6

Probabilit conditionnelle
Thorme de la multiplication
Diagramme en arbre
Thorme de Bayes
Indpendance entre vnements
Indpendance, inclusion et exclusion de deux vnements

Chapitre 5 :
5.1
5.1.1
5.1.2
5.1.3
5.2
5.2.1
5.2.2
5.2.3
5.2.4
5.3
5.3.1
5.3.1.1
5.3.1.2
5.3.1.3
5.3.2

Evaluation de lintrt diagnostique des informations


mdicales

Introduction
Le diagnostic
Les informations mdicales
Situation exprimentale et estimation
Les paramtres de lvaluation
Sensibilit et spcificit
Valeurs prdictives
Comparaison des deux couples de paramtres
Choix dun seuil : courbes ROC
Estimation des paramtres de lvaluation
Un chantillon reprsentatif
Les donnes
Estimation de la sensibilit et de la spcificit
Estimation des valeurs prdictives
Deux chantillons reprsentatifs

Chapitre 6 :
6.1
6.2
6.2.1
6.2.2
6.2.3
6.2.4
6.2.5
6.2.6
6.3
6.4
6.5

Probabilit Conditionnelle ; Indpendance et Thorme


de Bayes

Variables alatoires

Dfinition dune variable alatoire


Variables alatoires finies
Reprsentation dune loi de probabilit finie
Esprance mathmatique dune variable finie
Variance et cart-type dune variable finie
Loi de probabilit produit
Variables alatoires indpendantes
Fonction de rpartition
Variables infinies dnombrables (hors programme)
Variables alatoires continues
Extension de la notion de variable alatoire

Biostatistique - Carrat, Mallet, Morice

2013 - 2014

Sommaire

63

Chapitre 7 :

7.1
Lois discrtes
7.1.1
Loi de Bernoulli
7.1.2
Loi binomiale
7.1.3
Loi de Poisson
7.2
Lois continues
7.2.1
Loi normale
7.2.1.1
Dfinition
7.2.1.2
Proprits
7.2.2
Loi du 2 (chi-2)
7.2.2.1
Dfinition
7.2.2.2
Proprits
7.2.3
Loi de Student (hors programme)
7.2.4
Loi exponentielle (hors programme)
7.3
Application de la Loi de Poisson linterprtation dun risque sanitaire
possible qui na pas encore t observ
7.3.1
Introduction
7.3.2
Le problme direct
7.3.3
Problme inverse
7.3.4
Application numrique
7.3.5
Remarque

63
63
63
66
67
67
67
67
70
70
71
71
72
73
73
73
74
75
75
77

Exemples de distributions

Chapitre 8 :

77
78
78
79
80
81
81
81
82
82
83
84
84
84
85
85
87

2013 - 2014

Statistiques descriptives

8.1
Rappels et complments
8.2
Reprsentation complte dune srie dexpriences
8.2.1
Cas dune variable qualitative
8.2.2
Cas dune variable quantitative discrte
8.2.3
Cas dune variable quantitative continue. Notion dHISTOGRAMME
8.3
Reprsentation simplifie dune srie dexpriences
8.3.1
Indicateurs de localisation des valeurs
8.3.2
Indicateurs de dispersion des valeurs
8.4
Reformulation de la moyenne et de la variance observes
8.4.1
Reformulation de la moyenne observe
8.4.2
Reformulation de la variance observe
8.5
Cas particulier dune variable deux modalits - Proportion
8.5.1
Expression de lesprance mathmatique de X
8.5.2
Expression de la variance de X
8.5.3
Interprtation de la moyenne observe
8.6
Conclusion : la variable alatoire moyenne arithmtique
Rsum du chapitre

Biostatistique - Carrat, Mallet, Morice

5/179

Sommaire

89

89
89
90
91
92
94
94
96
97
98
99
99
100
100
100
100
101
101
101
102
102
105
105
106
106
107
109
109
112
112
114
114
114
115
118
118

6/179

Chapitre 9 :

Fluctuations de la moyenne observe : la variable


alatoire moyenne arithmtique

9.1
9.1.1
9.1.2
9.2

Premire proprit de la variable alatoire moyenne arithmtique


Un exemple
Gnralisation
Seconde proprit de la variable alatoire moyenne arithmtique : le thorme
central limite
9.3
Etude de la distribution normale (rappel)
9.4
Application du thorme central limite. Intervalle de Pari (I. P.)
9.4.1
Dfinition de lintervalle de pari (I. P.) dune moyenne observe
9.4.2
Les facteurs de dpendance de la longueur de lintervalle de pari (IP)
9.4.3
Lintervalle de pari dune variable alatoire
Rsum du chapitre

Chapitre 10 : Estimation - Intervalle de confiance


10.1
Introduction
10.2
Estimation ponctuelle
10.2.1
Dfinition
10.2.2
Proprits
10.2.2.1
Biais
10.2.2.2
Variance
10.2.2.3
Erreur quadratique moyenne
10.2.3
Exemple
10.3
Estimation par intervalle - Intervalle de confiance
10.3.1
Exemple dune proportion
10.3.2
Intervalle de confiance approch dune proportion vraie
10.3.3
Intervalle de confiance approch dune moyenne vraie (variable
continue)
10.3.4
Applications
10.3.4.1
Prcision dun sondage
10.3.4.2
Prcision dune moyenne

Chapitre 11 : Les tests dhypothses. Principes


11.1
Un exemple concret (emprunt Schwartz)
11.2
Principe gnral des tests dhypothses
11.2.1
Les tapes de mises en uvre
11.2.2
Justification de la rgle de dcision. Choix de
11.2.2.1
Interprtation de
11.2.2.2
Effet dun changement de valeur de
11.2.3
Justification des conclusions du test. Puissance dun test
11.2.4
Amlioration de linterprtation du rejet de H0
11.2.4.1
Notion de degr de signification

Biostatistique - Carrat, Mallet, Morice

2013 - 2014

Sommaire

11.2.4.2
Orientation du rejet
11.3
Rappels et prcisions
Rsum du chapitre

119
120
122
123

Chapitre 12 : Quelques tests usuels


12.1
12.1.1

Tests concernant des variables de Bernoulli


Test dgalit dune proportion vraie une valeur donne (ou test de
comparaison dune proportion observe une valeur donne)
12.1.1.1
Mise en place du test
12.1.1.2
Autre interprtation du paramtre z
12.1.1.3
Nombre de sujets ncessaires
12.1.2
Test dgalit de deux proportions vraies (ou test de comparaison de deux
proportions observes)
12.1.2.1
Mise en place du test
12.1.2.2
Nombre de sujets ncessaires
12.2
Tests concernant des variables quantitatives
12.2.1
Tests impliquant une valeur donne
12.2.1.1
Test dgalit dune moyenne vraie une valeur donne (ou test de
comparaison dune moyenne observe une valeur donne)
12.2.1.2
Test de symtrie dune variable (X) par rapport une valeur donne (0) :
test de Wilcoxon
12.2.2
Tests de comparaison de variables quantitatives
12.2.2.1
Test dgalit de deux moyennes vraies (ou test de comparaison de
deux moyennes observes)
12.2.2.2
Test dgalit de deux distributions (ou test de comparaison de deux
distributions observes) : test de Mann-Whitney-Wilcoxon
12.2.3
Cas des sries apparies
12.2.3.1
Test de comparaison de deux moyennes observes sur sries apparies
12.2.3.2
Test de symtrie de la distribution des diffrences
Rsum du chapitre

123
123
123
124
125
125
125
127
127
127
128
129
130
130
131
133
133
134
135
137

Chapitre 13 : Tests concernant des variables qualitatives

137
138
142
143
146
150

2013 - 2014

Comparaison dune rpartition observe une rpartition donne ou test du 2


dajustement
13.1.1
Les tapes de mise en uvre
13.1.2
Cas particulier : variable deux modalits
13.2
Comparaison de plusieurs rpartitions observes ou test du 2 dhomognit
13.3
Test dindpendance entre deux variables qualitatives
Rsum du chapitre
13.1

Biostatistique - Carrat, Mallet, Morice

7/179

Sommaire

151

Chapitre 14 : Liaison entre deux variables continues : notion de


corrlation

151
152
154
158
159
161

14.1
Introduction
14.2
Abord du problme
14.3
Un indicateur de covariation : le coefficient de corrlation
14.4
Le coefficient de corrlation vrai
14.5
Test dgalit du coefficient de corrlation vrai 0
Rsum du chapitre

163

Chapitre 15 : Mthodologie des tudes pidmiologiques

163
164
165
165
165
166
167
167
168
168
169
169
170
172
173
174
175
176
177
178
179

8/179

15.1
15.2
15.3
15.3.1
15.3.2

La causalit
Dmarche exprimentale et dmarche dobservation
Les essais randomiss
Dfinition
Comment limiter les biais dans le droulement dun essai thrapeutique
randomis ? Aveugle et placebo
15.3.3
Comment limiter les biais dans lanalyse dun essai thrapeutique
randomis ? Intention de traiter
15.4
Les tudes dobservation
15.4.1
Cohortes - Cas-tmoins et tudes transversales
15.4.2
Etudes prospectives et rtrospectives
15.4.3
Donnes longitudinales
15.4.4
En pratique
15.5
Mesures dassociation utilises en pidmiologie
15.6
Risque attribuable, proportion de cas vitables
Rsum du chapitre

Annexe A :
A.1
A.2
A.3
A.4
A.5
A.6

Tables statistiques

TABLE DE LA VARIABLE NORMALE REDUITE Z


TABLE DU TEST DE WILCOXON
TABLE DU TEST DE MANN-WHITNEY-WILCOXON
TABLE DE 2
TABLE DU COEFFICIENT DE CORRELATION
TABLE DU t DE STUDENT

Biostatistique - Carrat, Mallet, Morice

2013 - 2014

Avant-propos

Avant-propos
Ce polycopi contient le cours de biostatistique de la PACES - UE4 - de la Facult de Mdecine
Pierre et Marie Curie (Paris VI).
On pourra trouver des complments dans le livre de A. J. Valleron :
A.J. Valleron. UE4 : valuation des mthodes danalyse appliques aux sciences de la vie et de la
sant. Elsevier-Masson (collection PassSant)
Des QCM corriges sont en particulier disponibles dans le livre :
V. Morice & A. Mallet. QCM corriges et commentes de Biostatistique. Ellipses 2012
Pour en savoir plus :
R. Beuscart et Collge des Enseignants de Biostatistique. Biostatistique. Omniscience, 2009

2013 - 2014

Biostatistique - Carrat, Mallet, Morice

9/179

Avant-propos

10/179

Biostatistique - Carrat, Mallet, Morice

2013 - 2014

Introduction

Introduction
La statistique constitue, en mdecine, loutil permettant de rpondre de nombreuses questions qui
se posent en permanence au mdecin :
1.
2.
3.
4.

Quelle est la valeur normale dune grandeur biologique, taille, poids, glycmie ?
Quelle est la fiabilit dun examen complmentaire ?
Quel est le risque de complication dun tat pathologique, et quel est le risque dun
traitement ?
Le traitement A est-il plus efficace que le traitement B ?

1 La variabilit et lincertain
Toutes ces questions, proprement mdicales, refltent une proprit fondamentale des systmes
biologiques qui est leur variabilit. Cette variabilit est la somme dune variabilit exprimentale
(lie au protocole de mesure) et dune variabilit proprement biologique. On peut ainsi dcomposer
la variabilit dune grandeur mesure en deux grandes composantes :
variabilit totale = variabilit biologique + variabilit mtrologique

La variabilit biologique peut tre elle-mme dcompose en deux termes : dune part la variabilit intra-individuelle, qui fait que la mme grandeur mesure chez un sujet donn peut
tre soumise des variations alatoires ; et dautre part la variabilit inter-individuelle qui fait
que cette mme grandeur varie dun individu lautre.
variabilit biologique = variabilit intra-individuelle + variabilit inter-individuelle

La variabilit intra-individuelle peut tre observe lors de la mesure de la performance dun


athlte qui nest pas capable des mmes performances chaque essai, mais qui se diffrencie
des autres athltes (variabilit inter-individuelle). En gnral, la variabilit intra est moindre
que la variabilit inter.
La variabilit mtrologique peut tre elle aussi dcompose en deux termes : dune part les
conditions exprimentales dont les variations entranent un facteur dalas ; et dautre part les
erreurs induites par lappareil de mesure utilis.
variabilit mtrologique = variabilit exprimentale + variabilit appareil de mesure

La mesure de la pression artrielle peut grandement varier sur un individu donn suivant les
conditions de cette mesure ; il est ainsi recommand de la mesurer aprs un repos dau moins
15 minutes, allong, en mettant le patient dans des conditions de calme maximal. Cette recommandation vise minimiser la variabilit due aux conditions exprimentales. La prcision de
lappareil de mesure est une donne intrinsque de lappareil, et est fournie par le constructeur.

2013 - 2014

Biostatistique - Carrat, Mallet, Morice

11/179

Introduction

2 La mesure dune grandeur


2.1 Units et quations aux dimensions
Les grandeurs mesures possdent la plupart du temps une unit. La distance entre Paris et Marseille se mesurera par exemple en kilomtres, lpaisseur dun cheveu en microns, le poids dune
orange en grammes. Dans quelle mesure ces grandeurs peuvent-elles tre compares ? La distance
entre Paris et Marseille, et lpaisseur dun cheveu sont deux longueurs ; leur comparaison est possible si on les mesure avec une unit commune, par exemple le mtre. En revanche, le poids de
lorange nest pas comparable aux longueurs prcdentes.
Deux grandeurs qui peuvent tre compares sont dites possder la mme dimension. Elles peuvent
tre caractrises par leur dimension : on parlera par exemple de longueur. Les dimensions de
toutes les grandeurs physiques peuvent sexprimer en fonction de sept dimensions de base : la longueur note L, la masse M, le temps T, lintensit lectrique I, la temprature , lintensit
lumineuse J, et la quantit de matire N.
Par exemple une vitesse est une longueur divise par un temps. On dira que sa dimension est LT-1.
Plus prcisment, de lquation donnant la vitesse v en fonction de la distance d parcourue pendant
le temps t, v=d/t, on dduit la relation entre les dimensions (notes entre crochets) des deux
membres de lquation [v] = [d]/[t] = LT-1. Cette relation est appele quation aux dimensions.
Une quation aux dimensions permet donc dexprimer la dimension de nimporte quelle grandeur
en fonction des dimensions lmentaires, condition de connatre les relations entre elles. Elle permet aussi une premire validation dune relation entre grandeurs physiques : les dimensions de la
partie gauche et de la partie droite de la relation doivent tre identiques.
Dterminons par exemple la dimension dune nergie ou dun travail, partir de la formule w = f.l
(un travail est le produit dune force par une longueur). Une force est le produit dune masse par
une acclration (f = m. ) et une acclration est une longueur divise par le carr dun temps.
Donc [w] = [f][l] = [m][l]t -2][l] = ML2T-2.
Un autre intrt des quations aux dimensions concerne les units des grandeurs mesures. On dfinit un systme dunits en imposant des units aux 7 dimensions de base, les autres units de dfinissant laide des quations aux dimensions. Le systme dunits le plus utilis est le Systme
International, ou SI, dans lequel une longueur est mesure en mtres (m), une masse en kilogrammes (kg), un temps en secondes (s), une intensit lectrique en ampres (A), une temprature en degrs Kelvin (K), une intensit lumineuse en candelas (cd), et une quantit de matire en
moles (mol).
Dans le systme international, certaines units drives sont videntes : une surface sexprime en
mtres carrs. Dautres le sont moins. Citons lhertz pour une frquence, le pascal pour une pression, le joule pour une nergie ou un travail, le watt pour une puissance, le newton pour une force,
le coulomb pour une charge lectrique, le volt pour une diffrence de potentiel, lohm pour une
rsistance, etc.
Il existe des grandeurs sans dimension, calcules comme le rapport de deux grandeurs de mme
dimension, mais qui possdent pourtant une unit. Un angle est une grandeur sans dimension mesure en radians dans le systme international.

12/179

Biostatistique - Carrat, Mallet, Morice

2013 - 2014

Introduction

2.2 Erreurs de mesure


La mesure dune grandeur ne peut conduire une valeur exacte. En premier lieu, linstrument de
mesure possde ncessairement une prcision limite : une rgle gradue millimtre par millimtre
ne peut donner une meilleure prcision quun demi millimtre. En second lieu, la grandeur mesurer peut tre source de variabilit intra-individuelle : la rptition de la mesure avec le mme instrument et dans des conditions identiques conduit alors des rsultats diffrents. Enfin,
linstrument de mesure peut tre mal talonn ou mal adapt et conduire un biais de mesure
systmatique : les valeurs mesures seront systmatiquement trop leves, ou systmatiquement
trop basses.
Pour une grandeur X mesurer, on note X lerreur de mesure. Cette erreur est gnralement facilement connue si elle nest due qu un problme de prcision. Sil existe une variabilit intraindividuelle (raisonnablement faible), on fera intervenir lcart-type des mesures (voir chapitre 10
page 99). Si x est la valeur mesure, la vraie valeur est donc comprise entre x-X et x+X.
Si une grandeur G nest pas mesure, mais dduite dautres grandeurs X, Y, Z laide dune formule, lerreur G sur G doit se dduire des erreurs X, Y, Z sur X, Y, Z.
Le plus souvent, on utilise un calcul bas sur la diffrentielle totale exacte de la formule. Si
G = f(X, Y, Z), la diffrentielle totale exacte1 est :
f
f
f
df = ------ dX + ------ dY + ------ dZ
X
Y
Z
Lerreur de mesure est alors donne par :
f X + f Y + f Z
G = f = --------------X
Y
Z
Supposons par exemple devoir calculer une rsistance R en mesurant lintensit I du courant qui y
circule et la diffrence de potentiel U ses bornes. La formule liant ces grandeurs est R = U/I. On
mesure U = 1000 volts 1 volt prs et I = 1 ampre 10-3 ampre prs.
U U
La formule donne R = 1000 ohms et lerreur se calcule par R = -------- + ---2- I = 2
I
I
Le calcul bas sur la diffrentielle totale exacte nest cependant quune approximation (on confond
une courbe et sa tangente). Lorsque des calculs plus exacts sont possibles, ils sont prfrables. Ainsi, supposons avoir trouv 100 avec une prcision de 1 pour la mesure dune grandeur X et nous
intresser la grandeur Y = 1/X.
X
4
La formule de la diffrentielle totale exacte donne Y = ------2- = 10 , donc une valeur de Y comX
prise entre 0,0099 et 0,0101.
Mais puisque la vraie valeur de X est comprise entre 99 et 101, la vraie valeur de Y est en ralit
comprise entre 1/101 et 1/99, soit entre 0,009901 et 0,010101.

1. Rappel : calculer la drive partielle dune fonction par rapport lune des variables consiste driver en
assimilant les autres variables des constantes.

2013 - 2014

Biostatistique - Carrat, Mallet, Morice

13/179

Introduction

3 La dcision dans lincertain


Pour prendre une dcision diagnostique ou thrapeutique le mdecin doit avoir des lments lui
permettant de prendre en compte cette variabilit naturelle, pour distinguer ce qui est normal de ce
qui est pathologique (dcision propos dun patient) et pour valuer la qualit dun nouvel examen,
ou dune nouvelle thrapeutique (dcision thrapeutique). La comprhension des mthodes statistiques, de leur puissance et de leurs limites, est essentielle pour un mdecin de nos jours. Tout rsultat de recherche mdicale rsulte dune exprimentation (clinique ou biologique) qui sappuie
sur une mthodologie statistique rigoureuse, et dont les rsultats sont analyss en termes statistiques.
De mme la dmarche statistique permet dvaluer les risques (ou les bnfices) dune prescription, de dterminer dans une situation donne lexamen qui apportera la meilleure information diagnostique.
Nous voyons donc limportance de la matrise de loutil et de la dmarche statistique :

Pour permettre les progrs de la connaissance mdicale : cest le domaine de la recherche clinique qui ne peut saccomplir convenablement (dfinition de la question, mise en place du
protocole exprimental, analyse des rsultats) quen suivant une mthodologie statistique rigoureuse.
Pour mieux connatre ltat de sant dune population, la frquence et la gravit dune pidmie (penser au SIDA), etc. Cette connaissance se fera partir dchantillons convenablement
choisis et de calculs bass sur les outils de la statistique. Il sera alors possible de rechercher
les stratgies de prvention les mieux adaptes, den valuer leur impact. Il sagit l des applications relevant de lpidmiologie et de la sant publique.
Pour amliorer la pratique mdicale dans ses aspects dcisionnels, savoir choisir le meilleur
examen (clinique ou para-clinique) pour aboutir le plus rapidement et le plus srement au diagnostic. Pour optimiser la thrapeutique, choisir le traitement le mieux adapt un patient
donn (choix du mdicament, posologie, etc).

Lobjectif de ce cours est de vous fournir les bases indispensables permettant de comprendre les
mthodes utilises, dinterprter correctement les rsultats de nouvelles recherches, et dadopter un
mode de raisonnement qui soit mme daider la dcision dans lexercice de la mdecine.
Plus prcisment nous tudierons successivement :
1.
2.
3.

4.

Les bases de calcul de probabilits, qui sont indispensables la comprhension et lutilisation des mthodes statistiques.
La statistique descriptive qui permet de reprsenter et de quantifier la variabilit dune ou plusieurs grandeurs observes.
La statistique inductive qui inclura les tests statistiques permettant de retenir une hypothse
A plutt quune hypothse B partir de donnes exprimentales (comme dans le cas de la
comparaison de deux traitements, o lhypothse A est que les deux traitements sont quivalents et lhypothse B est quils sont diffrents).
Les applications des mthodes statistiques lpidmiologie, laide la dcision thrapeutique et diagnostique, et les applications aux essais thrapeutiques.

14/179

Biostatistique - Carrat, Mallet, Morice

2013 - 2014

Statistique(s) et Probabilit(s)

Chapitre 1
Statistique(s) et Probabilit(s)
Nous commencerons par dfinir les termes et les concepts importants.

1.1 Statistique
Le terme statistique dsigne la fois un ensemble de donnes dobservations, et lactivit qui
consiste en leur recueil, leur traitement et leur interprtation. Les termes statistique, ou
statistiques (au pluriel) englobent ainsi plusieurs notions distinctes :
1.

2.

3.

Dune part le recensement de grandeurs dintrt comme le nombre dhabitants dun pays, le
revenu moyen par habitant, le nombre de sropositifs dans la population franaise. Nous
voyons que la notion fondamentale qui se dgage de cette numration est celle de
Population. Une population est un ensemble dobjets, dtres vivants ou dobjets abstraits
(ensemble des mains de 5 cartes distribues au bridge...) de mme nature.
La statistique en tant que science sintresse aux proprits des populations naturelles. Plus
prcisment elle traite de nombres obtenus en comptant ou en mesurant les proprits dune
population. Cette population dobjets doit en outre tre soumise une variabilit, qui est due
de trs nombreux facteurs inconnus (pour les populations dobjets biologiques qui nous intressent ces facteurs sont les facteurs gntiques et les facteurs environnementaux).
A ces deux acceptions du terme statistiques (au pluriel) il faut ajouter le terme statistique (au
singulier) qui dfinit toute grandeur calcule partir dobservations. Ce peut tre la plus
grande valeur de la srie statistique dintrt, la diffrence entre la plus grande et la plus petite,
la valeur de la moyenne arithmtique de ces valeurs, etc.

1.2 Population et chantillon


On appelle population P un ensemble gnralement trs grand, voire infini, dindividus ou dobjets
de mme nature. Tous les mdecins de France constituent une population, de mme que lensemble
des rsultats possibles du tirage du loto. Une population peut donc tre relle ou fictive.
Il est le plus souvent impossible, ou trop coteux, dtudier lensemble des individus constituant
une population ; on travaille alors sur une partie de la population que lon appelle chantillon.
Pour quun chantillon permette ltude de la variabilit des caractristiques dintrt de la popu-

2013 - 2014

Biostatistique - Carrat, Mallet, Morice

15/179

Statistique(s) et Probabilit(s)

lation, il faut quil soit convenablement slectionn. On parlera dchantillon reprsentatif si les
individus le constituant ont t tirs au sort1 dans la population. Si par exemple on souhaite dterminer les caractristiques moyennes du poids et de la taille des prmaturs masculins on tirera
au hasard un certain nombre de sujets parmi les naissances de prmaturs de lanne.
Chaque individu, ou unit statistique, appartenant une population est dcrit par un ensemble de
caractristiques appeles variables ou caractres. Ces variables peuvent tre quantitatives (numriques) ou qualitatives (non numriques) :
quantitatives
pouvant tre classes en variables continues (taille, poids) ou discrtes (nombre denfants
dans une famille)
qualitatives
pouvant tre classes en variables catgorielles (couleurs des yeux) ou ordinales (intensit
dune douleur classe en nulle, faible, moyenne, importante).

1.3 Statistique et probabilit


La thorie (ou le calcul) des probabilits est une branche des mathmatiques qui permet de modliser les phnomnes o le hasard intervient (initialement dveloppe propos des jeux de hasard,
puis progressivement tendue lensemble des sciences exprimentales, dont la physique et la biologie).
Cette thorie permet de construire des modles de ces phnomnes et permet le calcul : cest partir dun modle probabiliste dun jeu de hasard comme le jeu de ds que lon peut prdire les frquences dapparition dvnements comme le nombre de fois que lon obtient une valeur paire en
jetant un d un grand nombre de fois. Les lments de calcul des probabilits indispensables la
comprhension des statistiques seront traits dans la premire partie du cours.
Sous jacente la notion de statistiques se trouve la notion de Population dont on souhaite connatre
les proprits (plus prcisment les rgularits), permettant en particulier de savoir si deux populations sont identiques ou non. Ce cas est celui du cadre des essais thrapeutiques, o lon considre
2 populations (patients traits avec le mdicament A ou avec le mdicament B) dont on souhaite
savoir si elles diffrent ou non (cest le cas le plus simple des essais cliniques). Pour ce faire il est
ncessaire de modliser les populations, en utilisant des modles probabilistes. Un modle de ce
type est par exemple de considrer que la taille des individus suit une distribution gaussienne. A
partir de ce modle on peut calculer les proprits dchantillons ; cest ce quon appelle une dduction qui va du modle vers lexprience. A linverse, considrant un chantillon dune population on peut essayer de reconstruire le modle de la population.
Cette dmarche est calque sur la dmarche scientifique habituelle. Le scientifique est capable, en
utilisant les mathmatiques, de prdire le comportement dun modle donn (cest par exemple une
loi de la physique) : cest la dmarche dductive. A linverse, observant des faits exprimen1. Nous reviendrons sur cette mthode permettant dobtenir un chantillon reprsentatif de la population
tudie. Cela consiste en gros slectionner les individus sur la base dun tirage analogue celui qui
consiste tirer des noms dans une urne qui contiendrait tous les noms possibles.

16/179

Biostatistique - Carrat, Mallet, Morice

2013 - 2014

Statistique(s) et Probabilit(s)

taux il va tenter de dgager des proprits gnrales du phnomne observ quil va en gnral reprsenter sous forme dun modle (toutes les lois de la physique et de la chimie sont des modles
mathmatiques les plus gnraux possibles des faits exprimentaux) : cest la construction inductive de la thorie. Cette dmarche gnrale va plus loin car le modle permet de prdire des expriences non ralises. Si les prdictions ainsi ralises sont contradictoires avec les rsultats
exprimentaux alors on pourra avec certitude rfuter le modle (on dit aussi quon la falsifi) ;
dans le cas contraire on garde le modle mais on nest pas certain quil soit vrai . Autrement dit,
lissue dun tel test on ne peut avoir de certitude que si on a trouv des lments permettant de
rfuter le modle. Nous verrons dans la suite que cette approche se transpose exactement dans la
dmarche statistique, en particulier dans le domaine des tests.

2013 - 2014

Biostatistique - Carrat, Mallet, Morice

17/179

Statistique(s) et Probabilit(s)

18/179

Biostatistique - Carrat, Mallet, Morice

2013 - 2014

Rappels mathmatiques

Chapitre 2
Rappels mathmatiques
2.1 Ensembles, lments
On appelle ensemble, toute liste ou collection dobjets bien dfinis, explicitement ou
implicitement ; on appelle lments ou membres de lensemble les objets appartenant lensemble
et on note :

p A si p est un lment de lensemble A


B est partie de A, ou sous ensemble de A, et lon note B A ou A B , si x B x A

On dfinit un ensemble soit en listant ses lments, soit en donnant la dfinition de ses lments :

A = {1, 2, 3}
X = {x : x est un entier positif}

Notations :

la ngation de x A est x A
est lensemble vide
E est lensemble universel.

2.2 Oprations sur les ensembles


Soient A et B deux ensembles quelconques.
Intersection
Lintersection de A et B, note A B , est lensemble des lments x tels que x A et
x B . Soit :
A B = { x : x A et x B }
Le terme et est employ au sens x A et B si x appartient la fois A et B

2013 - 2014

Biostatistique - Carrat, Mallet, Morice

19/179

Rappels mathmatiques

AB
B

A
E

Cas particulier : si A B = , on dit que A et B sont disjoints.


Runion
La runion de A et B, note A B , est lensemble des lments x tels que x A ou
x B . Soit :
A B = { x : x A ou x B }
Le terme ou est employ au sens x A ou B si x appartient A, ou B, ou A et B
(car x A et B signifie x A et x B ).
AB
B

A
E

Complmentaire
Le complmentaire de A est lensemble des lments de E qui nappartiennent pas A.
CA = A = x : x A

CA
A
E
Diffrence
La diffrence entre A et B, ou complmentaire de B relatif A, est lensemble des lments
de A qui nappartiennent pas B.
A B = C A B = x : x B et x A

C AB
A

20/179

Biostatistique - Carrat, Mallet, Morice

2013 - 2014

Rappels mathmatiques

Algbre des ensembles


AA = A

AA = A

A B C = A B C

A B C = A B C

AB = BA

AB = BA

A B C = A B A C

A B C = A B A C

A = A

AE = A

AE = E

A =

A CA = E

A CA =

CC A = A
CA B = CA CB

CE = , C = E
CA B = CA CB

2.3 Ensembles finis, dnombrables, non


dnombrables

Un ensemble est fini sil est vide () ou sil contient un nombre fini dlments ; sinon, il est
infini :
A = {a 1, a 2, a 3} est fini ;
I = { x [0,1] } est infini.
Un ensemble infini est dit dnombrable si on peut faire correspondre de faon unique chaque
lment de lensemble un entier naturel et un seul :
A = {n : n est un entier pair} est infini dnombrable.
Un ensemble infini est non dnombrable dans le cas contraire. Dans la pratique, les seuls ensembles infinis non dnombrables que nous rencontrerons seront des intervalles de :
{ x [a,b] } ou des intervalles de 2 : { x y : x [a,b] y [c,d] }.

2.4 Ensembles produits


Soient A et B deux ensembles ; lensemble produit de A et de B, not A B , est lensemble de tous
les couples ordonns (a, b), avec a A et b B .
Exemples :

2013 - 2014

Biostatistique - Carrat, Mallet, Morice

21/179

Rappels mathmatiques

A = {a, b, c} ; B = {1, 2}
A B = { (a, 1), (a, 2), (b, 1), (b, 2), (c, 1), (c, 2) }
est le plan cartsien, chaque lment de tant dfini par son abscisse et son
ordonne :

(a,b)
b

2.5 Familles densembles


Les lments dun ensemble peuvent eux-mmes tre des ensembles. On dit alors que ces ensembles font partie de la mme classe ou de la mme famille.
Parties
Soit un ensemble A quelconque. On appelle famille des parties de A lensemble des sousensembles de A.
Exemple : A = {1, 2}
P A = {, 1 2 {1, 2}}
Partition
Une partition dun ensemble A est une subdivision de A en sous-ensembles disjoints dont
la runion forme A.
Notation
Soit une famille densembles {Ai } = {A 1, A 2, ...., An , ....} qui peut tre finie ou non. On
note :
Ai = A1 A2 ... An ...
i

Ai

= A 1 A 2 ... A n ...

2.6 Autres rappels mathmatiques


2.6.1 Rappel sur les sommes
n

Soit {ai } une suite de termes ai . On note


Proprits :

22/179

ai

= a 1 + a 2 + ... + a n .

i=1

Biostatistique - Carrat, Mallet, Morice

2013 - 2014

Rappels mathmatiques

1.

ai + bi

ai + bi

2.

kai = k ai
i

Si k est une constante (indpendante de i), elle peut tre sortie de la somme.

2.6.2 Rappel sur les intgrales


Dfinition
Soit f une fonction relle. Lintgrale dfinie de cette fonction sur lintervalle [a,b] est
laire sous la courbe de f sur lintervalle [a,b].
b
Elle est note f x dx .
a

f x

a f x dx
b

Proprits
1.

a f x + g x dx

2.

a kf x dx

3.

a f x dx

a f x dx + a g x dx
b

= k f x dx

b
a

a f x dx + c f x dx
c

Fonction primitive
Soit f une fonction relle. Laire sous la courbe sur lintervalle ]- x] varie lorsquon fait
varier x de - +Cette aire est une fonction F de x, appele fonction primitive de f. Elle
est dfinie par :
x
F x = f d

Noter lutilisation de la variable dintgration . On peut utiliser nimporte quel nom de variable (il sagit dune variable muette), diffrent de la borne dintgration x.
Proprits

2013 - 2014

f d , alors f x
x

dF x
= -------------dx

1.

Si F x =

2.

Donc F se dduit de f par intgration, et f se dduit de F par drivation.


b
f x dx = F b F a
a

Biostatistique - Carrat, Mallet, Morice

23/179

Rappels mathmatiques

24/179

Biostatistique - Carrat, Mallet, Morice

2013 - 2014

Elments de calcul des Probabilits

Chapitre 3
Elments de calcul des
Probabilits
3.1 Introduction
Le calcul des probabilits est la thorie mathmatique, donc fonde axiomatiquement, qui permet
de modliser des phnomnes alatoires, ou non dterministes.
De tels phnomnes sont bien reprsents par les jeux de hasard dont ltude a initi le calcul des
probabilits. Considrons le cas du jeu de ds ; lorsquon jette un d on est certain quil va tomber
sur la table (phnomne dterministe), mais on nest pas capable de prdire la valeur qui va sortir
(phnomne alatoire).
Un phnomne dterministe est un phnomne dont on peut prvoir le rsultat ; les lois de la physique classique sont des modles permettant de prdire le rsultat dune exprience donne. La loi
dOhm permet de prdire la valeur de lintensit du courant connaissant la rsistance et la tension
aux bornes. Les lois de la physique mettent en vidence une rgularit qui permet de prdire les
rsultats dune exprience lorsquon contrle les causes.
Les phnomnes alatoires exhibent un autre type de rgularit. Prenons le cas des lois de Mendel.
Mendel tait un biologiste qui tudiait les rsultats du croisement de deux espces de plantes ; plus
prcisment, il tudiait la transmission de caractres comme la couleur, laspect, etc. Une observation typique de rgularit dun nouveau type est dobserver que, sur une srie suffisamment grande
de croisements de deux espces A et B, on observait par exemple, dans 1/4 des cas, les caractres
de A, et dans 3/4 des cas, les caractres de B. Une telle rgularit frquentielle a donn lieu ce
quon appelle les lois de Mendel. Cette rgularit permet de prdire la frquence dapparition dun
phnomne, ce qui est plus faible que la prdiction dterministe. Ltude et la modlisation de
tels phnomnes (la recherche de lois) est le champ dapplication du calcul des probabilits.

2013 - 2014

Biostatistique - Carrat, Mallet, Morice

25/179

Elments de calcul des Probabilits

3.2 Exprience alatoire, ensemble


fondamental et vnements
Exprience alatoire
On sintresse ici aux seules expriences dont le rsultat nest pas prvisible, les expriences alatoires. Une exprience alatoire est aussi appele une preuve.
Ensemble fondamental
Pour une exprience alatoire donne, lensemble des rsultats possibles est appel lensemble fondamental, que nous noterons E dans la suite du cours. Chaque rsultat dexprience est un point de E ou un lment de E.
Evnement
Un vnement A est un sous ensemble de E, cest--dire un ensemble de rsultats.
Lvnement {a}, constitu par un seul point de E, donc par un seul rsultat a E , est appel vnement lmentaire.
Lensemble vide ne contient aucun des rsultats possibles : il est appel vnement impossible.
Lensemble E contient tous les rsultats possibles : cest lvnement certain.
Si E est fini, ou infini dnombrable, tout sous-ensemble de E est un vnement ; ce nest
pas vrai si E est non dnombrable (ceci sort du cadre de ce cours).
On note parfois lensemble de tous les vnements.
Exemples
1.

2.

3.

26/179

On jette un d et on observe le rsultat obtenu. Lensemble fondamental est form par


les 6 rsultats possibles :
E = {1, 2, 3, 4, 5, 6}
Lvnement correspondant lapparition dun nombre pair est A = {2, 4, 6}, qui est
bien un sous ensemble de E.
Lvnement correspondant lapparition dun nombre premier est B = {1, 2, 3, 5},
et lvnement correspondant lapparition dun 3 est C = {3}.
Dans lexemple prcdent E tait fini et donc dnombrable ; E peut tre infini dnombrable comme dans le cas suivant. On jette une pice de monnaie jusqu ce quon obtienne pile ; lensemble fondamental correspondant est la suite des nombres entiers
E = {1, 2, 3, ..., n, ...} puisquon peut avoir un pile au bout dun jet, de 2 jets, de n jets,
n tant aussi grand que lon veut.
On vise avec une flchette une cible suffisamment grande ; si on admet que la flchette
est trs fine, comme le serait un point de la gomtrie, lespace fondamental est la surface de la cible qui est constitue de points et donc infinie et non dnombrable.

Biostatistique - Carrat, Mallet, Morice

2013 - 2014

Elments de calcul des Probabilits

3.3 Oprations sur les vnements


Les vnements peuvent se combiner entre eux pour former de nouveaux vnements. Si A et B
sont deux vnements, les oprations de combinaison sont :
1.
2.
3.

A B est lvnement qui se produit si A ou B (ou les deux) est ralis.


Il est parfois not A + B ou A ou B.
A B est lvnement qui se produit si A et B sont raliss tous les deux.
Il est parfois not A B ou A et B.
C A est lvnement qui se produit quand A nest pas ralis. On lappelle aussi ngation de
A.
Il est parfois not non A , ou A .

Evnements incompatibles
Quand deux vnements A et B sont tels que A B = , ils ne peuvent tre raliss simultanment. On dit quils sexcluent mutuellement, ou quils sont incompatibles.
Systme complet dvnements
On dit que les vnements A 1, A 2, ..., An forment une famille complte si les Ai constituent
une partition de E, cest--dire si :
1.
2.

les vnements sont deux deux disjoints : i j , A i A j =


ils couvrent tout lespace : A i = E

i
Exemple
Reprenons lexemple prcdent du jeu de ds :
E = {1, 2, 3, 4, 5, 6}, A = {2, 4, 6}, B = {1, 2, 3, 5}, C = {3}.
A B = 1 2 3 4 5 6 = apparition dun nombre pair ou premier
A B = 2 = apparition dun nombre pair et premier
C C = 1 2 4 5 6 = apparition dun nombre autre que 3
A C = : A et C sexcluent mutuellement.

3.4 Rgles du calcul des probabilits


Soit un ensemble fondamental E. Nous introduisons une fonction Pr qui, tout vnement A, associe un nombre rel positif ou nul.
Pr est dite fonction de probabilit, et Pr(A) est appele probabilit de lvnement A, si les conditions ou rgles suivantes sont satisfaits :
1.
2.
3.
4.

Pr A 0 pour tout vnement A : une probabilit est positive ou nulle


Pr E = 1 : la probabilit de lvnement certain est 1
A B = Pr A B = Pr A + Pr B : permet le calcul de la probabilit de la
runion de deux vnements disjoints
Soit un ensemble dnombrable (fini ou non) dvnements Ai deux deux disjoints

2013 - 2014

Biostatistique - Carrat, Mallet, Morice

27/179

Elments de calcul des Probabilits

( A i A j = ), alors Pr A 1 A 2 ... = Pr A 1 + Pr A 2 + ... .


Cette quatrime condition est proche de la troisime. Elle ne peut cependant pas sen dduire
dans le cas dun ensemble dvnements infini dnombrable.
Proprits importantes dduites des quatre conditions prcdentes :
1.

2.

3.
4.

Pr = 0
Soit A un vnement quelconque. A et sont videmment disjoints puisque A = ;
donc Pr A = Pr A + Pr . Or A = A ; donc Pr A = Pr A . Do
Pr = 0 .
Pr A 1
A et son complmentaire C A sont disjoints, et leur runion forme E, de probabilit 1. Donc
Pr E = 1 = Pr A C A = Pr A + Pr C A . Toute probabilit tant positive ou
nulle, on obtient bien Pr A 1 .
Pr C A = 1 Pr A
A dmontrer en exercice, en notant que E = A C A .
Si A B , alors Pr A Pr B .
A dmontrer en exercice, en notant que B = A C B A .

CB A
B
A

5.

Pr C A B = Pr A Pr A B
A dmontrer en exercice, en remarquant que A =

CA B A B .
AB

CA B
B
A

6.

Pr A B = Pr A + Pr B Pr A B
A dmontrer en exercice, en remarquant que A B =

CA B B .

CA B
A

28/179

Biostatistique - Carrat, Mallet, Morice

2013 - 2014

Elments de calcul des Probabilits

3.5 Remarque
Alors que Pr = 0 , il existe des vnements non vides qui peuvent avoir une probabilit nulle.
Dans le cas dun ensemble infini non dnombrable, un tel vnement nest pas ncessairement
impossible : il est alors dit presque impossible .
Exemple
Considrons lexprience qui consiste choisir au hasard un point sur une feuille de papier
quadrill avec une pointe de compas infiniment fine. La probabilit de lvnement piquer
dans un carr donn a une certaine valeur (par exemple celle du rapport de la surface du
carr avec celle de la feuille de papier) ; en revanche, si on rduit le carr un point (carr
infiniment petit) la probabilit deviendra zro alors que lvnement (piquer dans ce carr
si petit quil est devenu un point) nest pas impossible.
De mme un vnement de probabilit 1 peut ne pas tre certain. Il est alors qualifi de presque
certain .

3.6 Illustration de quelques ensembles


probabiliss
3.6.1 Ensemble probabilis fini
Soit E = {a 1, a 2, ..., an } un ensemble fondamental fini. On probabilise cet ensemble en attribuant
chaque point ai un nombre pi , probabilit de lvnement lmentaire {ai }, tel que :
1.
2.

pi 0
p 1 + p 2 + ... + p n = 1

La probabilit dun vnement quelconque A est la somme des probabilits des ai quil contient :
Pr A = p i
ai A

Exemple
On jette 3 pices de monnaie et on compte le nombre de face obtenu. Lensemble fondamental correspondant cette exprience est E = {0, 1, 2, 3} puisquon peut obtenir
comme rsultat de lexprience : 0 fois face (3 fois pile ), 1 fois face (2 fois
pile ), 2 fois face , ou 3 fois face .
On probabilise cet ensemble fini en donnant une valeur p 0, p 1, p 2 et p 3 aux vnements
{0}, {1}, {2} et {3} ; comme par exemple p 0 = 1/8, p 1 = 3/8, p 2 = 3/8 et p 3 = 1/8.
Considrons lvnement A tel quon ait au moins 2 fois face , A = {a 2, a 3} :
Pr(A) = p 2 + p 3 = 3/8 + 1/8 = 4/8 = 1/2

2013 - 2014

Biostatistique - Carrat, Mallet, Morice

29/179

Elments de calcul des Probabilits

3.6.2 Ensemble fini quiprobable


Cest un ensemble fini probabilis tel que tous les vnements lmentaires ont la mme probabilit. On dit aussi quil sagit dun espace probabilis uniforme.
E = {a 1, a 2, ..., an } et Pr({a 1}) = p 1, Pr({a 2}) = p 2, ..., Pr({an }) = pn
avec p 1 = p 2 = ... = pn = 1/n
Les jeux de hasard - ds, cartes, loto, etc. - entrent prcisment dans cette catgorie :

jeu de ds : E = {1, 2, 3, 4, 5, 6} ; p 1 = p 2 = p 3 = p 4 = p 5 = p 6 = 1/6


jeu de cartes : E = {ensemble des cartes dun jeu de 52 cartes} ; pi = 1/52

Proprit
Dans un ensemble fini quiprobable, la probabilit dun vnement A est gale au rapport
du nombre de rsultats tel que A est vrai, sur le nombre dvnements de E.
Remarque
Quand on dit quon tire au hasard , on sous-entend que lensemble probabilis considr
est quiprobable.
Exemple
On tire au hasard une carte dans un jeu de 52 cartes.
Quelle est la probabilit de tirer un trfle ?
13
1
nombre de trfles
Pr tirer un trfle = ------------------------------------------ = ------ = --nombre de cartes
52
4
Quelle est la probabilit de tirer un roi ?
4
1
nombre de rois
Pr tirer un roi = ----------------------------------------- = ------ = -----nombre de cartes
52
13
Quelle est la probabilit de tirer un roi de trfle ?
1
Pr tirer un roi de trfle = -----52
Remarque
Le cas des ensembles finis quiprobables est le plus simple apprhender. Il faut insister
sur le fait que lquiprobabilit nest quun cas particulier des ensembles probabiliss ; ce
nest (de loin) pas le plus utile en mdecine.

3.6.3 Ensembles probabiliss infinis


3.6.3.1 Cas dnombrable
On a alors un ensemble fondamental de la forme E = {a 1, a 2, ..., an , ...} comme dans le cas fini.
Cet ensemble fondamental est probabilis en affectant chaque lment ai une valeur relle pi
telle que :

30/179

Biostatistique - Carrat, Mallet, Morice

2013 - 2014

Elments de calcul des Probabilits

p i 0 et

pi

= 1.

i=1

La probabilit dun vnement quelconque est alors la somme des pi correspondant ses lments.
Exemple 1
A = {a 25, a 31, a 43}
Pr(A) = p 25 + p 31 + p 43
Exemple 2
Si on reprend lexprience consistant jeter une pice et compter le nombre de jets jusqu ce quon obtienne un rsultat pile (cest un espace infini dnombrable), on peut
construire un espace probabilis en choisissant :
1
1
1
p 1 = --- p 2 = --- ... p n = ----n- ... p = 0
2
4
2
Remarque :
Le choix des pi est arbitraire ; en ralit, il est justifi soit par des considrations a priori
(dans le cas de lexprience prcdente on suppose que chaque jet constitue une exprience avec Pr(pile) = Pr(face) = 1/2 et que le rsultat dun jet ninflue pas sur le suivant).
Il peut tre aussi estim ; cest le problme des statistiques qui, partir de nombreuses ralisations de lexprience, permet dapprocher les valeurs pi (ce point sera revu dans la suite
du cours et constitue lobjet de lapproche statistique).

3.6.3.2 Cas dun ensemble probabilis infini non dnombrable


Pour illustrer ce cas, on peut prendre lexemple de la chute dun satellite en fin de vie (ce fut le cas,
en octobre 1993 pour un gros satellite chinois dont on parla beaucoup dans la presse). Dans ltat
actuel des connaissances sur lorbite de ce satellite, on nest pas capable de prdire lendroit de la
chute ; lhypothse retenue est alors celle dun espace de probabilit uniforme. Dans ce cas, le satellite a la mme chance de tomber dans nimporte quelle parcelle du monde et on peut calculer la
probabilit quil tombe sur Paris comme le rapport de la surface de Paris sur la surface du globe.
Lorsquon se rapprochera de lchance, on pourra avoir des hypothses plus prcises, et on pourra
prdire par exemple que le point de chute aura un maximum de probabilit dans une rgion, la probabilit autour de cette rgion tant dautant plus petite quon sloigne de ce maximum.
Il sagit bien sr dun espace infini non dnombrable puisquon peut rduire (au moins par lesprit)
la taille de llment de la rgion considre celle dun point. Des probabilits peuvent donc tre
associes chaque rgion de taille non nulle, mais la probabilit dune chute en un point donn est
nulle, puisque sa surface est nulle. Nous verrons dans la suite que les probabilits se calculent gnralement partir dune densit (de probabilit) associe chaque point : lorsque les points dune
rgion ont une densit leve, la probabilit de chute dans cette rgion est leve.

2013 - 2014

Biostatistique - Carrat, Mallet, Morice

31/179

Elments de calcul des Probabilits

32/179

Biostatistique - Carrat, Mallet, Morice

2013 - 2014

Probabilit Conditionnelle ; Indpendance et Thorme de Bayes

Chapitre 4
Probabilit Conditionnelle ;
Indpendance et Thorme de
Bayes
4.1 Probabilit conditionnelle
Soient A et B deux vnements quelconques dun ensemble fondamental E muni dune loi de probabilit Pr. On sintresse ce que devient la probabilit de A lorsquon apprend que B est dj
ralis, cest--dire lorsquon restreint lensemble des rsultats possibles E B.
La probabilit conditionnelle de A, sachant que lvnement B est ralis, est note Pr(A/ B) et est
dfinie par la relation suivante :
Pr A B
Pr A B = -------------------------Pr B
Equation 1 : probabilit conditionnelle
Dans cette quation, les probabilits des vnements A B et B doivent tre calcules sur tout
lensemble fondamental E, comme si on ne savait pas que B sest dj ralis. Sinon, on obtient
videmment Pr(B) = 1.

AB
Figure 1 : probabilit conditionnelle
Cette relation gnrale pour tout espace probabilis sinterprte facilement dans le cas o E est un

2013 - 2014

Biostatistique - Carrat, Mallet, Morice

33/179

Probabilit Conditionnelle ; Indpendance et Thorme de Bayes

espace quiprobable (mais cette relation est vraie pour un espace non-quiprobable !). En notant
A le nombre dlments de A :
AB
B
AB
Pr A B = ----------------- Pr B = ------ Pr A B = ----------------E
E
B
Pr(A/ B) traduit le rapport de la surface de A B sur la surface de B dans la figure 1.
Toujours dans le cas o E est quiprobable, on a
nombre de ralisations possibles de A et B en mme temps
Pr A B = --------------------------------------------------------------------------------------------------------------------------------------------nombre de ralisations de B
Cette interprtation de la probabilit conditionnelle, facile apprhender dans le cas dquiprobabilit, est la dfinition gnrale de la probabilit conditionnelle quon doit utiliser telle quelle, sans
chercher une interprtation frquentiste dans tous les cas.
Exemple
On jette une paire de ds bien quilibrs (espace quiprobable). On observe une ralisation
de lvnement {somme des ds = 6}. Quelle est la probabilit pour quun des deux ds ait
donn le rsultat 2 ?
B = {somme des deux ds = 6}
A = {au moins un des deux ds donne 2}
B = {(2, 4), (4, 2), (1, 5), (5, 1), (3, 3)}
Nombre de ralisations de A B = {(2, 4), (4, 2)} = 2
2
AB
11
Do Pr A B = ----------------- = --- , alors que Pr A = ------ ( vrifier).
B
5
36

4.2 Thorme de la multiplication


Pr A B
Reprenons lquation 1, dfinition des probabilits conditionnelles : Pr A B = -------------------------Pr B
On en tire immdiatement
Pr A B = Pr A B Pr B = Pr B A Pr A
Equation 2 : thorme de la multiplication
Lquation 2 peut se gnraliser facilement. Soient A 1, ..., An des vnements quelconques dun
espace probabilis ; partir de lquation 2, on montre :
Pr A 1 A 2 ... A n = Pr A 1 Pr A 2 A 1 Pr A 3 A 1 A 2 ...Pr A n A 1 A 2 ... A n 1
Exemple
Une bote contient 10 articles dont 4 sont dfectueux. On tire 3 objets de cette bote. Calculer la probabilit pour que ces 3 objets soient dfectueux.
Pr(1er dfectueux) = 4/10
Pr(2me dfectueux / 1er dfectueux) = 3/9

34/179

Biostatistique - Carrat, Mallet, Morice

2013 - 2014

Probabilit Conditionnelle ; Indpendance et Thorme de Bayes

Pr(3me dfectueux / 1er et 2me dfectueux) = 2/8


Pr(1er et 2me et 3me dfectueux) = 4/103/92/8 = 1/30.

4.3 Diagramme en arbre


On considre une squence finie dexpriences dont chacune dentre elles a un nombre fini de rsultats possibles. Les probabilits associes aux rsultats possibles dune exprience dpendent du
rsultat de lexprience prcdente ; il sagit de probabilits conditionnelles. Pour reprsenter cette
squence, on utilise une reprsentation en arbre , le thorme prcdent permettant de calculer
la probabilit de chaque feuille de larbre.
Exemple
On sait que les taux de russite au concours dans les trois CHU Piti, Saint Antoine et
Broussais (luniversit Pierre et Marie Curie a longtemps comport ces 3 CHU) taient respectivement (donnes arbitraires) de 0,20 ; 0,15 ; et 0,10 (0,20 = Pr(Russite/Piti)) ; on
sait que 1/4 des tudiants de Paris VI taient Saint Antoine, 1/4 Broussais et 1/2 la
Piti. Quelle tait la probabilit quun tudiant de Paris VI soit reu au concours ?

0,15

1
R Pr R Saint Antoine = 0 15 --4

0,85

0,20

1
R Pr R Piti = 0 20 --2

0,80

0,10

0,90

Saint Antoine
1/4
1/2

Piti

1/4

1
Pr R Broussais = 0 10 --4

Broussais

R signifie russite et E chec.


Pr R = Pr R Saint Antoine + Pr R Piti + Pr R Broussais
Pr(R) = 0,151/4 + 0,201/2 + 0,101/4 = 0,1625
La probabilit quun chemin particulier de larbre se ralise est, daprs le thorme de la
multiplication, le produit des probabilits de chaque branche du chemin.
Les chemins sexcluant mutuellement, la probabilit dtre reu est gale la somme des
probabilits dtre reu pour tout chemin aboutissant un tat R (reu).

2013 - 2014

Biostatistique - Carrat, Mallet, Morice

35/179

Probabilit Conditionnelle ; Indpendance et Thorme de Bayes

4.4 Thorme de Bayes


En reprenant lquation 2 page 34 (section 4.2), on obtient la formule de Bayes :
Pr A B Pr B
Pr B A = -------------------------------------Pr A
Equation 3 : formule de Bayes
Le thorme est une forme dveloppe de cette formule que nous introduisons maintenant.
Considrons des vnements A 1, ..., An tels quils forment une partition de lensemble fondamental E.
Par dfinition, les Ai sexcluent mutuellement et leur union est E :
n

i j , A i A j = ;

Ai = E
i=1

Soit B un vnement quelconque


A1
B
A2
A3
De E = A 1 A 2 ... A n et de B E = B , on tire B = B A 1 A 2 ... A n .
Soit, par distributivit, B = B A 1 B A 2 ... B A n .
En remarquant que les B A i sont exclusifs, puisque les Ai le sont, et en appliquant la 3me rgle
du calcul des probabilits on obtient la formule dite des probabilits totales :
Pr B = Pr B A 1 + Pr B A 2 + ... + Pr B A n
Equation 4 : probabilits totales
En appliquant le thorme de la multiplication :
Pr B = Pr B A 1 Pr A 1 + Pr B A 2 Pr A 2 + ... + Pr B A n Pr A n
Pr B A i Pr A i
Or, par la forme simple du thorme de Bayes, on a Pr A i B = ----------------------------------------Pr B
Do le thorme de Bayes :
Pr B A i Pr A i
Pr A i B = ---------------------------------------------------------------------------------------------------------------------------------------------------------Pr B A 1 Pr A 1 + Pr B A 2 Pr A 2 + ... + Pr B A n Pr A n
Equation 5 : thorme de Bayes

36/179

Biostatistique - Carrat, Mallet, Morice

2013 - 2014

Probabilit Conditionnelle ; Indpendance et Thorme de Bayes

Exemple 1
Reprenons lexemple des rsultats au concours des tudiants de Paris VI.
Comme prcdemment, soit R lvnement un tudiant de Paris VI est reu . On a, en
notant C 1, C 2, C 3 les 3 anciens CHU Saint Antoine, Piti et Broussais respectivement :
Pr(R) = Pr(R/C 1)Pr(C 1) + Pr(R/C 2)Pr(C 2) + Pr(R/C 3)Pr(C 3)
[noter que cest la mme chose que la somme des probabilits des chemins de larbre, qui
conduisent un succs]
Le thorme de Bayes permet de rpondre la question duale. Au lieu de chercher la probabilit dobtenir un tudiant reu sachant quil venait dun CHU donn, on cherche la probabilit quun tudiant ait t inscrit un CHU donn sachant quil a t reu (probabilit
des causes).
Calculons la probabilit quun tudiant reu soit issu du CHU Piti-Salptrire.
Pr R C 2 Pr C 2
Pr C 2 R = -------------------------------------------------------------------------------------------------------------------------------------------------Pr R C 1 Pr C 1 + Pr R C 2 Pr C 2 + Pr R C 3 Pr C 3
Avec Pr(C 1) = 0,25 ; Pr(C 2) = 0,50 ; Pr(C 3) = 0,25 ;
et Pr(R/C 1) = 0,15 ; Pr(R/C 2) = 0,20 ; Pr(R/C 3) = 0,10.
0 20 0 50
Do Pr C 2 R = ------------------------------------------------------------------------------------------------------- = 0 61
0 15 0 25 + 0 20 0 50 + 0 10 0 25
Ce qui signifie que, dans ce cas, la probabilit quun tudiant appartienne C 2, sil est reu, est plus grande que si lon ne sait rien (probabilit a priori Pr(C 2) = 0,50).
Cette faon de calculer les probabilits des causes connaissant les effets est essentielle en
mdecine. En effet, le problme du diagnostic peut tre pos en ces termes.
Exemple 2
Considrons, pour illustrer notre propos, le problme du diagnostic dune douleur aigu de
labdomen. Il sagit dun patient arrivant aux urgences pour un mal au ventre .
Si lon ne sait rien dautre sur le patient (on na pas fait dexamen clinique ou complmentaire), on ne connat que les probabilits davoir tel ou tel diagnostic si on observe une douleur.
Soient D 1, D 2 et D 3 les 3 diagnostics principaux (il y en a en fait au moins une douzaine)
et exclusifs ; par exemple D 1 = appendicite, D 2 = perforation dulcre, D 3 = autres diagnostics.
Soit un signe s 1 pour lequel on connat Pr(s 1/D 1), Pr(s 1/D 2), et Pr(s 1/D 3).
Par exemple, s 1 serait prsence dune fivre 38,5C ; Pr(s 1/D 1) = 0,90 ; Pr(s 1/
D 2) = 0,30 ; et Pr(s 1/D 3) = 0,10.
Ces probabilits peuvent tre estimes sur une population de patients en dnombrant le
nombre de sujets ayant le diagnostic D 1 et prsentant le signe s 1. De mme, on peut
connatre Pr(D 1), Pr(D 2) et Pr(D 3).
Le problme diagnostique se pose comme celui de choisir par exemple le diagnostic le plus
probable connaissant le signe s 1 ; pour ce faire, on calcule Pr(D 1/s 1), Pr(D 2/s 1), Pr(D 3/
s 1) et on retient le diagnostic qui a la plus grande probabilit : cest lapplication de lapproche bayesienne au problme de laide au diagnostic.

2013 - 2014

Biostatistique - Carrat, Mallet, Morice

37/179

Probabilit Conditionnelle ; Indpendance et Thorme de Bayes

4.5 Indpendance entre vnements


On dit que deux vnements A et B sont indpendants si la probabilit pour que A soit ralis nest
pas modifie par le fait que B se soit produit. On traduit cela par Pr(A / B) = Pr(A).
Pr A B
Daprs la dfinition dune probabilit conditionnelle, Pr A B = -------------------------- , on tire la
Pr B
dfinition :
A et B sont indpendants si et seulement si Pr A B = Pr A Pr B .
La symtrie de cette dfinition implique quon a aussi bien Pr(A / B) = Pr(A) (A est indpendant
de B) que Pr(B / A) = Pr(B) (B est indpendant de A) : lapparition dun des deux vnements
ninflue pas sur lapparition de lautre.
Note
Ce qui est dfini prcdemment est lindpendance de deux vnements. Si on considre
maintenant 3 vnements A, B, C, on dira que ces 3 vnements sont indpendants :
1.
2.

sils sont indpendants 2 2 : A indpendant de B ; A indpendant de C ; et B indpendant de C


et si Pr A B C = Pr A Pr B Pr C . Cette condition nest pas une consquence des prcdentes.

4.6 Indpendance, inclusion et exclusion de


deux vnements
Considrons deux vnements A et B.
1.

Si A B (A est inclus dans B) : si A est ralis, alors B aussi.


B
A

Alors Pr A B = Pr A .
Pr A B
Pr A B
Pr A
Do Pr B A = -------------------------- = 1 et Pr A B = -------------------------- = --------------- .
Pr A
Pr B
Pr B
A et B ne sont pas indpendants.

38/179

Biostatistique - Carrat, Mallet, Morice

2013 - 2014

Probabilit Conditionnelle ; Indpendance et Thorme de Bayes

2.

Si A B = (A et B sont exclusifs) : si A est ralis, B ne peut pas ltre.


B
A

Alors Pr A B = Pr = 0 .
Pr A B
0
Do Pr A B = -------------------------- = --------------- = 0 .
Pr B
Pr B
De mme A et B ne sont pas indpendants.

2013 - 2014

Biostatistique - Carrat, Mallet, Morice

39/179

Probabilit Conditionnelle ; Indpendance et Thorme de Bayes

40/179

Biostatistique - Carrat, Mallet, Morice

2013 - 2014

Evaluation de lintrt diagnostique des informations mdicales

Chapitre 5
Evaluation de lintrt
diagnostique des informations
mdicales
5.1 Introduction
La tche essentielle des mdecins est de traiter les patients. Pour prescrire un traitement, il faut savoir, plus ou moins prcisment selon les cas, ce dont souffre le malade. Pour rsumer en un seul
terme un processus physiopathologique complexe, les mdecins ont cr des concepts : les diagnostics.
La recherche du diagnostic est donc la premire tape de la consultation clinique. Pour parvenir
au diagnostic, le mdecin accumule des informations, dont certaines lui sont spontanment livres
par le patient (le motif de la consultation, les symptmes), dautres doivent tre recherches mais
sont disponibles immdiatement (les signes physiques), dautres enfin sont dobtention plus ou
moins difficile et coteuse (les rsultats dexamens complmentaires). De nouvelles procdures
diagnostiques apparaissent frquemment : on a vu, par exemple, lapparition des chographies, de
la tomodensitomtrie (scanner), de lIRM, pour ne citer que le domaine de limagerie. Il nest bien
sr pas question deffectuer tous les examens complmentaires sur tous les malades : il faut donc
prciser les indications de ces examens, ce qui repose sur lvaluation de leur intrt diagnostique.
Avant daborder la mthodologie de lvaluation, nous reviendrons sur certains concepts utiliss
dans ce paragraphe.

5.1.1 Le diagnostic
On peut dfinir un diagnostic comme un concept rsumant ltat dun individu. Le terme de
diagnostic est donc beaucoup moins prcis quon pourrait le penser premire vue : on peut en
gnral fournir plusieurs diagnostics pour un mme tat physiopathologique, les termes diagnostiques utiliss dpendant de laspect privilgi. Parmi ces aspects, on peut citer :

la symptomatologie

2013 - 2014

Biostatistique - Carrat, Mallet, Morice

41/179

Evaluation de lintrt diagnostique des informations mdicales

la physiopathologie et ltiologie
la conduite thrapeutique

En pratique, la prcision du diagnostic dpendra souvent des possibilits thrapeutiques : par


exemple, on ne recherchera pas, en gnral, le virus responsable dun syndrome grippal, surtout si
on sattend ce que la maladie gurisse spontanment.
Dun point de vue statistique, le diagnostic sera souvent considr comme une variable alatoire
binaire : le patient souffre ou ne souffre pas de laffection considre, ou, exprim autrement, le
diagnostic est vrai ou faux chez ce patient. Les valeurs possibles de la variable seront notes M et
M (maladie prsente ou absente), ou D et D (diagnostic vrai ou faux).

5.1.2 Les informations mdicales


On divise lensemble des informations mdicales en signes cliniques et signes complmentaires.
Les signes cliniques sont diviss en signes fonctionnels ou symptmes, dcrits par le malade (spontanment ou par linterrogatoire) et signes physiques, recherchs par le mdecin. Les signes complmentaires peuvent tre biologiques ou radiologiques. Leur intrt peut tre :

diagnostique (caractre malin ou bnin dune tumeur)


thrapeutique (localisation prcise dune tumeur)
pronostique (extension ganglionnaire)

Dun point de vue statistique, ces signes peuvent tre reprsents par des variables binaires (prsence ou absence dun nodule sur une image) ou continues (cholestrolmie).
Nous considrons ici le seul cas dun signe binaire, prsent (not S) ou absent (not S ). Dans la
suite, on considre que la prsence du signe est vocateur de la maladie M.
Si linformation est de type continu, on se ramne au cas binaire par lintroduction dun seuil : dun
ct du seuil, les valeurs sont dites normales, et le signe binaire est absent ; de lautre ct du seuil,
les valeurs sont dites pathologiques, et le signe binaire est prsent.

5.1.3 Situation exprimentale et estimation


Quand on cherche valuer lintrt diagnostique dun signe pour une affection, on recherche le
signe chez des individus prsentant ou non laffection considre. Deux situations exprimentales
sont envisager :

un chantillon reprsentatif dune population est constitu. On pourra estimer, partir de cet
chantillon, toutes les probabilits dvnements par les frquences observes correspondantes (cette manire de faire sera revue plus tard, page 78) ;
deux chantillons sont constitus, lun reprsentatif des individus pour lesquels le diagnostic
est vrai, lautre reprsentatif des individus pour lesquels il est faux. Cette manire de procder
est souvent la seule possible en pratique, surtout quand la maladie considre est rare. Il faut
remarquer, cependant, quon ne peut plus estimer nimporte quelle probabilit par la fr-

42/179

Biostatistique - Carrat, Mallet, Morice

2013 - 2014

Evaluation de lintrt diagnostique des informations mdicales

quence observe correspondante ; ce point sera dvelopp plus loin dans ce chapitre.
Remarque : nous utilisons actuellement le mot estimation dans le sens dapproximation de la
vraie valeur. Nous donnerons des dfinitions plus rigoureuses dans le chapitre 10 page 99.

5.2 Les paramtres de lvaluation


5.2.1 Sensibilit et spcificit
La sensibilit dun signe pour une maladie est la probabilit que le signe soit prsent si le sujet est
atteint de la maladie considre.
Il sagit donc de la probabilit conditionnelle quon peut noter :
Sensibilit = Se =Pr(S / M)
Un test diagnostic est donc dautant plus sensible que les sujets atteints de la maladie prsentent
plus souvent le signe S.
La spcificit dun signe pour une maladie est la probabilit que le signe soit absent si le sujet nest
pas atteint de la maladie.
De manire similaire, on a :
Spcificit = Sp = Pr S M
Un test diagnostic est donc dautant plus spcifique que les sujets indemnes de la maladie prsentent moins souvent le signe S.
Pour un examen parfait , cest--dire neffectuant aucune erreur, les valeurs de la sensibilit et
de la spcificit sont gales 1.
Si la prsence du signe est dfinie par un seuil de positivit , on observe que ces deux paramtres
varient en sens inverse lorsquon fait varier ce seuil. Ceci explique quun seul de ces deux paramtres ne suffise pas valuer un examen. Supposons par exemple quon sintresse au signe temprature vis vis de la grippe. On considre que le signe est prsent si la temprature dpasse un
certain seuil, par exemple 39C. Si on augmente le seuil pour le porter 40C, la probabilit de
dpasser le seuil (chez les sujets gripps) va diminuer, donc la sensibilit diminue. En revanche, la
probabilit dtre en dessous du seuil (chez les sujets non gripps) va augmenter, donc la spcificit
augmente.
Un test diagnostique de bonne sensibilit conduit un rsultat positif chez presque tous les malades. Il est donc utilisable pour un dpistage. Si le test possde une bonne spcificit, il conduit
un rsultat ngatif chez presque tous les non-malades. Il pourrait donc tre utilis en tant quexamen de confirmation du diagnostic.
Ces considrations sont bien sr schmatiques, dautres lments intervenant dans lvaluation,

2013 - 2014

Biostatistique - Carrat, Mallet, Morice

43/179

Evaluation de lintrt diagnostique des informations mdicales

comme la frquence de la maladie (prvalence), les risques lis la maladie, lexamen, lexistence et les performances dautres examens concurrents...

5.2.2 Valeurs prdictives


En pratique, quand un mdecin reoit le rsultat dun examen complmentaire, positif ou ngatif,
il ne sait pas si le patient souffre de laffection quil cherche diagnostiquer ou non, et les probabilits qui lintressent sexpriment de la manire suivante : quelle est la probabilit de prsence
de la maladie M chez ce patient, sachant que lexamen a donn un rsultat positif (ou ngatif) ? Ces
probabilits sont appeles valeurs prdictives. Plus prcisment, on a :

la valeur prdictive positive dun signe pour une maladie est la probabilit que le sujet soit
atteint de la maladie si le signe est prsent ;
la valeur prdictive ngative dun signe pour une maladie est la probabilit que le sujet soit
indemne de la maladie si le signe est absent.

On peut noter ces paramtres :


VPP = Pr M S
VPN = Pr M S
Comme les sensibilit et spcificit, les valeurs prdictives positive et ngative varient en sens inverse, et doivent donc tre considres simultanment.
Les valeurs prdictives peuvent sexprimer en fonction du couple sensibilit - spcificit, et de la
frquence de la maladie dans la population (cette probabilit Pr(M) sappelle la prvalence de la
maladie). Il suffit dutiliser le thorme de Bayes :
Pr S M Pr M
VPP = Pr M S = -----------------------------------------------------------------------------------Pr S M P M + Pr S M Pr M
Se Pr M
= -------------------------------------------------------------------------------------------Se Pr M + 1 Sp 1 Pr M
Pr S M Pr M
VPN = Pr M S = -----------------------------------------------------------------------------------Pr S M P M + Pr S M Pr M
Sp 1 Pr M
= ------------------------------------------------------------------------------------------- 1 Se Pr M + Sp 1 Pr M

5.2.3 Comparaison des deux couples de paramtres


En situation clinique, on a vu que les valeurs prdictives correspondent aux proccupations des mdecins, et elles pourraient sembler les meilleurs paramtres dvaluation. Pourtant, en ralit,
cest la sensibilit et la spcificit qui sont le plus souvent utilises pour valuer les examens com-

44/179

Biostatistique - Carrat, Mallet, Morice

2013 - 2014

Evaluation de lintrt diagnostique des informations mdicales

plmentaires. La raison en est la suivante :


la sensibilit dun examen pour une affection repose sur la dfinition de la population des
malades , et est donc caractristique de la maladie et du signe. En particulier, elle nest pas susceptible de varier dun centre lautre (dun service hospitalier spcialis une consultation de mdecin gnraliste, par exemple). Le mme raisonnement peut sappliquer la spcificit, si on
considre quelle repose aussi sur la dfinition de la maladie.
Les valeurs prdictives, au contraire, sont fonctions des proportions respectives de malades et de
non-malades dans la population (de la prvalence de la maladie). Or ces proportions sont dpendantes des centres considrs ; les valeurs prdictives des examens varient donc dun centre
lautre pour une mme maladie, ce qui explique quelles sont moins utilises comme paramtre
dvaluation, mme si elles sont intressantes connatre pour un centre donn.

5.2.4 Choix dun seuil : courbes ROC


Lorsquun examen fournit des rsultats de type continu, il faut dterminer le meilleur seuil entre
les valeurs pathologiques et les valeurs normales. Lidal serait dobtenir une sensibilit et une spcificit gales 1. Ce nest gnralement pas possible, et il faut tenter dobtenir les plus fortes valeurs pour ces deux paramtres, sachant quils varient en sens inverse.
On saide pour ce choix dun outil graphique, la courbe ROC (Receiver Operating
Characteristics). Une courbe ROC est le trac des valeurs de la sensibilit Se en fonction de 1-Sp.

2013 - 2014

Biostatistique - Carrat, Mallet, Morice

45/179

Evaluation de lintrt diagnostique des informations mdicales

Cet exemple (tir du livre de A.J. Valleron) montre 3 courbes ROC correspondant 3 examens diffrents.
La courbe A est celle obtenue pour lexemple prcdent de la temprature et de la grippe. Le point
de la courbe le plus proche du coin suprieur gauche du carr contenant la courbe (ici Se = 0,65,
Sp = 0,75, et temprature = 39C)) est celui qui permet dobtenir un bon compromis entre sensibilit et spcificit (le coin suprieur gauche correspond Se = Sp = 1). En ralit, on ne choisira pas
toujours ce point, car il faut aussi tenir compte des cots des erreurs diagnostiques : il peut par
exemple tre beaucoup plus grave de ne pas dtecter une maladie, que de traiter tort.
La courbe B correspond un examen qui napporte rien au diagnostic, puisque les variables signe
et maladie sont ici indpendantes : Se = Pr S M = 1 Sp = Pr S M
La courbe C correspond un bon critre diagnostic pour lequel on peut obtenir simultanment des
valeurs leves de sensibilit et de spcificit.

46/179

Biostatistique - Carrat, Mallet, Morice

2013 - 2014

Evaluation de lintrt diagnostique des informations mdicales

5.3 Estimation des paramtres de lvaluation


5.3.1 Un chantillon reprsentatif
5.3.1.1 Les donnes
Quand on a un chantillon reprsentatif dune population, on peut rsumer les donnes de lexprience par un tableau de contingence 22, sur lequel sont indiqus les effectifs suivants :

VP (Vrais Positifs) : ce sont les individus malades (M) et chez lesquels le signe est prsent
{S} ;
FP (Faux Positifs) : la maladie est absente { M } et le signe est prsent {S} ;
FN (Faux Ngatifs) : la maladie est prsente {M) et le signe est absent { S } ;
VN (Vrais Ngatifs) : la maladie est absente { M } et le signe est absent { S }.
Tableau 1
M

VP

FP

FN

VN

5.3.1.2 Estimation de la sensibilit et de la spcificit


Par dfinition, sensibilit = Se = Pr(S / M)
On estime cette probabilit conditionnelle par le rapport des effectifs correspondants sur le tableau
de contingence observ :
VP
Se --------------------VP + FN
Note : On notera de manire identique, suivant un usage tabli, les paramtres vrais, qui sont des
probabilits conditionnelles, et leurs estimations, qui sont des rapports deffectifs observs.
VN
Spcificit = Sp = Pr S M --------------------VN + FP
Par exemple, calculons les estimateurs de ces paramtres dans le cas o on cherche diagnostiquer
un diabte partir dun signe de la forme la glycmie mesure jeun est suprieure ... ). Pour
deux seuils donns S1 et S2, on obtient les tableaux de contingence ci-dessous :
a.

Seuil S1

2013 - 2014

Biostatistique - Carrat, Mallet, Morice

47/179

Evaluation de lintrt diagnostique des informations mdicales

Tableau 2

b.

90

200

10

300

Seuil S2
Tableau 3
M

50

25

50

475

On peut estimer les sensibilits et spcificits correspondant aux deux seuils par :
Se1 90 / 100 = 0,90 ; Sp1 300 / 500 = 0,60
Se2 50 / 100 = 0,50 ; Sp2 475 / 500 = 0,95.
On retrouve ici le fait que sensibilit et spcificit varient en sens inverse.
On constate dautre part que le seuil S1 correspond une bonne sensibilit (lexamen est positif
chez 90 % des malades), mais une spcificit mdiocre (lexamen est positif chez 40 % des
non-malades ) ; il peut donc tre utilis pour un examen de dpistage, le diagnostic devant tre
confirm ultrieurement par un examen plus spcifique.
Le seuil S2, en revanche, induit un test dune sensibilit qui pourrait tre juge trop faible pour un
examen de dpistage. En revanche, sa spcificit peut tre acceptable pour un examen de confirmation.

5.3.1.3 Estimation des valeurs prdictives


Les estimations sobtiennent partir du mme tableau des donnes :
VP
VPP = Pr M S -------------------VP + FP
VN
VPN = Pr M S ---------------------VN + FN
Par exemple, pour les tableaux de contingence vus ci-dessus, on a :
VPP1 90 / 290 = 0,31 ; VPN1 300 / 310 = 0,97
VPP2 50 / 75 = 0, 67 ; VPN2 475 / 525 = 0,90
Ces rsultats peuvent sinterprter ainsi : en affirmant le diagnostic sur la base de la positivit de
lexamen, on se trompe dans 69 % des cas avec le seuil S1 et 33 % des cas avec le seuil S2 ; et en
liminant le diagnostic en constatant la ngativit de lexamen, on se trompe dans 3 % des cas avec

48/179

Biostatistique - Carrat, Mallet, Morice

2013 - 2014

Evaluation de lintrt diagnostique des informations mdicales

le seuil S1 et 10 % des cas avec le seuil S2.

5.3.2 Deux chantillons reprsentatifs


Linconvnient du schma exprimental ci-dessus (un seul chantillon) est que, si la maladie est
peu frquente ou rare, il faut constituer un chantillon de trs grande taille pour obtenir un nombre
suffisant de malades. Les non-malades, au contraire, seront trop nombreux. Cest pourquoi on
constituera souvent, en pratique, deux chantillons, un chantillon de malades et un chantillon de
non-malades. On peut encore rsumer les rsultats par un tableau comme celui du tableau 1 page
47, mais ce tableau doit tre interprt diffremment, les proportions respectives des malades et
non-malades ne correspondant plus la ralit : le rapport entre le nombre de malades et le nombre
de non-malades du tableau dpend des tailles respectives choisies pour les deux chantillons, et na
aucun lien avec la frquence de la maladie dans la population (la prvalence).
On peut toujours estimer la sensibilit et la spcificit comme ci-dessus. En effet, la sensibilit par
exemple est estime uniquement partir de VP et FN, donc de la rpartition des malades entre ceux
qui prsentent le signe et les autres. Or lchantillon des malades respecte cette rpartition.
En revanche, lestimation prcdente des valeurs prdictives utilisait la rpartition entre malades
et non malades, que le tableau actuel ne reprsente pas correctement.
Lestimation des valeurs prdictives reste cependant possible condition de connatre la prvalence de la maladie Pr(M). On utilisera les formules introduites section 5.2.2 page 44 :
Se Pr M
VPP = -------------------------------------------------------------------------------------------Se Pr M + 1 Sp 1 Pr M
Sp 1 Pr M
VPN = ------------------------------------------------------------------------------------------- 1 Se Pr M + Sp 1 Pr M
On remplacera dans ces formules la sensibilit et la spcificit par leurs estimations.

2013 - 2014

Biostatistique - Carrat, Mallet, Morice

49/179

Evaluation de lintrt diagnostique des informations mdicales

50/179

Biostatistique - Carrat, Mallet, Morice

2013 - 2014

Variables alatoires

Chapitre 6
Variables alatoires
6.1 Dfinition dune variable alatoire
Considrons un ensemble fondamental E correspondant une certaine exprience. Les lments
de E, rsultats possibles de lexprience, ne sont gnralement pas des nombres. Il est cependant
utile de faire correspondre un nombre chaque lment de E, en vue de faire ensuite des calculs.
Pour un jet de d, il semble naturel de faire correspondre la face obtenue par le jet, le nombre de
points quelle porte, mais ce nest pas une obligation. Si on jette 2 ds, on sintressera par exemple
la somme des points obtenus. Pour une carte jouer, il faut convenir dune valeur pour chaque
carte.
Une variable alatoire X, sur un ensemble fondamental E, est une application de E dans : tout
rsultat possible de lexprience ( tout lment de E), la variable alatoire X fait correspondre un
nombre.
Lorsque E est fini ou infini dnombrable, toute application de E dans est une variable alatoire.
Lorsque E est non dnombrable, il existe certaines applications de E dans qui ne sont pas des
variables alatoires. En effet, la dfinition rigoureuse dune variable alatoire X impose que tout
intervalle de soit limage dun vnement de E par lapplication X. Cette condition est vrifie
pour toute application X si E est fini ou dnombrable, puisque toute partie de E est un vnement.
Ce nest plus vrai si E est non dnombrable. Heureusement, les applications choisies naturellement
sont des variables alatoires.
On parle de variable alatoire discrte lorsque la variable est une application de E dans un sousensemble discret de , le plus souvent N ou une partie de N. On parle sinon de variable alatoire
continue.
Pour un nombre rel a donn, lvnement constitu de tous les rsultats dexprience tels que
X() = a est not [X() = a], ou, en abrg, X = a.
Pour deux nombres rels a et b (a b), lvnement constitu de tous les rsultats dexprience
tels que a X() b est not [a X() b] ou, en abrg, a X b.
Si X et Y sont des variables alatoires dfinies sur le mme ensemble fondamental E, et si k est
une constante, on peut montrer que les fonctions suivantes sont aussi des variables alatoires :
(X + Y)() = X() + Y()
(X + k)() = X() + k
(kX)() = kX()
(XY)() = X() Y()
pour tout lment de E.

2013 - 2014

Biostatistique - Carrat, Mallet, Morice

51/179

Variables alatoires

6.2 Variables alatoires finies


Considrons maintenant le cas le plus simple dune variable alatoire finie, que nous gnraliserons dans un second temps une variable alatoire infinie dnombrable, puis continue.
Soit X une variable alatoire sur un ensemble fondamental E valeurs finies :
X(E) = {x 1, x 2, ..., xn }.
X(E) devient un ensemble probabilis si lon dfinit la probabilit Pr(X = xi ) pour chaque xi , que
lon note pi . Lensemble des valeurs pi = Pr(X = xi ) est appel distribution ou loi de probabilit de
X.
Puisque les pi sont des probabilits sur les vnements {X=x 1, X=x 2, ..., X=xn }, on a :
n

i p i 0 et

pi

= 1.

i=1

6.2.1 Reprsentation dune loi de probabilit finie


On peut reprsenter la loi de probabilit pi par une table :
x1

x2

........

xn

p1

p2

........

pn

Ou par un diagramme en btons :


pi

x1

x2

x3

x4

xn

xi

o la hauteur du bton positionn en xi a pour valeur pi .

6.2.2 Esprance mathmatique dune variable finie


Lesprance mathmatique cherche traduire la tendance centrale de la variable alatoire. Il sagit
dune moyenne o chacune des valeurs xi intervient dautant plus que sa probabilit est importante,
cest--dire dun barycentre ou dun centre de gravit. On dfinit alors la moyenne thorique (parfois aussi appele vraie), ou esprance mathmatique dune variable X par
n

X = E X =

xi pi

= x 1 p 1 + x 2 p 2 + ... + x n p n .

i=1

52/179

Biostatistique - Carrat, Mallet, Morice

2013 - 2014

Variables alatoires

X peut tre note sil ny a pas de confusion possible.


Exemple
On considre lexprience qui consiste jeter deux ds parfaitement quilibrs. Lespace
fondamental est constitu par lensemble des couples ordonns
E = {(1, 1), (1, 2), (1, 3), ..., (6, 6)}
Cest un espace quiprobable (tous les couples rsultats lmentaires du tirage sont quiprobables).
Considrons la variable alatoire dfinie comme suit : soit r = (a, b) un lment quelconque de E ; on pose X(r) = X(a, b) = max(a, b)
(la valeur de X(r) est gale a si a > b et b dans le cas contraire).
X est une variable alatoire sur E avec X(E) = {1, 2, 3, 4, 5, 6},
et la loi de probabilit
p 1 = Pr(X = 1) = Pr({(1, 1)}) = 1/36 ;
p 2 = Pr(X = 2) = Pr({(1, 2), (2, 1), (2, 2)}) = 3/36 ;
p 3 = 5/36 ; p 4 = 7/36 ; p 5 = 9/36 ; p 6 = 11/36.
Soit :
xi

pi

1/36

3/36

5/36

7/36

9/36

11/36

E(X) = 1/36 + 6/36 + 15/36 + 28/36 + 45/36 + 66/36 = 161/36 4,47


pi

E(X)

xi

Thormes
1.

2.

2013 - 2014

Soit X une variable alatoire et k une constante relle. On a :


E(kX) = kE(X)
E(X + k) = E(X) + k
Soient X et Y deux variables alatoires dfinies sur le mme espace fondamental E.
On a :
E(X + Y) = E(X) + E(Y)

Biostatistique - Carrat, Mallet, Morice

53/179

Variables alatoires

On en dduit que pour n variables alatoires Xi , dfinies sur le mme espace


fondamental :
n
n

E X i = E X i
i = 1
i=1
(lesprance de la somme est la somme des esprances).
Exemple
Considrons lexprience du jeu de ds o E = {1, 2, 3, 4, 5, 6} uniforme (quiprobable).
Soit X(E) une premire variable alatoire dfinie par
X(E) = {1, 2, 3, 4, 5, 6}
et pX 1 = pX 2 = pX 3 = pX 4 = pX 5 = p X6 = 1/6
E(X) = (1 + 2 + 3 + 4 + 5 + 6) / 6 = 21/6
Soit Y(E) une seconde variable alatoire telle que
Y(E) = 1 si le chiffre tir est impair
Y(E) = 2 si le chiffre tir est pair.
Donc Y(E) = {1, 2}
pY 1 = Pr({1, 3, 5}) = 1/2
pY 2 = Pr({2, 4, 6}) = 1/2
E(Y) = 1/2 + 1 = 1,5
Calculons maintenant la loi de (X + Y)(E)
(X + Y)(r) = X(r) + Y(r)
Pour r = 1, (X + Y)(1) = X(1) + Y(1) = 1 + 1 = 2
Pour r = 2, (X + Y)(2) = X(2) + Y(2) = 2 + 2 = 4
Pour r = 3, (X + Y)(3) = X(3) + Y(3) = 3 + 1 = 4
Pour r = 4, (X + Y)(4) = X(4) + Y(4) = 4 + 2 = 6
Pour r = 5, (X + Y)(5) = X(5) + Y(5) = 5 + 1 = 6
Pour r = 6, (X + Y)(6) = X(6) + Y(6) = 6 + 2 = 8
On a donc (X + Y)(E) = {2, 4, 6, 8} et
Pr((X + Y) = 2) = 1/6, Pr((X + Y) = 4) = 2/6, Pr((X + Y) = 6) = 2/6, Pr((X + Y) = 8) = 1/6
E(X + Y) = 2/6 + 8/6 + 12/6 + 8/6 = 30/6
Or on retrouve bien ce rsultat en utilisant E(X) + E(Y) = 21/6 + 3/2 = 30/6.
Remarque
Lorsquon doit calculer lesprance dune fonction g(X), il faut tudier la variable Y = g(X)
dont les valeurs sont y 1 = g(x 1), y 2 = g(x 2), ..., yn = g(xn ). Alors :
Pr(Y = yi ) = Pr[g(X) = g(xi )]
Si g est une fonction monotone, on a g(X) = g(xi ) X = xi
Do Pr(Y = yi ) = Pr(X = xi ) = pi
n
n
Donc :
E g X = E Y = y i Pr Y = y i = g x i p i
i=1

i=1

On montre que ce rsultat reste valide, mme si g nest pas monotone.


Par exemple, si lon doit calculer E(X 2), on considre la variable Y = X 2 dont les valeurs
sont y 1 = x 12, y 2 = x 22, ..., yn = xn 2. Alors :

54/179

Biostatistique - Carrat, Mallet, Morice

2013 - 2014

Variables alatoires

yi Pr Y = yi

EX = EY =

i=1

xi pi
2

i=1

On constate que pour calculer lesprance dun carr, il faut lever les valeurs x i au carr,
mais pas les probabilits pi associes.

6.2.3 Variance et cart-type dune variable finie


Aprs avoir traduit la tendance centrale par lesprance, il est intressant de traduire la dispersion
autour de lesprance par une valeur (la variance ou lcart-type).
2
La variance (vraie ou thorique) de X, note var(X) ou X , est dfinie par :
2

X = var X = E X X o X = E X
Lcart-type de X, not X ou X , est dfini par X = X =
X peut tre note sil ny a pas de confusion possible.

var X .

Remarques :
1.

On dmontre facilement que var X = E X X


n
n
En effet :
2
2
2
2
E X X = x i X p i = x i 2 X x i + X p i
i=1
n
2

E X X =

2
xi pi

2 X x i p i +

i=1
n
2

E X X =
2

i=1

n
2
X

i=1

i=1

xi pi 2X + X
2

pi

= E X X

i=1

2.

X 0 , par dfinition

3.

Soit X une variable alatoire de moyenne et de variance 2.


X
On dfinit la variable centre rduite par Y = ------------- .

4.

On peut montrer facilement (faites lexercice) que E(Y) = 0 et var(Y) = E(Y 2) = 1.


Si a est une constante, on montre que var(X + a) = var(X) et var(aX) = a 2var(X).

6.2.4 Loi de probabilit produit


Soient X et Y deux variables alatoires finies sur le mme espace fondamental E ayant pour image
respective :
X(E) = {x 1, x 2, ..., xn }

2013 - 2014

Biostatistique - Carrat, Mallet, Morice

55/179

Variables alatoires

Y(E) = {y 1, y 2, ..., ym }.
Considrons lensemble produit
X(E)Y(E) = {(x 1, y 1), (x 1, y 2), ..., (xn , ym )}
(ensemble des couples (xi , yj ) pour i = 1, ..., n et j = 1, ..., m)
Cet ensemble produit peut tre transform en ensemble probabilis si on dfinit la probabilit du
couple ordonn (xi , yj ) par Pr X = x i Y = y j que lon note p xi,yj . Cette loi de probabilit
de X, Y est appele distribution jointe de X et Y.

x1

x2

x3

.....

xn

xi

i = 1 n

y1

p x1,y1

y2

p x1,y2

p x2,y1

p y1
p y2

.....
p x1,ym

ym

p x1

yj

p x2

j = 1 m
m

pxi yj et pyj

Les probabilits p xi =

j=1

pxi yj
i=1

sont souvent appeles lois de probabilit marginales de X et de Y. Il sagit simplement de leurs distributions.
La loi de probabilit p xi,yj possde, bien entendu, les proprits dune loi :
1.

p xi yj 0 ,i j
n

2.

pxi yj

= 1

i = 1j = 1

Soient X et Y les esprances de X et de Y, X et Y leurs cart-types. On montre facilement que


var(X + Y) = X 2 + Y 2 + 2cov(X, Y), o cov(X, Y) reprsente la covariance de X et Y et est dfinie par :
n

cov X Y = E X X Y Y =

xi X yj Y pxi yj
i = 1j = 1

De mme que pour la variance (voir section 6.2.3), on a :


cov(X, Y) = E(X Y) - X Y
La covariance de X et Y se note aussi XY .
Une notion drive de la covariance est celle de corrlation entre X et Y, dfinie par :
cov X Y
X Y = -----------------------X Y
56/179

Biostatistique - Carrat, Mallet, Morice

2013 - 2014

Variables alatoires

On peut vrifier que


(X, Y) = (Y, X)
1 X Y 1
(X, X) = 1
(aX + b, cY + d) = (X, Y) si a et c non nuls

6.2.5 Variables alatoires indpendantes


Soient X et Y deux variables alatoires sur un mme espace fondamental E. X et Y sont indpendantes si tous les vnements X = xi et Y = yj sont indpendants :
Pr X = x i Y = y j = Pr X = x i Pr Y = y j pour tous les couples (i, j).
Autrement dit, si p xi et p yj sont les distributions respectives de X et Y, les variables sont indpendantes si et seulement si on a
p xi,yj = p xi p yj
(la probabilit conjointe est gale au produit des probabilits marginales).
Il en dcoule les proprits importantes suivantes : si X et Y sont indpendantes, on a (attention la
rciproque nest pas toujours vraie)
1.
2.
3.

E(XY) = E(X)E(Y)
var(X + Y) = var(X) + var(Y)
cov(X, Y) = 0 et (X, Y) = 0

6.2.6 Fonction de rpartition


Si X est une variable alatoire, on dfinit sa fonction de rpartition F(x) par
F x = Pr X x pour tout x
Si X est une variable alatoire discrte on a F x = Pr X = x i = p i
xi x

xi x

Dans tous les cas, F(x) est une fonction monotone croissante, cest--dire F a F b si a b
De plus
lim F x = 0 et lim F x = 1
x

2013 - 2014

Biostatistique - Carrat, Mallet, Morice

57/179

Variables alatoires

Cet exemple montre la distribution de probabilits dune variable alatoire finie et la fonction de
rpartition correspondante. La fonction de rpartition est une fonction en escalier. Les discontinuits se produisent pour les valeurs x possdant des probabilits non nulles. Pour chacune de ces valeurs de x, la hauteur dune discontinuit est la probabilit de x.

6.3 Variables infinies dnombrables (hors


programme)
Tout ce qui a t vu prcdemment dans le cas o E est fini (E = {s 1, s 2, ..., sn }) se gnralise
(nous ne verrons pas les dmonstrations) au cas o E est infini dnombrable ; on aura par exemple

58/179

Biostatistique - Carrat, Mallet, Morice

2013 - 2014

Variables alatoires

X = E X =

xi pi
i=1

La somme converge linfini vers E(X), toutes les autres proprits sont conserves, les sommes
devenant des sries.

6.4 Variables alatoires continues


La gnralisation au continu est dlicate et mme difficile si on ne dispose pas doutils mathmatiques hors du champ de ce cours.
Nous nous contenterons de procder par analogie avec le cas discret.
Une variable alatoire X dont lensemble image X(E) est un intervalle de est une variable alatoire continue (continue par opposition discrte, cf supra).
Rappelons que, par dfinition dune variable alatoire, a X b est un vnement de E dont la
probabilit est bien dfinie.
On dfinit la loi de probabilit de X, ou distribution de X, laide dune fonction f(x), appele densit de probabilit de X, telle que
b

a f x dx

= Pr a X b

Remarques
1.

Si f est donne, la probabilit Pr a X b est la surface sous la courbe entre a et b


Pr a X b
f(x)

a
2.

Le passage du discret au continu transforme les sommes en intgrales

2013 - 2014

Biostatistique - Carrat, Mallet, Morice

et p i en f(x)dx.

59/179

Variables alatoires

Ainsi, soit X une variable alatoire discrte et p i sa distribution


pi

xi

La formule Pr x k X x n =

p i est analogue Pr a X b =

a f x dx

i=k

En utilisant cette analogie, on admettra les dfinitions suivantes pour une variable alatoire X,
continue, de distribution f(x) :
1.
2.

f x 0 (analogue p i 0 )
f x dx = 1 (analogue pi = 1 )

xf x dx (analogue

3.

X = E X =

4.

X = var X =

5.

X = var X =

6.

X = X =

7.

F x = Pr X x =

xi pi )
i

x X f x dx (analogue
2

x f x dx X (analogue
2

xi X
i

pi )

xi pi X )
2

var X
x

f d (analogue pi )
xi x

Les proprits de la fonction de rpartition donnes section 6.2.6 page 57 sont conserves :
fonction monotone croissante, partant de 0 pour x- et atteignant 1 pour x+.
8.

Pr a X b =

60/179

a f x dx

= Fb Fa

Biostatistique - Carrat, Mallet, Morice

2013 - 2014

Variables alatoires

Cet exemple montre la densit de probabilit et la fonction de rpartition dune certaine variable
alatoire continue. La probabilit de lintervalle [a b] est la surface sous la courbe de densit limite par cet intervalle. Cest aussi la diffrence des hauteurs F(b)-F(a) si on utilise la fonction de
rpartition. Contrairement au cas des variables discrtes, la fonction de rpartition est ici continue.
Pour rsumer lanalogie entre le cas discret et le cas continu, un point du domaine discret correspond un intervalle dans le cas continu, la somme discrte correspond lintgrale.

6.5 Extension de la notion de variable


alatoire
Une variable alatoire, telle quelle est dfinie dans ce chapitre, ne peut prendre que des valeurs
numriques.
Il est pourtant souvent pratique de sintresser directement aux rsultats dune exprience, quils
soient numriques ou non, cest dire dviter le codage numrique de ces rsultats. Par abus de
langage, dans la suite du cours, on pourra parler de variables alatoires alors quil sagit de rsultats
dexprience.
Dans ce contexte, la classification antrieure des variables (discrtes ou continues) doit tre
tendue :

2013 - 2014

Biostatistique - Carrat, Mallet, Morice

61/179

Variables alatoires

Variables quantitatives
variables dont les valeurs sont numriques. Cest lunique possibilit dans le cas de variables alatoires au sens strict.
On distingue deux types de variables quantitatives :

variables discrtes, dont les valeurs sont discrtes, en gnral des nombres entiers.
Exemple : nombre dtudiants dans un amphi.
variables continues, pour lesquelles toutes les valeurs sont possibles, au moins sur un
intervalle. Exemples : le poids ou la taille.

Variables qualitatives
Variables dont les valeurs ne sont pas numriques.
On en distingue deux types :

62/179

variables ordinales, dont les valeurs peuvent tre ordonnes. Exemple : intensit
dune douleur qui peut aller de absente trs intense.
variables catgorielles ou nominales, dont les valeurs ne peuvent pas tre ordonnes.
Exemple : couleur des yeux.

Biostatistique - Carrat, Mallet, Morice

2013 - 2014

Exemples de distributions

Chapitre 7
Exemples de distributions
7.1 Lois discrtes
Les lois dcrites ici ne concernent que des variables dont les valeurs sont des nombres entiers.

7.1.1 Loi de Bernoulli


On considre une exprience nayant que deux rsultats possibles, par exemple succs et chec (ou
prsence et absence dune certaine caractristique). On introduit la variable alatoire X qui associe
la valeur 0 lchec (ou labsence de la caractristique) et la valeur 1 au succs (ou la prsence
de la caractristique). Cette variable alatoire est appele variable de Bernoulli.
Distribution de X
Appelons la probabilit de lvnement succs :
Pr({succs}) = Pr(X = 1) =
do
Pr({chec}) = Pr(X = 0) = 1 -
Esprance de X
X = E X = x i Pr X = x i = 1 Pr X = 1 + 0 Pr X = 0 =
Variance de X
2
2
2
2
X = var X = E X X = E X X
2

X = 1 Pr X = 1 + 0 Pr X = 0
2

X = = 1

7.1.2 Loi binomiale


Dfinition
Soient les preuves rptes et indpendantes dune mme exprience de Bernoulli.
Chaque exprience na que deux rsultats possibles : succs ou chec. Comme prcdem-

2013 - 2014

Biostatistique - Carrat, Mallet, Morice

63/179

Exemples de distributions

ment, appelons la probabilit de lvnement lmentaire succs. A cette exprience


multiple on associe une variable alatoire X qui mesure le nombre de succs obtenus.
Distribution de X
On montre aisment que la probabilit davoir k succs lors de n preuves rptes est
n!
k
nk
P X = k pour n essais = ----------------------- 1
k! n k !
Rappel
n! = 1 2 n pour tout n entier positif
0! = 1 par dfinition
Remarques
a.

b.

La probabilit de navoir aucun succs au cours de n preuves (k = 0) est (1-n ; la


probabilit davoir au moins un succs est donc 1 - (1-n (un succs ou plus)
n
n!
k
----------------------- est souvent not ou C n
k
k! n k !
n
Les sappellent coefficients du binme.
k
En effet ils interviennent dans le dveloppement du binme selon la formule
n
n

a + b =

n a n r b r
r

r=0

c.

Exercice :
4
4
3
2 2
3
4
utiliser cette formule pour vrifier que a + b = a + 4a b + 6a b + 4ab + b
En appliquant la formule du binme prcdente on retrouve que la somme des probabilits pour toutes les valeurs de X est gale 1 :
n

k 1
k

nk

= + 1 = 1 = 1

k=0

Exemples
1.

On jette 6 fois une pice bien quilibre ; on suppose que face est un succs. On a donc
= 1/2 et n = 6
a.

Probabilit que lon ait exactement 2 faces


6!
1 2 1 4
123456 1 1
Pr 2 faces parmi 6 jets = ---------- --- --- = ------------------------------------------------- --- -----2!4! 2 2
1 2 1 2 3 4 4 16
56
15
15
Pr 2 faces parmi 6 jets = ------------------------ = --------------- = -----2 4 16
4 16
64

b.

Probabilit davoir 4 faces ou plus (au moins 4 faces)


Cest aussi la probabilit davoir au plus 2 piles (0, 1 ou 2 piles)
6!
1 4 1 2
123456 1 1
15
p 4 = Pr 4 faces = ---------- --- --- = ------------------------------------------------- ------ --- = -----64
2!4! 2 2
1 2 1 2 3 4 16 4

64/179

Biostatistique - Carrat, Mallet, Morice

2013 - 2014

Exemples de distributions

6!
1 5 1
123456 1 1
6
p 5 = Pr 5 faces = ---------- --- --- = ------------------------------------------------- ------ --- = -----1!5! 2
64
2
12345
32 2
6! 1 6 1 0
1
p 6 = P r 6 faces = ----- --- --- = -----6! 2 2
64
15 6
1
11
Pr au moins 4 faces = p 4 + p 5 + p 6 = ------ + ------ + ------ = -----64 64 64
32
2.

On jette 7 fois un d quilibr et on considre que tirer 5 ou 6 est un succs. Calculer


a.

la probabilit pour quon ait 3 succs exactement


2
1
Pr succs = Pr 5 6 = --- = --6
3
7! 1 3 2 4
560
Pr 3 succs = ---------- --- --- = -----------3!4! 3 3
2187

b.

la probabilit de navoir aucun succs


2 7
128
7
Pr aucun succs = 1 = --- = ----------- 3
2187

Proprits
La fonction de probabilit Pr(X= k) dpend des 2 paramtres (ou constantes) n et . Cest
une distribution discrte qui prend les valeurs suivantes :
k

........

Pr(X= k)

(1-n

n 1 n 1
1

n 1 n 2 2
2

n
n

On dit que X est distribue selon une loi binomiale B(n, ).


On peut montrer que
Distribution binomiale B(n, )
Esprance

= n

Variance

= n 1

Ecart-type

2013 - 2014

n 1

Biostatistique - Carrat, Mallet, Morice

65/179

Exemples de distributions

7.1.3 Loi de Poisson


La loi de Poisson (due Simon Denis Poisson en 1837) est la loi du nombre dvnements observ
pendant une priode de temps donne dans le cas o ces vnements sont indpendants et faiblement probables. Elle peut sappliquer au nombre daccidents, lapparition danomalies diverses,
la gestion des files dattentes, au nombre de colonies bactriennes dans une bote de Ptri, etc.
Dfinition
Soit X la variable alatoire reprsentant le nombre dapparitions indpendantes dun vnement faiblement probable dans une population infinie. La probabilit davoir k apparitions de lvnement est

Pr X = k = e ----k!
Cette loi dpend dun paramtre , nombre rel strictement positif.
Les nombres k possibles sont toutes les valeurs entires 0, 1, 2, etc. Cependant, lorsque k
est suffisamment grand, la probabilit correspondante devient extrmement faible.
Proprits

On peut montrer que


Loi de Poisson P
Esprance

Variance

Ecart-type

La dmonstration utilise le fait que

----- = e
k!

k=0

Si deux variables alatoires indpendantes X 1 et X 2 sont distribues selon des lois de


Poisson de paramtres 1 et 2, alors la variable X 1+X 2 est distribue selon une loi de
Poisson de paramtre 1+2.

Remarques
Si on connat la probabilit de nobserver aucun vnement Pr(X=0) = p :
0

Daprs la formule, p = e ----- = e


0!
On en dduit :
= ln p

66/179

Pr X = 1 = e ----- = p ,
1!

Biostatistique - Carrat, Mallet, Morice

2013 - 2014

Exemples de distributions
2

Pr X = 2 = e ----- = Pr X = 1 --- ,
2!
2
3


Pr X = 3 = e ----- = Pr X = 2 --- ,
3!
3
......

Pr X = k = Pr X = k 1 --k

On peut ainsi calculer facilement de proche en proche les probabilits des diverses valeurs de k.
Lien avec la loi binomiale
Si une variable alatoire X est distribue selon une loi binomiale B(n, ), on montre que si
est petit (en pratique infrieur 0,1) et n assez grand (suprieur 50), la loi binomiale
peut tre approxime par une loi de Poisson de paramtre =n.
Les calculs sont plus simples avec la loi de Poisson quavec la binomiale.
Notons que puisque X est distribue selon une loi binomiale, ses valeurs possibles ne
peuvent dpasser n, alors que lapproximation par la loi de Poisson autorise des valeurs suprieures. Cependant le calcul fournit des probabilits trs faibles pour ces valeurs aberrantes.

7.2 Lois continues


7.2.1 Loi normale
7.2.1.1 Dfinition
La distribution normale, ou de Laplace-Gauss, appele aussi gaussienne, est une distribution continue qui dpend de deux paramtres et . On la note N(, 2). Le paramtre peut tre quelconque mais est positif. Cette distribution est dfinie par :
1 x
--- -----------------2 2

1
f x ; = --------------e
2
Cest une des lois les plus importantes, sinon la plus importante comme vous le verrez loccasion
du thorme central limite.

7.2.1.2 Proprits
Allure de la courbe
La loi normale, note N(, 2), est symtrique par rapport la droite dabscisse .
Exemples :

2013 - 2014

Biostatistique - Carrat, Mallet, Morice

67/179

Exemples de distributions

Figure 2 : N(, 1) pour les valeurs de -2 ; 0 et 2

Figure 3 : N(0, 2) pour les valeurs de 0,3 ; 1 et 2


Caractristiques

Loi normale N(, 2)


Esprance

Variance

Ecart-type

La distribution normale centre rduite


On dit que la distribution est centre si son esprance est nulle ; elle est dite rduite si sa
variance 2(et son cart-type ) est gale 1. La distribution normale centre rduite
N(0, 1) est donc dfinie par la formule

68/179

Biostatistique - Carrat, Mallet, Morice

2013 - 2014

Exemples de distributions
1

1 --2- t
f t ; 0 1 = ----------e
2

Figure 4 : loi normale centre rduite N(0, 1)


Les probabilits correspondant aux divers intervalles ont t calcules et regroupes dans
une table numrique. Ainsi la table A.1 (en fin de polycopi) permet, partir dune probabilit donne, de trouver les bornes -u , +u dun intervalle symtrique autour de 0, tel
que
Pr t z ; +z =
ou encore, partir de u , de trouver .
Do par exemple :
Pr t z ; +z = 1
Pr t z = Pr t z = 2
On observe ainsi que environ 68 % de la surface est comprise entre (-1 et +1), 95 % entre
(-2 et +2) et 99 % entre (-3 et +3) (la table A.1 ne permet pas de trouver des valeurs aussi
prcises que celles de la figure 4).
Transformation dune loi normale quelconque en loi normale centre rduite
Soit une variable X distribue selon une loi normale desprance et dcart-type
X
Alors la variable t = ------------- est distribue selon une loi normale centre rduite.

Les probabilits obtenues pour la loi centre rduite permettent de calculer les probabilits
pour une loi normale quelconque, laide de cette transformation :
X
t = ------------- .

Soit par exemple calculer Pr a X b .


Pr a X b = Pr c t d avec

Par

la

transformation,

on

a
b
c = ------------ et d = ------------ .

La probabilit cherche, sur la variable X, revient donc lire sur la table de la loi centre

2013 - 2014

Biostatistique - Carrat, Mallet, Morice

69/179

Exemples de distributions

rduite (variable t), la probabilit de se trouver entre c et d.


On remarque en particulier que Pr 2 t 2 = Pr 2 X + 2 0 ,95
Approximation de la distribution binomiale par la loi normale
Lorsque n est grand, et que et ne sont pas trop proches de 0 (en pratique si n 5 et
n 1 5 ), alors on constate que la distribution binomiale tend vers la distribution normale de moyenne n et de variance n ; plus prcisment, pour une variable K distribue selon une loi binomiale B(n, ) et une variable X distribue selon une loi normale
N( = n, 2 = n), on a :
Pr K = k = Pr k = Pr k 0 ,5 K k + 0 ,5 Pr k 0 ,5 X k + 0 ,5
On choisit lartifice de reprsenter graphiquement Pr(k) par un rectangle dont la base est
[k - 0,5, k + 0,5] et la surface est Pr(k) pour comparer la loi discrte Pr(k) et la loi normale
continue.

Pr(4) = surface du rectangle


= Pr k 0 ,5 K k + 0 ,5
aire sous la gaussienne correspondante

1 2
3 4
5
Approximation de la loi de Poisson par la loi normale
Lorsque son paramtre est grand (en pratique suprieur 25), une loi de Poisson peut tre
approche par une loi normale desprance et de variance .
Le principe est analogue celui utilis pour lapproximation de la loi binomiale par la loi
normale.

7.2.2 Loi du 2 (chi-2)


7.2.2.1 Dfinition
Cest une loi drive de la loi normale, trs importante pour ses applications en statistiques comme
nous le reverrons dans les tests.
Soient X 1, ..., Xn des variables alatoires indpendantes, chacune tant distribue selon une loi normale centre rduite :
i X i N 0 1
2

La distribution de S = X 1 + X 2 + + X n (somme des carrs des Xi ) est appele loi de 2 n degrs de libert (en abrg d. d. l.), que lon note 2(n) o n est le nombre de d. d. l., seul paramtre

70/179

Biostatistique - Carrat, Mallet, Morice

2013 - 2014

Exemples de distributions

de la loi.
Loi du 2(n)
Esprance

Variance

2n

Ecart-type

2n

7.2.2.2 Proprits
a.

b.

c.

Allure de la distribution de 2(n) pour diffrentes valeurs de n

Pour n = 1, la courbe dcrot de + vers zro de faon monotone ; pour n = 2, la courbe dcrot de faon monotone de 0,5 zro ; pour n > 2, la courbe part de 0, a son maximum pour
x = n - 2, puis redescend vers zro.
Proprit asymptotique
La loi dune variable X suivant un 2(n) tend vers une loi normale lorsque n + . On a
donc, aprs avoir centr et rduit cette variable :
Xn
------------ N 0 1
2n
NB : Dans la pratique, on utilise plutt la variable Y = 2X 2n 1 dont on montre
quelle est peu prs distribue selon une loi normale centre rduite ds que n > 30.
Tables
De mme que pour la loi normale centre rduite, une table existe pour la loi du 2 (voir en
fin de polycopi, table A.4). Cette table indique pour une probabilit donne, et un degr de
libert n donn, la valeur Kn, telle que Pr X K n, = .

7.2.3 Loi de Student (hors programme)


Il sagit encore dune loi drive de la loi normale, trs utilise dans les tests statistiques. On consi-

2013 - 2014

Biostatistique - Carrat, Mallet, Morice

71/179

Exemples de distributions

dre une premire variable alatoire X, distribue selon une loi normale centre rduite, puis une
seconde variable Y, indpendante de X, distribue selon un 2 n degrs de libert.
Alors la variable alatoire Z =
note t(n).

X
n ------- est distribue selon une loi de Student n degrs de libert,
Y
Loi de Student t(n)

Esprance

Variance

n
-----------n2
n
-----------n2

Ecart-type

La courbe correspondante est symtrique autour de 0, et son allure est proche de celle de la loi normale.
n
Cette loi est centre, mais non rduite : la variance, ------------ , est suprieure 1.
n2
Lorsque n crot, en pratique pour n > 30, la variance peut tre prise gale 1, et la distribution assimile celle dune loi normale centre rduite.

7.2.4 Loi exponentielle (hors programme)


Cette loi dcrit par exemple le processus de mortalit dans le cas o le risque instantan de dcs est constant. La loi correspondante est :
x

f x = e
avec 0 et x 0
o x est la dure de vie.
Loi exponentielle

72/179

Esprance

Variance

Ecart-type

Biostatistique - Carrat, Mallet, Morice

2013 - 2014

Exemples de distributions

7.3 Application de la Loi de Poisson


linterprtation dun risque sanitaire possible
qui na pas encore t observ
Cette section a t crite par A.J. Valleron.

7.3.1 Introduction
Dans de nombreux cas, on sintresse un risque sanitaire a priori faible et on constate, aprs n
observations, que lvnement redout na jamais eu lieu. Par exemple, au bout de 10 000 prescriptions dun mdicament nouveau, on na pas observ un seul effet indsirable. Ou un chirurgien examinant le suivi de ses 50 dernires interventions avec une technique trs innovante a la satisfaction
de ne pas avoir eu un seul chec. Ces observations semblent plutt rassurantes, mais que peut-on
en tirer pour apprcier le risque encouru au bout de 1 000 000 de ces prescriptions, ou au bout de
100 000 interventions avec cette technique chirurgicale ?
Cest un problme qui se pose particulirement en pharmacovigilance : on admet dans de nombreuses classes thrapeutiques quun mdicament qui tuerait un malade sur 1 000 000 de prescriptions devrait tre retir du march. Le biostatisticien posera donc le problme suivant : sachant
quaprs 10 000 prescriptions aucun dcs caus par le mdicament na t observ, quel nombre
de dcs peut cependant tre redout sur 1 000 000 de prescriptions qui soit compatible avec ce
quon sait aujourdhui (0 dcs sur 10 000). Si ce nombre dpasse 1 (on verra dans lapplication
numrique traite plus loin quil le dpasse de loin), la plus grande vigilance simposera !
Le raisonnement qui suit combine le calcul des probabilits (loi de Poisson, approximation dune
loi binomiale par une loi de Poisson), et linfrence statistique . Linfrence statistique est le
mode de raisonnement qui permet partir dune observation (ici : 0 effet indsirable sur 10 000)
de tirer des conclusions gnrales (ici : ce qui pourrait arriver sur 1 000 000 ou 10 000 000 de
prescriptions). Les applications principales de linfrence concernent lestimation statistique et les
tests statistiques ; elles sont traites en dtail dans les chapitres suivants du polycopi. Mais lapplication dtaille ci-aprs initie bien ce mode de raisonnement.

7.3.2 Le problme direct


Dans le problme direct on suppose que le risque deffet indsirable chez un patient donn est
connu, et on veut calculer la probabilit dobserver lvnement 0 effet indsirable au bout des n
premires observations .
Soit le risque individuel (= la probabilit) dun effet indsirable aprs traitement.
Soit n le nombre de patients traits.
Alors le nombre X de patients prsentant un effet indsirable suit une loi binomiale de moyenne

2013 - 2014

Biostatistique - Carrat, Mallet, Morice

73/179

Exemples de distributions

= n. Si est trs petit, n trs grand et n assez petit (ces hypothses seront toujours faites dans
ces problmes de risque sanitaire) la loi de X peut tre approxime par une loi de Poisson de paramtre . En particulier, Pr(X = 0) = e- et Pr(X = 1) = e-.
Remarque : on sait calculer exactement Pr(X = 0) = (1- )n en exprimant que chacune des n prescriptions doit tre sans effet indsirable (probabilit 1- ). Quand est trs petit, et n pas trop
grand on montre que cette valeur est trs proche de e-n .

7.3.3 Problme inverse


Cest le problme qui se pose en pratique : On observe lvnement x = zro effet adverse sur n
patients traits . Que peut-on alors dire de ? (ou de car = /n). On approchera la distribution
de X par la loi de Poisson de paramtre = n.
Pour rpondre, la mthode utilise est dcarter les valeurs de pour lesquelles notre observation
(x = 0 aprs n rptitions) serait invraisemblable .
Mais que veut dire invraisemblable ? Pour fixer les ides, imaginons que lon ait observ x=0 parmi n = 10 000 traitements.
Si avait t 1/1000, la probabilit de lvnement observ ( x = 0 sur 10 000 ) aurait t
e-10 = 0,000045 = 4,5/100 000. (car = n ). Cette probabilit est infime : tout le monde
sera daccord pour dire quil aurait t trs invraisemblable de navoir aucun effet indsirable
si le risque individuel inconnu tait de = 1/1000.
Si avait t 1/10 000, la probabilit de lvnement observ aurait t e-1 = 0,37 = 37% (car
= n = 1). La probabilit 0,37 est forte . Tout le monde sera daccord pour dire quil
ntait pas invraisemblable de nobserver aucun effet indsirable si le risque individuel tait
= 1/10 000.

e-10 est une petite probabilit - lvnement est invraisemblable ; e-1 est une grande probabilit - lvnement nest pas invraisemblable. Pour prciser quantitativement ce que veut dire
invraisemblable il faut choisir un seuil en dessous duquel on va dclarer quune probabilit est
petite : la valeur conventionnelle retenue universellement est 5%. La traduction de ce choix est
quon dcide de ne pas trouver invraisemblable un vnement ayant 10 chances sur 100 de se
produire (car 10% > 5%), mais de trouver invraisemblable un vnement ayant 1 chance sur
100 de se produire.
Ce choix permet dapporter une solution au problme pos : lobservation x = 0 sur 10000 est
invraisemblable si sa probabilit est infrieure 5%, cest--dire si exp(- n) < 5%. Toutes les valeurs de suprieures la solution de cette ingalit seront rputes invraisemblables ; et les
autres seront rputes vraisemblables .
La rsolution de linquation donne > lim = ln(0,05)/n = 3/n.
Rsultat
Quand on observe 0 effet indsirable parmi n rptitions, ceci est compatible avec un
risque individuel compris entre 0 et 3/n. En revanche, les risques suprieurs 3/n sont
jugs invraisemblables.

74/179

Biostatistique - Carrat, Mallet, Morice

2013 - 2014

Exemples de distributions

Comme la mdecine veille limiter le plus possible le risque encouru par les malades loccasion
dun traitement, la dmarche de prcaution est, lorsquon observe 0 effets indsirables sur n
traitements, de conclure que le risque rel du traitement peut aller jusqu 3/n. Il peut bien sr tre
plus petit : lavenir le dira, et lestimation du risque se prcisera au fur et mesure que de plus en
plus de patients auront t traits. Mais en attendant, pour se prparer au pire , on doit considrer
la valeur maximum non invraisemblable, savoir 3/n.

7.3.4 Application numrique


On traite 10 000 patients sans observer dvnement indsirable. Evaluer la limite suprieure du
nombre dvnements indsirables quon peut redouter sur 1 000 000 de prescriptions, compatibles avec cette observation prliminaire.
Par application du rsultat, lobservation x = 0 sur 10,000 est compatible avec un risque individuel maximum de 3/10000.
Sur 1 000 000 de prescriptions, on aura donc au maximum un nombre de 3/10 000 1 000 000 =
300 effets indsirables.
Ainsi, un laboratoire pharmaceutique ayant mis sur le march une nouvelle molcule ne peut en
rien tre rassur sur le risque associ celle-ci aprs avoir constat quil ny avait aucun dcs
sur les 10 000 premires prescriptions.
Cette observation reste compatible avec un risque de 3/10000, et 300 dcs sur le 1 000 000 de
prescriptions suivant, ce qui serait une catastrophe sanitaire.
Ceci illustre galement la difficult de garantir un mdicament sans risque lorsquil na t test
que chez quelques milliers de patients afin de voir sil est efficace (voir chapitre 15 sur la mthodologie des tudes pidmiologiques et les essais thrapeutiques), comme cest gnralement le
cas au moment de la demande dautorisation de mise sur le march.

7.3.5 Remarque
Le calcul menant au rsultat encadr repose sur un raisonnement subtil (qui sera retrouv dans les
chapitres relatifs aux tests statistiques).
Chacun doit comprendre dans lexemple trait que le rsultat trouv ne signifie pas quil y a 5
chances sur 100 pour que le risque sanitaire soit de 3/10 000 (cette interprtation fausse du 3
est trs majoritairement faite, y compris par de nombreux professionnels). Ce que le calcul indique,
cest que si le risque de mort tait de 3/10000 (il ne lest peut-tre pas), il y aurait 5 chances sur
100 dobserver 0 dcs sur 10 000 prescriptions, comme on la fait. En reprenant les notations des
probabilits conditionnelles, il ne faut pas confondre Pr(A / B) et Pr(B / A), avec ici A = { = 3}
et B = {X = 0}.

2013 - 2014

Biostatistique - Carrat, Mallet, Morice

75/179

Exemples de distributions

76/179

Biostatistique - Carrat, Mallet, Morice

2013 - 2014

Statistiques descriptives

Chapitre 8
Statistiques descriptives
Les statistiques descriptives visent reprsenter des donnes dont on veut connatre les principales
caractristiques quantifiant leur variabilit.

8.1 Rappels et complments


On suppose que lon sintresse une caractristique particulire observable chez des individus issus dune population ; cette caractristique sera appele variable ; si cette caractristique peut varier entre les individus, sans pouvoir lanticiper, on lappellera variable alatoire. Le dispositif
permettant dobtenir une valeur de la variable est lexprience alatoire. Cette dfinition image
est compatible avec la dfinition du chapitre 6.
Rappel
Il existe deux grands groupes de variables :
a.

b.

Les variables quantitatives qui sont des variables ordonnes, productives de


nombres. Exemples : nombre denfants dans une famille, glycmie, taille dun individu, nombre de colonies bactriennes dans un milieu de culture.
Parmi ces variables quantitatives, certaines prennent un continuum de valeurs (entre
deux valeurs possibles, il existe toujours une troisime valeur possible) ; ces variables
sont dites continues. Dautres ne prennent que des valeurs discontinues ; elles sont
dites discrtes, finies ou non.
Les variables qualitatives qui produisent des valeurs non numriques. Exemples :
sexe, couleur des cheveux, appartenance au groupe des fumeurs ou des non fumeurs,
prsence ou absence dune maladie.
Les valeurs peuvent tre ordonnes ; on parle alors de variable qualitative ordinale.
Exemple : intensit dune douleur (faible, moyenne, forte).
Si les valeurs ne peuvent pas tre ordonnes, il sagit dune variable catgorielle (ou
nominale).

Remarque
Lindividu voqu ci-dessus, sur lequel on observe les caractristiques dintrt, la variable, nest pas ncessairement un individu physique. Cest lentit sur laquelle sopre
lobservation de la variable dintrt. Exemples : famille, colonies bactriennes.
Dfinition
Lentit sur laquelle peut sobserver la variable alatoire sappelle lunit statistique.

2013 - 2014

Biostatistique - Carrat, Mallet, Morice

77/179

Statistiques descriptives

Connatre le phnomne mettant en jeu cette variable, ou connatre cette variable, cest
connatre la probabilit pour quun individu tir au hasard dans la population prsente telle
valeur de la variable. On peut apprcier la probabilit dun vnement alatoire grce linterprtation suivante de la notion de probabilit. Cette interprtation est cohrente avec les
cours prcdents.
On interprtera la probabilit dun vnement alatoire comme la valeur limite de la frquence avec laquelle lvnement se ralise au cours dun nombre croissant de rptitions
de lexprience. Autrement dit comme la valeur limite du rapport du nombre de fois o
lvnement sest ralis et du nombre de rptitions de lexprience.
Remarques

Ce qui prcde peut tre vu comme une interprtation de la notion de probabilit (voire
comme une dfinition).
En dpit de cette interprtation, la probabilit dun vnement alatoire reste

une fiction
du domaine thorique.

Mais cette interprtation a deux consquences :

pour approcher une probabilit on est amen rpter une exprience,


les frquences se substituent aux probabilits ; elles seront les contreparties des
probabilits.

On va donc rpter une exprience un nombre fini de fois, not n ; on aura donc observ une sous-population appele chantillon. Chaque exprience alatoire produit
un rsultat xi ; on disposera donc de x 1, ..., xn , ensemble appel chantillon de valeurs de la variable tudie X.
De faon plus formelle, on dfinit un chantillon dune variable alatoire de la manire suivante :
Un chantillon de taille n dune variable alatoire X est un ensemble X 1, X 2, ..., Xn
de n variables alatoires, indpendantes entre elles, et ayant chacune la mme distribution que X. On peut donc dire quun chantillon de valeurs de X est une ralisation
de lchantillon de la variable X tel quil vient dtre dfini.

8.2 Reprsentation complte dune srie


dexpriences
8.2.1 Cas dune variable qualitative
La variable est dcrite par la suite des probabilits des diffrentes modalits. Si lon connaissait ces
probabilits, on produirait le diagramme en btons (ou rpartition vraie ) de cette variable ; on
va produire la rpartition observe par substitution aux probabilits inconnues des frquences ob-

78/179

Biostatistique - Carrat, Mallet, Morice

2013 - 2014

Statistiques descriptives

serves. Si la variable est ordinale, on respectera cet ordre dans lnumration des modalits portes en abscisses.
Frquences

modalit 1 modalit 2

.......

Dautres types de reprsentation sont utiliss : par exemple la reprsentation en camembert o les
diffrentes modalits sont reprsentes par secteurs angulaires dangles au centre proportionnels
aux frquences observes.
D

A
C

8.2.2 Cas dune variable quantitative discrte


La situation est similaire si ce nest quil existe un ordre et une chelle naturels en abscisses ; la

2013 - 2014

Biostatistique - Carrat, Mallet, Morice

79/179

Statistiques descriptives

rpartition observe se nomme galement histogramme en btons.


Frquences

valeur 1

valeur 2

.......

8.2.3 Cas dune variable quantitative continue. Notion


dHISTOGRAMME
Dans le cas de variables continues, on va choisir de reprsenter les donnes graphiquement dune
faon qui soit proche de la reprsentation dune densit de probabilit dune variable alatoire
continue. Pour cela on dcoupe lensemble du domaine des valeurs possibles de la variable tudie
en intervalles contigus dont on choisit le nombre et les bornes. Afin dobtenir une reprsentation
proche dune densit de probabilit, on dcide de reprsenter indirectement la frquence des valeurs observes comprises entre deux bornes conscutives par la surface dun rectangle dont la base
sera prcisment cet intervalle. Autrement dit la hauteur de ce rectangle sera le rapport de la frquence observe de ces valeurs et de la diffrence entre ces bornes (diffrence galement appele
largeur de la classe).
(m-1)

1,2
1,0
0,8
0,6
0,4
0,2
0
0,5

1,75

taille (m)

Les bornes sont choisies arbitrairement ; nanmoins, pour que lhistogramme ait un sens il est ncessaire que la taille de chaque classe constituant un intervalle comprenne un nombre suffisamment grand de valeurs observes, de telle faon que la surface dun rectangle lmentaire puisse
tre interprte comme approchant la probabilit pour que la variable prenne une valeur comprise
dans lintervalle du rectangle. Si la taille de lchantillon crot, la surface de chaque rectangle tend

80/179

Biostatistique - Carrat, Mallet, Morice

2013 - 2014

Statistiques descriptives

vers la probabilit que la variable ait une valeur incluse dans lintervalle correspondant. De plus,
si la taille n de lchantillon est grande, on peut alors sans inconvnient construire un plus grand
nombre de classes, cest--dire construire par exemple deux fois plus de rectangles, chacun ayant
un support deux fois plus petit. En rptant cette opration, n croissant, on peut comprendre que
lhistogramme tend (dune faon que nous ne prciserons pas ici) vers la densit de probabilit de
la loi qui a gnr lchantillon.

8.3 Reprsentation simplifie dune srie


dexpriences
On a dfini certains indicateurs pour reprsenter, de faon plus rsume que ci-dessus, un chantillon de valeurs issues dune variable alatoire.
Les indicateurs prsents ci-dessous ne concernent que les variables quantitatives.

8.3.1 Indicateurs de localisation des valeurs


Mdiane observe
Cest la valeur qui partage lchantillon en deux groupes de mme effectif ; pour la calculer, il faut commencer par ordonner les valeurs (les ranger par ordre croissant par exemple)
Exemple : soit la srie 12 3 24 1 5 8 7
on lordonne : 1 3 5 7 8 12 24
7 est la mdiane de la srie
Moyenne observe
Cest lindicateur de localisation le plus frquemment utilis. La moyenne observe dun
chantillon de n valeurs x 1, ..., xn est dfinie comme la moyenne arithmtique de ces
valeurs ; on la note souvent mx , ou simplement m sil ny a pas de confusion possible :
n

1
m = --- x i
n
i=1

Avec la srie prcdente, qui comporte n = 7 valeurs, on obtient :


7

1
12 + 3 + 24 + 1 + 5 + 8 + 7
m = --- x i = ----------------------------------------------------------------- = 8 57
7
7
i=1

8.3.2 Indicateurs de dispersion des valeurs


Variance observe
La variance observe dun chantillon {xi } i = 1, ..., n est donne par
n

1
2
s = ------------ x i m
n1
2

i=1
2013 - 2014

Biostatistique - Carrat, Mallet, Morice

81/179

Statistiques descriptives

Attention : on divise par n -1 et non par n pour que la variance observe soit un bon estimateur de la variance thorique de la loi (nous reverrons ce point dans la suite).
Une autre expression de s 2, quivalente, est indique dans le rsum de ce chapitre.
Ecart-type observ
2
Lcart-type observ, not s, est dfini par s = s .

8.4 Reformulation de la moyenne et de la


variance observes
8.4.1 Reformulation de la moyenne observe
Prenons le cas dune variable quantitative discrte.
Les donnes sont notes x 1, ..., xn .
Les k valeurs possibles de la variable sont notes val1,val2, ...., valk .
Exemple dun jet de d : val1 = 1, ..., val6 = 6
Chaque donne xi concide avec une certaine valeur val j
Par exemple pour le jet de d, on peut avoir

jet n1 ; x 1 = 1 = val1
jet n2 ; x 2 = 1 = val1
jet n3 ; x 3 = 4 = val4
jet n4 ; x 4 = 3 = val3
jet n5 ; x 5 = 6 = val6
jet n6 ; x 6 = 1 = val1
jet n7 ; x 7 = 2 = val2
jet n8 ; x 8 = 5 = val5
jet n9 ; x 9 = 6 = val6
n

Alors :

xi
i=1

nj valj
j=1

o nj est le nombre de fois o une observation concide avec valj


Dans notre exemple du jet de d, on a : n 1 = 3, n 2 = 1, n 3 = 1, n 4 = 1, n 5 = 1, n 6 = 2
n

i=1

j=1

1
Finalement m = --- x i =
n

82/179

nj
---- val j
n

Biostatistique - Carrat, Mallet, Morice

2013 - 2014

Statistiques descriptives

nj
Mais ---- est une approximation de Pr(face marque = valj )
n
Ainsi m est une estimation - une apprciation - de :

valj Pr valeur de la variable = valj


j

cest--dire une apprciation de lesprance mathmatique de la variable.


On raccorde ainsi une moyenne observe une grandeur descriptive du phnomne tudi, une
grandeur dite thorique ou vraie .
On peut dire ceci : la rptition des expriences vise estimer Pr(valeur de la variable = certain
niveau). La moyenne observe permet destimer quelque chose de plus grossier, une combinaison
de toutes ces probabilits, prcisment lesprance mathmatique
= val j Pr valeur de la variable = val j
j

Cest la raison pour laquelle dans la suite on utilisera galement la terminologie MOYENNE
VRAIE ou MOYENNE THEORIQUE de la variable pour parler de lesprance mathmatique.
Retenons :
ESPERANCE MATHEMATIQUE,
MOYENNE VRAIE ,
MOYENNE THEORIQUE
sont SYNONYMES. Ce sont des grandeurs thoriques.
Remarque
La mme analyse peut tre faite - mais lexpression est un peu plus dlicate - dans le cas
dune variable quantitative continue. La moyenne observe approxime l encore lesprance mathmatique.

8.4.2 Reformulation de la variance observe


De la mme faon on peut obtenir le rsultat suivant : s2 est une approximation de la grandeur
2
2
= val j Pr valeur de la variable = val j
j

Cette expression, introduite dans le chapitre 6 sous le nom de variance sera souvent dnomme
dans la suite VARIANCE VRAIE ou VARIANCE THEORIQUE de la variable.
Dans le cas dune variable continue, la variance observe s2 approxime :
2
2
= x f x dx

LES DIFFERENCES ENTRE CES NOTIONS DE MOYENNE ET VARIANCE VRAIES , ET


DE MOYENNE ET VARIANCE OBSERVEES SONT ESSENTIELLES ; NOUS ENGAGEONS LE LECTEUR A BIEN LES COMPRENDRE AVANT DE POURSUIVRE.

2013 - 2014

Biostatistique - Carrat, Mallet, Morice

83/179

Statistiques descriptives

8.5 Cas particulier dune variable deux


modalits - Proportion
On est trs souvent amen considrer des variables deux modalits, cest--dire des expriences
alatoires deux vnements lmentaires.
Exemples :

maladie : maladie prsente - maladie absente


signe clinique : prsent - absent
traitement : individu trait - individu non trait

Or on peut transformer une telle variable en variable quantitative, sans restriction de gnralit, par
un artifice de codage :

une des modalits est code avec la valeur numrique 0 ;


lautre modalit est code avec la valeur numrique 1.

Une telle variable sappelle variable de Bernoulli.


Notons X cette variable.
Elle est compltement dcrite par la donne de Pr(valeur de la variable = 1) car
Pr(valeur de la variable = 1) + Pr(valeur de la variable = 0) = 1.
On utilise la notation conventionnelle suivante : Pr(valeur de la variable = 1) SE NOTE .

8.5.1 Expression de lesprance mathmatique de X


Utilisant lexpression gnrale de lesprance mathmatique, et remarquant que val1 = 0, val2 =1,
on obtient :
= val j Pr valeur de la variable = val j = 0 1 + 1 =
j

Ainsi, = = Pr(valeur de la variable = 1) = probabilit de la modalit code 1 = PROPORTION


VRAIE des individus prsentant la modalit 1.

8.5.2 Expression de la variance de X


2

valj

Pr valeur de la v.a. = val j = 0 1 + 1 = 1

84/179

Biostatistique - Carrat, Mallet, Morice

2013 - 2014

Statistiques descriptives

8.5.3 Interprtation de la moyenne observe


1
1
nombre de fois o X = 1
m = --- x i = --- 0 + 0 + 1 + 0 + 1 + 1 + = ----------------------------------------------------------n
n
n
i

Ainsi, m concide avec la frquence observe de la modalit code 1. Cette frquence sera note p
et sappelle de faon naturelle PROPORTION OBSERVEE dindividus prsentant la modalit 1.
Exemple
Dans le cas de ltude dun signe clinique, en codant 1 la prsence du signe clinique, m
(donc p) sera la frquence observe de la prsence du signe ou encore le pourcentage des
individus prsentant le signe ( un facteur 100 prs).
En rsum

si X est une variable de Bernoulli,

sa moyenne vraie =
sa variance vraie = (1 - )

UNE PROPORTION OBSERVEE EST UNE MOYENNE OBSERVEE.

8.6 Conclusion : la variable alatoire


moyenne arithmtique
On a jusquici associ une valeur de moyenne observe une srie de n ralisations dune variable
alatoire quantitative X. Mais chaque exprience consistant recueillir n ralisations de la variable X permet de calculer une valeur, diffrente chaque exprience, de moyenne observe. Autrement dit, la moyenne observe doit tre vue comme une nouvelle variable alatoire que nous
appellerons moyenne arithmtique ; on la notera M. Dans certains cas, afin de rappeler que cette
variable dpend de n, on notera Mn la variable construite partir de n ralisations de X.
n

1
M n = --- X i
n
i=1

On utilisera la terminologie suivante :


on dira que M (ou Mn si ncessaire) est la VARIABLE ALEATOIRE MOYENNE ARITHMETIQUE DEDUITE DE LA VARIABLE ALEATOIRE X, FONDEE SUR n REPETITIONS
ou, de faon quivalente que M (ou Mn si ncessaire) est la VARIABLE ALEATOIRE
MOYENNE ARITHMETIQUE ASSOCIEE A LA VARIABLE ALEATOIRE X, FONDEE SUR
n REPETITIONS
Remarque
Dans le cas o X est une variable de Bernoulli, Mn sera note P n (et M simplement P). Il sagit

2013 - 2014

Biostatistique - Carrat, Mallet, Morice

85/179

Statistiques descriptives

dune variable alatoire proportion dont on connat dj pratiquement la distribution puisque


nP n ~ B(n, ) (voir section 7.1.2 page 63).

86/179

Biostatistique - Carrat, Mallet, Morice

2013 - 2014

Statistiques descriptives

Rsum du chapitre
1.
2.

Une variable alatoire est une variable observable au cours dune exprience et dont la valeur peut varier dune exprience lautre de faon non prvisible.
Reprsentation dune variable

variable qualitative
variable quantitative
discrte
variable quantitative
continue
3.

rpartition dun
chantillon

reprsentation de la population

rpartition observe

rpartition vraie

histogramme en btons

rpartition vraie

histogramme

densit de probabilit

Moyennes (variables quantitatives + variables de Bernoulli)


moyenne observe

esprance, ou moyenne vraie

1
m = --- x i
n

variable discrte

i=1

valj Pr variable = valj


j=1

variable continue

xf x dx

1
m = --- x i
n

i=1

variable de Bernoulli
4.

= Pr variable = 1 est note

m est note p

Variances (variables quantitatives)


variances observes

variances vraies
k

variable discrte

n 1
2
2
s = ------------ --- x i m
n1 n
2

i=1

valj

n 1
2
2
s = ------------ --- x i m
n1 n
2

i=1

2013 - 2014

Pr variable = valj

j=1

variable continue

Biostatistique - Carrat, Mallet, Morice

f x dx

87/179

Statistiques descriptives

5.

Variables centre et centre rduite associes une variable X


Si X est une variable alatoire de moyenne et de variance 2,

la variable (X - ) est dite variable centre associe X,

X
la variable ------------- est dite variable centre rduite associe X.

88/179

Biostatistique - Carrat, Mallet, Morice

2013 - 2014

Fluctuations de la moyenne observe : la variable alatoire moyenne arithmtique

Chapitre 9
Fluctuations de la moyenne
observe : la variable alatoire
moyenne arithmtique
On conserve le contexte dtude du chapitre prcdent, cest--dire lexamen de la variabilit dune
grandeur (variable alatoire) dans une population dindividus ou units statistiques. Mais on sintresse ici la variable alatoire moyenne arithmtique .

9.1 Premire proprit de la variable alatoire


moyenne arithmtique
9.1.1 Un exemple
Prenons nouveau le cas dune variable discrte pouvant prendre les deux valeurs 0 et 1 [cest-dire variable associe prsence-absence ou oui-non]. Supposons que lon ait des raisons de penser
que Pr(X = 0) = Pr(X = 1) = 1/2. On a vu quune telle variable a pour esprance 1/2, pour variance
vraie 1/4.
On peut, par le calcul, pronostiquer le rsultat dune rptition dexpriences. En particulier, calculer la rpartition de la variable moyenne arithmtique calcule sur un chantillon de deux
individus , note M 2, ici deux lancers de pice.
On isole cette variable. Quelles valeurs peut-elle prendre, avec quelles probabilits ?

jet 1 :
rsultats

Proba
jet 1

jet 2 :
rsultats

Proba
jet 2

Proba
jet1, jet2

M2

0
0

1/2
1/2

0
1

1/2
1/2

1/4
1/4

1/2(0+0) = 0
1/2(0+1) = 1/2

2013 - 2014

Biostatistique - Carrat, Mallet, Morice

89/179

Fluctuations de la moyenne observe : la variable alatoire moyenne arithmtique

jet 1 :
rsultats

Proba
jet 1

jet 2 :
rsultats

Proba
jet 2

Proba
jet1, jet2

M2

1
1

1/2
1/2

0
1

1/2
1/2

1/4
1/4

1/2(1+0) = 1/2
1/2(1+1) = 1

1
1
1 1 1
1
Ainsi, Pr M 2 = 0 = --- Pr M 2 = --- = --- + --- = --- Pr M 2 = 1 = --
4
2 4 4 2
4
Alors :

1 1 1
1
1
moyenne vraie de M 2 = 0 --- + --- --- + 1 --- = --- = moyenne vraie de X
4 2 2
4
2

1 1 2 1
1 2 1
1
1 1
1 2 1
variance vraie de M 2 = 0 --- --- + --- --- --- + 1 --- --- = --- = --- --4
2 2
2
2
4
8
2 4
2

Ainsi la variance vraie de la moyenne arithmtique est plus faible que la variance vraie de
la variable dorigine (la moiti ici). Lesprance reste inchange. Et ainsi vont les choses si la taille
des chantillons (ici 2) qui constituent les units statistiques augmente. La dispersion de M diminue
au fur et mesure que M se trouve calcule sur la base dun chantillon de taille croissante. Le
comment de cette situation peut tre rsum ainsi : les valeurs de la moyenne arithmtique deviennent de plus en plus probables dans un voisinage de lesprance car le nombre de situations
pouvant donner une valeur observe proche de lesprance augmente dans ce voisinage. Cela est
d au fait que lesprance mathmatique est au milieu des valeurs possibles. On le voit sur
lexemple ci-dessus o lesprance est obtenue dans les deux cas (0, 1) et (1, 0). Cest encore plus
perceptible sur lexemple dun d. Pour que la moyenne observe calcule sur deux jets de d soit
6, il faut obtenir le rsultat (6, 6) ; pour quelle soit 3, il faut un total de 6, cest--dire (5, 1), (4, 2),
(3, 3), (2, 4), (1, 5), soit un vnement 5 fois plus probable.
Il est possible de quantifier tout cela. On peut gnraliser ce qui a t obtenu avec deux jets de
pices et on obtient, quelle que soit la distribution de la variable tudie - quelle soit continue ou
discrte - les rsultats fondamentaux suivants.

9.1.2 Gnralisation
i.

Lesprance mathmatique, ou moyenne vraie , de la variable alatoire moyenne arithmtique calcule sur un chantillon de taille n concide avec la moyenne vraie de la variable
tudie, ce que lon peut rsumer par :
E Mn = E X

ii.

La variance vraie de la variable alatoire moyenne arithmtique calcule sur un chantillon de taille n est gale la variance vraie de la variable DIVISEE PAR n, ce que lon
peut rsumer par :

90/179

Biostatistique - Carrat, Mallet, Morice

2013 - 2014

Fluctuations de la moyenne observe : la variable alatoire moyenne arithmtique

1 2
2
M n = --- X
n
do la relation entre carts-types :
1
M n = ------- X
n
iii. Dans le cas o X est une variable de Bernoulli de paramtre (Pr(X = 1) = ), les relations
prcdentes deviennent :
(Pn ) =
1
2
(P n) = ----------------------n

9.2 Seconde proprit de la variable alatoire


moyenne arithmtique : le thorme central
limite
On souhaiterait comparer, par curiosit, les distributions de plusieurs moyennes arithmtiques, correspondant diverses variables alatoires. Par exemple la taille, la glycmie. Ces distributions sont
diffrentes, ne serait-ce qu cause des diffrences entre moyennes et variances vraies . Pour
sabstraire de ces premires diffrences, considrons la variable centre rduite associe, soit pour
chaque variable considre :
Mn X
Mn Mn
----------------------------- soit ------------------------ Mn
X
-----------n
Maintenant toutes ces variables ont en commun leur esprance (0) et leur variance (1). Il se passe
quelque chose dextraordinaire : lorsque n est suffisamment grand, elles finissent par avoir en
commun leur distribution, leur densit de probabilit.
Cela signifie que les distributions de toutes ces variables (moyennes arithmtiques centres rduites issues de variables alatoires diffrentes) finissent par concider, lorsque n est suffisamment grand, avec une distribution particulire unique. Cette distribution sappelle LOI
NORMALE, et puisque sa moyenne vraie est nulle et sa variance vraie est 1, on lappelle
LOI NORMALE CENTREE REDUITE ou encore distribution de Gauss ou de Laplace-Gauss
(1800).
On la notera schmatiquement N(0, 1) o 0 rappelle la valeur de la moyenne vraie , 1 la valeur

2013 - 2014

Biostatistique - Carrat, Mallet, Morice

91/179

Fluctuations de la moyenne observe : la variable alatoire moyenne arithmtique

de la variance vraie .
Donc la proprit ci-dessus - connue sous le nom de thorme central limite - snonce :
THEOREME CENTRAL LIMITE
Soit X une variable alatoire quantitative desprance mathmatique , de variance vraie 2.
Soit Mn la variable alatoire moyenne arithmtique associe X construite sur n rptitions.
Mn
La distribution limite de la variable alatoire ---------------- est la distribution

------n
normale centre rduite note N(0,1).
Il faut bien mesurer la porte de cette proprit. Quel que soit le phnomne tudi - apprci par
la variable alatoire que lon tudie - il suffit de connatre la moyenne et la variance de la variable
pour dduire la distribution (la densit de probabilit) - cest--dire lexpression la plus acheve
des proprits de variabilit - de la variable alatoire moyenne arithmtique calcule sur un chantillon de taille suffisante. Nous reviendrons plus loin, au paragraphe rsum et prcisions (voir page
93), sur cette notion vague taille suffisante . Or cest peu de connatre moyenne, variance (ou
cart-type) seulement - ex. : pour le poids la naissance = 3 kg, = 1,2 kg.

9.3 Etude de la distribution normale (rappel)


La distribution limite que lon a mise en vidence dpeint une variable alatoire desprance mathmatique 0 et de variance vraie 1, que lon a appele distribution normale centre rduite ou
N(0, 1).
2
x

1 ----2
La densit de probabilit est donne par une fonction dquation f x = ----------e et dont lallure
2
est reprsente sur la figure 5.
Ses principales caractristiques morphologiques sont les suivantes :

elle est symtrique,


elle prsente deux points dinflexion en x = 1 et x = -1

Par ailleurs, pour faciliter les calculs de probabilit relatifs cette variable, des tables ont t
construites qui donnent le lien entre et u , o ces valeurs ont le sens suivant (voir figure 5) :
Pr X u ; +u =
En particulier, pour = 0,05, la valeur u lue dans la table est 1,96, do u 0,05 = 1,96
On peut voir facilement que toute probabilit Pr X [a,b] sobtient partir dune telle table,
quelles que soient les valeurs de a et b.

92/179

Biostatistique - Carrat, Mallet, Morice

2013 - 2014

Fluctuations de la moyenne observe : la variable alatoire moyenne arithmtique

Figure 5 : loi normale centre rduite


Remarque
Sur la base de cette loi centre rduite, on dfinit toute une famille de lois de la faon
suivante :
Si X est distribue selon une loi normale centre rduite (notation X ~ N (0, 1)),
alors la variable Y = X + dont lesprance est et la variance 2, est distribue selon
une loi normale desprance et de variance 2.
On crit Y ~ N (, 2)
A linverse, si on dit que X ~ N (, 2)
X
cela veut dire que ------------- N 0 1 (variable centre rduite associe).

Exemple
La figure 6. prsente laspect de deux distributions normales lune N(0, 1), lautre
N(2,9 , 4).

Figure 6 : exemple de lois normales


Rsum et prcisions (thorme central limite)
Si n est suffisamment grand, X ayant pour moyenne vraie , pour variance vraie 2,
alors :
Mn
---------------- N 0 1 ( peu prs)

------n
2013 - 2014

Biostatistique - Carrat, Mallet, Morice

93/179

Fluctuations de la moyenne observe : la variable alatoire moyenne arithmtique

ou, de faon quivalente, M n N ------ ( peu prs)


n
o la notation ~ se lit : est distribu comme ou suit une distribution .
a.
b.

La distribution de Mn est exactement une loi normale (la mention peu prs est inutile), quel que soit n, si X elle-mme est gaussienne (i.e. est distribue normalement).
si X nest pas gaussienne :

si X est une variable quantitative autre que Bernoulli, la condition de validit


usuelle est n 30
si X est une variable de Bernoulli (valeurs 0 et 1), la condition usuelle de validit
est
n 5 et

n1 5
En outre dans ce cas, = , 2= (1 - ) si bien que lon aura :
Pn
--------------------------- N 0 1 ( peu prs)
1
----------------------n
1
ou, de faon quivalente, P n N ----------------------- ( peu prs)

9.4 Application du thorme central limite.


Intervalle de Pari (I. P.)
9.4.1 Dfinition de lintervalle de pari (I. P.) dune moyenne
observe
On considre une variable alatoire de moyenne vraie et de variance vraie 2.
On sait que pour n grand (n 30, ou n et n(1 - ) 5) :
Mn
la variable Z = ---------------- est approximativement distribue selon N (0, 1).

------n
On se pose le problme suivant. On sapprte raliser une srie dexpriences, cest--dire mesurer la variable X sur un chantillon de n individus. Peut-on construire un intervalle [a, b] tel que
la probabilit pour que la moyenne observe que lon sapprte calculer appartienne cet inter-

94/179

Biostatistique - Carrat, Mallet, Morice

2013 - 2014

Fluctuations de la moyenne observe : la variable alatoire moyenne arithmtique

valle ait une valeur donne ? Il sagit donc de construire un intervalle qui contienne avec une probabilit fixe la valeur observe que lon va obtenir.
Il sagit donc de trouver deux valeurs a et b telles que Pr a M n b = valeur donne = 1 .
Exemple : Pr a M n b = 0 95
Un tel intervalle [a, b] sappelle INTERVALLE DE PARI (I. P.) de niveau 1 - , ou encore intervalle de pari au risque , ou encore INTERVALLE DE FLUCTUATION
La figure 7 illustre le problme pos.

Figure 7 : le problme de lintervalle de pari


Ce problme admet plusieurs solutions : sauf besoin spcifique on choisit un intervalle symtrique
autour de (ce qui est naturel compte tenu de la distribution de Mn ).

Rsolution : a = ------- et b = + ------n


n
La valeur inconnue doit vrifier :

Pr ------- M n + ------- = 1

n
n

Pr ------- M n ------- = 1

n
n

Mn

Pr ---------------- = 1

------

n
Si le thorme central limite sapplique, lexpression ci-dessus suit une loi N(0, 1) ; notons-la Z.
Alors doit vrifier Pr Z = 1 . Cest le u de la table.
Finalement : = u

Pr u ------- M n + u ------- = 1 et
n
n

2013 - 2014

Biostatistique - Carrat, Mallet, Morice

95/179

Fluctuations de la moyenne observe : la variable alatoire moyenne arithmtique

IP 1 = u ------- ; + u ------n
n
Intervalle de Pari (I. P.) de la moyenne observe dune variable de moyenne vraie ,
de variance vraie 2 construite sur un chantillon de taille n

Exemple : = 0,05 u = 1,96 IP 0 ,95 = 1 ,96 ------- ; + 1 ,96 ------n


n
Les conditions de validit de cette construction sont celles du thorme central limite, cest--dire
n 30 pour les variables continues non normales et n, n(1 - ) 5 pour les variables de Bernoulli.
Cas dune variable de Bernoulli : est note , 2 = (1 - ). Donc
1
1
IP 0 ,95 = 1 ,96 ----------------------- ; + 1 ,96 ----------------------n
n
Linterprtation de lintervalle de pari est fondamentale. Si cet intervalle est bien calcul, on est
quasi sr, avec une probabilit 1 - (ici 0,95), dobtenir une valeur de la moyenne observe comprise dans cet intervalle. En pariant que la valeur va tomber dans cet intervalle, on se trompera (en
moyenne) dans cinq pour cent des expriences.
Exemple :
On a des raisons de penser que la frquence dune maladie dans la population est = 0,2. Lintervalle de pari de la moyenne observe (proportion observe) calcule sur 64 individus au niveau
0,95 est :
1 ,96 0 ,2 1 0 ,2
1 ,96 0 ,2 1 0 ,2
IP 0 ,95 = 0 ,2 --------------------------------------------- ; 0 ,2 + --------------------------------------------- = 0 ,10 ; 0 ,30
64
64
Il y a 95 chances sur 100 pour que la proportion observe tombe dans cet intervalle.

9.4.2 Les facteurs de dpendance de la longueur de


lintervalle de pari (IP)

La longueur de lIP est 2u ------n

la longueur dpend de
Si ' , la longueur de IP 1 ' est suprieure la longueur de IP 1
Exemple
= 0,05 u 0,05 = 1,96
= 0,01 u 0,01 = 2,57

96/179

Biostatistique - Carrat, Mallet, Morice

2013 - 2014

Fluctuations de la moyenne observe : la variable alatoire moyenne arithmtique

la longueur dpend de n
La longueur de IP 1 dcrot avec n. Cest le reflet du fait connu selon lequel les fluctuations
dchantillonnage sestompent avec n
Exemple
Dans le cas ci-dessus, si on remplace n = 64 par n = 6400, on obtient
IP 0 ,95 = 0 ,19 ; 0 ,21
Remarque
Pour rduire dans un rapport 2 la longueur de lIP, il faut un chantillon 4 fois plus
grand (22).

9.4.3 Lintervalle de pari dune variable alatoire


Ce que lon a dit pour une moyenne observe peut senvisager pour une variable X quelconque
dont on connat la distribution.
LIP de niveau 1 - est lintervalle [a, b] tel que Pr a X b = 1 .
Exemple :
X ~ N(0, 1)
IP 1 = u ; u
Une valeur numrique retenir :
pour une variable alatoire normale centre rduite IP0,95 = [-1,96 ; 1,96]

2013 - 2014

Biostatistique - Carrat, Mallet, Morice

97/179

Fluctuations de la moyenne observe : la variable alatoire moyenne arithmtique

Rsum du chapitre
1.

Proprits de la moyenne arithmtique Mn dune variable alatoire X, moyenne calcule sur


n units statistiques :
moyenne vraie de Mn = moyenne vraie de X
variance vraie de X
variance vraie de Mn = ------------------------------------------------------n

2.

Thorme central limite


Si X a pour moyenne vraie , pour variance vraie 2, Mn est, lorsque n est suffisamment grand (n 30, ou n et n(1 - ) 5), peu prs distribue comme une variable normale
2
de moyenne vraie et de variance vraie n , ce que lon crit :
2
Mn

M n N ------ ou ---------------- N 0 1
n

------n

3.

Intervalle de pari (I. P.)


Lorsque les conditions ci-dessus sont satisfaites, lintervalle

IP 1 = u ------- ; + u ------n
n
a la proprit suivante :
Pr M n IP 1 = 1
Cet intervalle sappelle intervalle de pari (I. P.) de niveau 1-, ou intervalle de pari au risque
.

98/179

Biostatistique - Carrat, Mallet, Morice

2013 - 2014

Estimation - Intervalle de confiance

Chapitre 10
Estimation - Intervalle de
confiance
10.1 Introduction
Le problme de lestimation statistique est le suivant : on cherche connatre les valeurs de certaines caractristiques dune variable alatoire grce des observations ralises sur un chantillon. Un grand nombre de problmes statistiques consistent en la dtermination de la moyenne
vraie , sur la base dobservations ralises sur un chantillon. Cependant, on peut aussi chercher
connatre les valeurs dautres caractristiques, comme par exemple les variances (exemple c. cidessous).
Exemples :
a.
b.
c.

quelle est la frquence de survenue de tel type de cancer chez les souris ?
quelle est la vraie valeur de la glycmie de ce patient ?
quelle est la variance de la glycmie mesure chez ce patient ?

Il est bien sr impossible de rpondre ces questions au sens strict.


On y apporte gnralement deux types de rponses :
1.
2.

On produit une valeur qui nous semble tre la meilleure possible : on parle alors destimation
ponctuelle.
On produit un intervalle de valeurs possibles, compatibles avec les observations. Cest la notion dintervalle de confiance ou destimation par intervalle.

Dans la suite on note X la variable alatoire dont on cherche estimer une caractristique, aussi
appele paramtre, dont la valeur est note . Par exemple le paramtre peut tre la glycmie, et sa
valeur celle du patient considr.

2013 - 2014

Biostatistique - Carrat, Mallet, Morice

99/179

Estimation - Intervalle de confiance

10.2 Estimation ponctuelle


10.2.1 Dfinition
A partir dun chantillon (X 1, X 2, ..., Xn ) de la variable alatoire X, on construit une nouvelle variable alatoire t(X 1, X 2, ..., Xn ) dont les ralisations se rapprochent de la valeur . Cette nouvelle variable est appele estimateur de . Pour simplifier, cette variable t(X 1, X 2, ..., Xn ) est note
n
Tn ou T.
1
Par exemple t(X 1, X 2, ..., Xn ) = M n = --- X i se rapproche de lesprance de X (voir chapitre
n
9).
i=1
Cest un estimateur naturel de E[X].

10.2.2 Proprits
Les estimateurs sont des fonctions des chantillons : ce sont donc des variables alatoires qui possdent une densit de probabilit, et le plus souvent, une moyenne (esprance mathmatique) et une
variance. Ces deux grandeurs permettent de comparer, dans une certaine mesure, les estimateurs
entre eux.

Figure 8 : densit de probabilit de 3 estimateurs T1, T2 et T3


La figure 8 reprsente les densits de probabilit de 3 estimateurs T1, T2 et T3 dune moyenne .

10.2.2.1 Biais
On voit sur la figure 8 que T1 et T2 sont centrs autour de , tandis que T3 a pour moyenne '
infrieure . Cette notion est dfinie plus prcisment de la manire suivante :
Le biais dun estimateur, not B(T), est la diffrence moyenne entre sa valeur et celle de la quantit
quil estime. On a :

100/179

Biostatistique - Carrat, Mallet, Morice

2013 - 2014

Estimation - Intervalle de confiance

B(T) = E(T - ) = E(T) -


Ici, on a : B(T1) = E(T1 - ) = E(T1) - = 0
de mme : B(T2) = 0
mais : B T3 = E T3 = E T3 = ' 0
On dit que T1 et T2 sont des estimateurs sans biais de , et que T3 est un estimateur biais de .

10.2.2.2 Variance
La variance dun estimateur est dfinie de la manire usuelle :
var(T) = E[T - E(T)]2
Si deux estimateurs sont sans biais, le meilleur est celui qui a la variance la plus petite : en effet,
ses valeurs sont en moyenne plus proches de la quantit estime.
Par exemple, sur la figure ci-dessus, on voit que var(T1) < var(T2). On peut donc conclure que T1
est un meilleur estimateur de que T2.
Quand des estimateurs sont biaiss, en revanche, leur comparaison nest pas aussi simple : un estimateur peu biais, mais de variance trs faible, pourrait mme, en pratique, tre prfr un estimateur sans biais, mais de variance grande.

10.2.2.3 Erreur quadratique moyenne


Lerreur quadratique moyenne est une grandeur permettant de comparer des estimateurs entre eux,
quils soient biaiss ou sans biais. Elle est dfinie de la manire suivante :
EQM(T) = E[(T - )2]
On dmontre facilement quon peut relier lerreur quadratique moyenne, lesprance et la variance
dun estimateur par lexpression suivante :
EQM(T) = var(T) + [E(T) - ]2 = var(T) + B(T)2
En particulier, lerreur quadratique moyenne des estimateurs sans biais est gale leur variance.
Lorsquon compare deux estimateurs, on considre que le meilleur est celui qui prsente lerreur
quadratique moyenne la plus faible.

10.2.3 Exemple
On a souvent utilis, dans ce cours, les quantits m, moyenne observe, et s 2, variance observe.
La variable alatoire moyenne arithmtique, note Mn , a t tudie au chapitre 8. De la mme manire, tudions la variable alatoire variance Sn 2, dfinie par :
n
2
2
S n = ------------ M 2 n M n
n1
o M 2 n est la variable alatoire moyenne arithmtique de X 2 .

2013 - 2014

Biostatistique - Carrat, Mallet, Morice

101/179

Estimation - Intervalle de confiance

On va calculer E(Sn 2). On rappelle que si U est une variable alatoire, la variable moyenne arithmtique dfinie sur U a les proprits suivantes :
E M U n = E U

1
(1) et var M U n = --- var U
n

(2)

On a par ailleurs :
var(U) = E(U 2) - [E(U)]2 et donc E(U 2) = var(U) + [E(U)] 2

(3).

On peut maintenant calculer E(Sn 2). Soit X une variable alatoire desprance E(X) = et de variance var(X) = 2. On a :
n
2
2
E S n = ------------ E M 2 n E M n
n1
2

Mais E M 2 n = E X = + daprs (1) et (3),


2

2
= var M n + E M n = ------ + daprs (3), (2) et (1),
n
2
n
2
2
2
2
2
et finalement : E S n = ------------ + ------ = .
n
n1
2
et E M n

Sn 2 est donc un estimateur sans biais de 2.

10.3 Estimation par intervalle - Intervalle de


confiance
Bien que des intervalles de confiance soient dfinissables pour toute quantit estime, leur dtermination est le plus souvent difficile. Nous nous limiterons donc dans ce cours la dfinition des
intervalles de confiance des moyennes (et proportions) vraies .

10.3.1 Exemple dune proportion


Lide directrice est la suivante : on souhaite associer une valeur observe p un intervalle appel
INTERVALLE DE CONFIANCE qui ait de bonnes chances de contenir la valeur vraie
de la proportion. Que signifie de bonnes chances ? Si lon effectue un grand nombre de fois
lexprience - chaque exprience produisant un pourcentage observ p - on construit autant dintervalles de confiance. On voudrait quun grand nombre de ces intervalles contienne la valeur
vraie . Par exemple que 95 % des intervalles en gros contiennent . On parlera alors dintervalle de confiance DE NIVEAU 0,95 ou dintervalle de confiance AU RISQUE 0,05. On considrera gnralement des intervalles de confiance de niveau 1-. La valeur sera alors le risque - ou
la probabilit - pour quun intervalle de confiance ne contienne pas la proportion vraie .

102/179

Biostatistique - Carrat, Mallet, Morice

2013 - 2014

Estimation - Intervalle de confiance

DE FACON GENERALE, LINTERVALLE DE CONFIANCE AU RISQUE DUNE VALEUR QUE LON CHERCHE A ESTIMER EST UN INTERVALLE QUI CONTIENT AVEC
UNE PROBABILITE 1 - LA VALEUR CHERCHEE ; IL SAGIT DUN INTERVALLE QUE
LON DEVRA ETRE EN MESURE DE CONSTRUIRE A LISSUE DUNE EXPERIENCE
PORTANT SUR UN ECHANTILLON.
Comment construire de tels intervalles ? Cest facile graphiquement.

Figure 9

2013 - 2014

Biostatistique - Carrat, Mallet, Morice

103/179

Estimation - Intervalle de confiance

Figure 10
Considrons la figure 9. On a port en abscisses une chelle 0-1 de mesure de proportions
vraies , en ordonnes une chelle de mesure de proportions observes. Donnons nous une valeur
de proportion vraie ; on sait associer cette valeur un intervalle de pari de niveau 0,95 de la
proportion observe que lon est susceptible dobtenir au cours dune exprimentation conduite
sur n individus. Cet intervalle de pari peut tre reprsent sur lchelle verticale. Si lon opre cette
reprsentation pour toutes les valeurs possibles dune proportion vraie , on obtient un domaine
limit par les deux courbes reprsentes sur la figure.
Considrons alors un problme mettant en jeu une proportion vraie , . Supposons que nous
fassions un ensemble dexpriences, chaque exprience portant sur n individus tant productive
dune valeur de proportion observe p. On peut associer chacune de ces expriences un point de
coordonnes (, p) sur la figure 9. Compte tenu de la construction prcdente, on peut affirmer
que ces points appartiendront 95 fois sur cent (cest--dire dans 95 % des expriences) au domaine
limit par les deux courbes, et ceci quelle que soit la valeur de .
Maintenant supposons quune exprience unique ait t ralise, produisant une valeur de proportion, p. Le problme est, sur la base de cette valeur, de dfinir un intervalle ayant de bonnes chances
de contenir la valeur inconnue de la proportion vraie . La solution, immdiate, est fournie par la
figure 10. Il suffit de trancher le domaine limit par les deux courbes DANS LAUTRE SENS. Cet
intervalle contiendra 95 fois sur cent la vritable valeur de la proportion.
Ainsi, si on adopte cette stratgie de construction, on aura pour chaque valeur observe p un intervalle qui contiendra avec la probabilit 0,95.
Le problme est rsolu. Maintenant, ce qui est simple sur un dessin est compliqu en termes de
calcul et il existe des tables dintervalles de confiance et des formules toutes faites permettant de
former des intervalles de confiance approchs.

104/179

Biostatistique - Carrat, Mallet, Morice

2013 - 2014

Estimation - Intervalle de confiance

10.3.2 Intervalle de confiance approch dune proportion


vraie
On montre quune bonne approximation de lintervalle de confiance de niveau 1 - de , fond
sur la valeur observe p, p tant calcule sur n individus, est donne par lintervalle ci-dessous :
p1 p
p1 p
IC 1 = p u -------------------- ; p + u -------------------n
n
Notons min et max les bornes de cet intervalle.
Cette approximation nest juge satisfaisante que sous les CONDITIONS DE VALIDITE
suivantes : nmin 5, n(1-max) 5
LORSQUE LES CONDITIONS DE VALIDITE NE SONT PAS REMPLIES, IL FAUT AVOIR
RECOURS A DES TABLES (hors programme).
Exemple : n = 100, = 0,05, p = 0,12
0 ,12 0 ,88
0 ,12 0 ,88
IC 0 ,95 = 0 ,12 1 ,96 ---------------------------- ; 0 ,12 + 1 ,96 ---------------------------- = 0 ,06 ; 0 ,18
100
100
conditions de validit
100 0,06 = 6 5.
100 (1 - 0,18) = 82 5.

10.3.3 Intervalle de confiance approch dune moyenne


vraie (variable continue)
De mme, il existe une expression approche pour lintervalle de confiance de niveau 1 - dune
moyenne vraie , intervalle fond sur la valeur observe m obtenue aprs une exprience portant sur n individus. Le calcul de cet intervalle suppose en outre le calcul de la variance observe
s 2. Lexpression est la suivante :
s
s
IC 1 = m u ------- ; m + u ------n
n
Lapproximation ci-dessus nest juge satisfaisante que sous la
CONDITION DE VALIDITE : n 30.
Lorsque cette condition nest pas remplie, on ne sait plus former dintervalle de confiance sauf si
lon peut supposer que la variable primitive X dintrt est normale.
Si la variable tudie est NORMALE, alors, et sans autre condition de validit, un intervalle de
confiance de niveau 1 - a pour expression :
s
s
IC 1 = m t ------- ; m + t ------n
n

2013 - 2014

Biostatistique - Carrat, Mallet, Morice

105/179

Estimation - Intervalle de confiance

o t est associ une nouvelle distribution, dite de Student, (n-1) degrs de libert (voir section
7.2.3 page 71). La notation t sapparente la notation u et est explicite table A.6 page 179.
Remarque (pour une variable normale encore)
Si la variance vraie de la variable tudie, 2, est connue, lintervalle de confiance a la forme
suivante :

IC 1 = m u ------- ; m + u ------n
n

10.3.4 Applications
Lintervalle de confiance exprime fondamentalement, comme son nom lindique, la confiance que
lon peut attribuer un rsultat exprimental.
IDEALEMENT TOUT PROBLEME DESTIMATION DEVRAIT ETRE PRODUCTIF DUN
INTERVALLE DE CONFIANCE. Ne donner quune estimation ponctuelle masque lincertitude
qui accompagne tout rsultat.
Exemple : supposons qutudiant la frquence dun vnement, on ait obtenu une frquence observe p gale 0,12.
Supposons que cette valeur ait t obtenue sur la base de 8 individus (lvnement tudi sest donc
ralis une fois). On peut lire dans une table spcialise que lintervalle de confiance de la frquence vraie est, au risque 0,05 [0,003 ; 0,527]. Cela signifie que cette valeur observe de 12 %
sur si peu dindividus ne fait quindiquer ceci : la frquence vraie se situe dans le domaine 3 ,
52,7 %.
Supposons que cette mme valeur 12 % ait t obtenue sur la base de 100 individus (lvnement
tudi sest ralis 12 fois au cours des 100 essais). Lintervalle de confiance associ est alors
proche de [0,06 ; 0,18]. Sur la base de cette valeur 12 %, on est maintenant en mesure daffirmer,
acceptant toujours un risque derreur de 5 pour cent, que la frquence vraie se situe dans le domaine 6 %, 18 %, domaine beaucoup plus troit que le prcdent.
De faon gnrale, la longueur de lintervalle de confiance indique la prcision obtenue. Les deux
exemples qui suivent montrent lusage que lon peut en faire.

10.3.4.1 Prcision dun sondage


Supposons que lon sapprte raliser un sondage pour estimer la prvalence dune maladie,
cest--dire la proportion de la population atteinte par cette maladie la date du sondage. On souhaite un rsultat prcis, cest--dire que lon souhaite par exemple que lintervalle de confiance rsultant ait une longueur au plus gale 0,04, avec un risque derreur de 5 %.
On remarque que la longueur de lintervalle de confiance ne dpend que dune seule grandeur
contrlable, le nombre dindividus. La question est donc : combien dindividus faut-il inclure dans
le sondage ?
Ce problme est simple, puisque la longueur de lintervalle de confiance stablit :

106/179

Biostatistique - Carrat, Mallet, Morice

2013 - 2014

Estimation - Intervalle de confiance

p1 p
p1 p
2 1 ,96 -------------------- quon arrondit ici 4 -------------------n
n
Leffectif de lchantillon devra donc tre au moins 10000 p(1 - p).
Toutefois, cet effectif dpend de p, inconnu avant lexprience. Lusage de ces calculs supposera
donc que lon ait une ide du rsultat attendu, grce un sondage exploratoire par exemple ou grce
une connaissance pralable du phnomne tudi.
De faon gnrale, si lon souhaite obtenir un intervalle de confiance dune proportion de longueur
2i, il est ncessaire dinclure un nombre dindividus au moins gal :
p 1 p
2 p1 p
4 ------------------- au risque 0,05 (ou u ------------------- au risque )
2
2
i
i
REMARQUE
Lorsque le sondage est ralis, un intervalle de confiance lui est associ. Dans le langage courant,
les instituts de sondage nomment ces intervalles de confiance des FOURCHETTES.

10.3.4.2 Prcision dune moyenne


Dans le cas o lon sintresse la moyenne vraie dune variable quantitative, on peut effectuer
le mme type de calcul. Pour obtenir un intervalle de confiance de longueur 2i, il faut inclure un
nombre dindividus au moins gal :
n =

2
2s
u ----2

i
Lexploitation de ce calcul ncessite ici une connaissance, mme approximative, de la variance de
la variable tudie pour se donner a priori s 2- ou mieux 2.
Exemple trs important : les problmes de dosage.
Soit doser la glycmie ; on a devant soi un chantillon de sang. Quelle est la concentration en
glucose ? Si on fait plusieurs dosages, on va obtenir plusieurs rsultats. Cela est d, non la variabilit de la glycmie, mais aux erreurs analytiques. On assimile la glycmie vraie la moyenne
vraie de la variable alatoire rsultat du dosage . Supposons que lon connaisse la variance
des rsultats, car on connat bien la technique analytique. Par exemple, = 10 mg.l-1. Supposons
en outre que les rsultats exprimentaux soient distribus normalement.
Si on effectue un dosage donnant 90 mg.l-1, on a pour intervalle de confiance approch ( tant
connu) :
IC0,95 = [90 - 2 ; 90 + 2] = [70 ; 110] soit un intervalle de longueur 40.
Si on effectue deux dosages donnant 90 et 96 mg.l-1, on a

IC 0 ,95 = 93 2 ------- ; 93 + 2 ------- = 78 ,9 ; 107 ,1


2
2
soit un intervalle damplitude 28,2.

2013 - 2014

Biostatistique - Carrat, Mallet, Morice

107/179

Estimation - Intervalle de confiance

Si lon effectue trois dosages donnant 90, 96 et 93 mg.l-1 on a

IC 0 ,95 = 93 2 ------- ; 93 + 2 ------- = 81 ,5 ; 104 ,5


3
3
soit un intervalle damplitude 23,0.
Ces calculs objectivent le fait bien connu selon lequel la rptition des dosages permet dattnuer
les consquences des erreurs exprimentales. Certains dosages - certaines mesures (tension
artrielle) - sont rpts avant quune valeur soit indique.

108/179

Biostatistique - Carrat, Mallet, Morice

2013 - 2014

Les tests dhypothses. Principes

Chapitre 11
Les tests dhypothses.
Principes
Les tests dhypothses sont fonds sur les intervalles de pari.

11.1 Un exemple concret (emprunt


Schwartz)
Une varit de souris prsente des cancers spontans avec un taux (une frquence ou proportion
dans la population) constant bien connu, = 20 %. On se demande si un traitement donn modifie
ce taux (en plus ou en moins), cest--dire est actif. Pour rpondre cette question on procde
une exprience sur 100 souris ; il sagira, au vu du pourcentage observ p danimaux cancreux,
de dire si le traitement est actif. Il nest pas possible de rpondre au sens strict cette question.
Supposons que le traitement soit sans effet ; alors chaque souris traite aura toujours 20 chances
sur 100 de devenir cancreuse. Mais le pourcentage de souris cancreuses, calcul sur un chantillon de 100 souris sera soumis aux fluctuations dchantillonnage que lon a tudies. Le pourcentage observ (moyenne observe) pourra prendre a priori, cest--dire avant exprience, plusieurs
valeurs, mme si les valeurs voisines de 0,2 sont les plus probables. Des valeurs de 0 ou 100 %
pourraient mme tre observes. Ainsi mme si le pourcentage observ est trs diffrent de 20 %,
il est possible que le traitement soit sans effet.
Supposons maintenant que le traitement soit actif ; la probabilit de cancer pour chaque souris (ou
la proportion vraie de souris cancreuses dans une population fictive de souris traites) est 1,
diffrente de 0,2. Encore cause des fluctuations dchantillonnage, on pourra trs bien, peut tre
de faon peu probable, obtenir une frquence observe gale 20 %. Ainsi mme si le pourcentage
observ est 20 %, il est possible que le traitement soit actif.
On ne peut donc rpondre avec certitude la question pose.
Pourtant ne pas rpondre serait renoncer considrer tous les problmes lis la variabilit, cest-dire tous les problmes biologiques. Alors on rpondra, mais en acceptant un risque derreur. Rpondre correspond la dmarche que chacun adopterait ; par exemple, dclarer le traite-

2013 - 2014

Biostatistique - Carrat, Mallet, Morice

109/179

Les tests dhypothses. Principes

ment actif si le taux observ de cancers aprs traitement scarte nettement de 20 %. Cest le
sens que lon peut donner ce nettement qui est le fondement du principe des tests.
Dans le cas tudi, on aurait tendance sy prendre de la faon suivante. Deux hypothses sont en
prsence :

le traitement est inactif,


le traitement est actif.

La premire hypothse est plus fine que la seconde car elle porte en elle une interprtation
numrique : le pourcentage vrai de souris cancreuses parmi les souris traites est 0,2 - lautre
hypothse indiquant seulement que ce pourcentage est diffrent de 0,2 ; ce qui est plus vague. Supposons alors vraie lhypothse la plus fine. Il devient possible de faire des dductions : sachant ce
qui se passe au niveau de la population des souris traites on peut en dduire ce qui se passera au
niveau dun chantillon. En particulier, on sait construire les intervalles de pari centrs de niveau
1 - pour la frquence observe.
Par exemple, prenant = 0,05 et n = 100 souris, on obtient IP0,95 = [0,12 ; 0,28]
Cela signifie, rappelons-le, que si = 0,2 (frquence suppos vraie ), 95 % des valeurs des
moyennes observes calcules sur 100 individus appartiendront lintervalle [0,12 ; 0,28].
On adopte alors la stratgie suivante : si la valeur observe de la frquence de souris cancreuses
parmi les 100 traites appartient cet intervalle, on considre que cette valeur est compatible avec
les fluctuations dchantillonnage et lactivit du traitement nest pas prouve. Si la valeur observe nappartient pas cet intervalle, le traitement sera considr comme actif. Dans ce dernier cas
le raisonnement est le suivant. Cet vnement (la frquence observe est lextrieur de lintervalle de pari) avait moins de 5 chances sur 100 de se produire et pourtant il sest produit ; donc je
ne crois plus lhypothse qui ma permis de dduire ces 5 % de chances.
Remarque : reformulation des calculs
Notons p la proportion observe de souris traites dveloppant un cancer, sur les n souris traites.
Le rsultat du test sera de conclure ou non lactivit du traitement selon que p ou IP 1
cest--dire :
0 1 0
0 1 0
p ou 0 u -------------------------- ; 0 + u -------------------------n
n
o 0 est la proportion hypothtique (0,2 dans lexemple) et u la borne de lintervalle de pari au
risque de p.
On suppose ici que les conditions du thorme central limite sont satisfaites. On conclut donc selon

110/179

Biostatistique - Carrat, Mallet, Morice

2013 - 2014

Les tests dhypothses. Principes

que
0 1 0
0 1 0
p 0 ou u -------------------------- ; u -------------------------n
n
ou encore selon que
p 0
------------------------------ ou u ; u
0 1 0
-------------------------n
On reconnat dans la dernire expression lintervalle de pari IP 1 dune variable alatoire
N(0, 1), intervalle indpendant de lexprience projete.
Cest comme cela que lon abordera gnralement les tests ; on cherchera construire une variable
alatoire dont on connaisse, si lhypothse fine est vraie, la distribution, pour pouvoir construire un
intervalle de pari ; ici il sagirait de la variable alatoire Z dduite de la variable alatoire moyenne
arithmtique selon :
Pn 0
Z = -----------------------------0 1 0
-------------------------n
avec 0 = 0,2 (transcription de lhypothse).
Une telle variable alatoire sappelle usuellement paramtre du test et est note conventionnellement Z. Ici on sait que Z ~ N(0, 1) et lon construit lintervalle de pari de niveau 1 - pour Z.
Par exemple avec = 0,05 , IP0,95= [-1,96 ; 1,96].
Puis on ralise lexprience ce qui permet dobtenir p, valeur observe de Pn , donc une valeur observe de Z, note u :
p 0
z = -----------------------------0 1 0
-------------------------n
On pourrait alors sexprimer comme ceci (une terminologie plus prcise sera indique plus loin) :

si z IP 0 95 on ne peut pas dire que le traitement est actif


si z IP 0 95 le traitement est actif.

Nous allons, la lumire de cet exemple, numrer les tapes de mise en uvre dun test et revenir
sur diffrents aspects (sens de par exemple) avant de donner dautres exemples de tests usuels

2013 - 2014

Biostatistique - Carrat, Mallet, Morice

111/179

Les tests dhypothses. Principes

11.2 Principe gnral des tests dhypothses


La mise en uvre dun test statistique ncessite plusieurs tapes.

11.2.1 Les tapes de mises en uvre


Etape 1
Avant le recueil des donnes.
Dfinir avec prcision les deux hypothses en prsence H0 et H1. H0 et H1 jouent toujours
des rles dissymtriques.
Le plus souvent, une des hypothses est prcise, ou fine. Elle engage une galit
gnralement ; cest elle qui sera H0 et on lappellera hypothse nulle,
H0 : hypothse nulle
Exemple : la frquence vraie dapparition du cancer chez les souris traites est 0,2, ce
qui se transcrit par = 0,2 (plus gnralement = 0).
Le principe des tests est dadmettre cette hypothse H0 sauf contradiction flagrante entre
ses consquences et les rsultats exprimentaux.
Lautre hypothse est toujours plus vague ; elle regroupe toutes les hypothses, hormis
H0. Cest H1 et on lappellera hypothse alternative,
H1 : hypothse alternative
Exemple : la frquence vraie dapparition du cancer chez les souris traites est diffrente de 0,2, qui se transcrit par 0,2 (gnralement 0).
Remarque : la formulation de ces hypothses ncessite gnralement une traduction et une
simplification du problme mdical sous-jacent.
Etape 2
Avant le recueil des donnes.
On suppose que H0 est vraie et on cherche dfinir une variable alatoire (ou paramtre)
dont on connait alors la distribution. En dautres termes, on cherche construire une fonction des donnes venir dont on connait la distribution si H0 est vraie. Soit Z cette variable
alatoire.
Pn 0
Exemple : Z = ------------------------------ N 0 1
0 1 0
-------------------------n

112/179

Biostatistique - Carrat, Mallet, Morice

2013 - 2014

Les tests dhypothses. Principes

Si possible, vrifier les conditions de validit.


Etape 3
Avant le recueil des donnes.
Choisir un seuil. Typiquement = 0,05 (une quasi obligation en pratique)
Construire un intervalle de pari (pour le paramtre Z) de niveau 1 - , not IP 1 . Rappelons quil sagit dun intervalle tel que si H0 est vraie, alors
P Z IP 1 = 1
Exemple : IP 1 pour Z ci-dessus = [-1,96 ; 1,96]
Dfinition : lextrieur de lintervalle de pari IP 1 sappelle rgion critique du test au
seuil .
Etape 4
Avant le recueil des donnes.
Dfinir la rgle de dcision. Les donnes vont permettre de calculer une valeur de Z, que
lon note z.
p rellement observ 0
Exemple : z = ------------------------------------------------0 1 0
-------------------------n
Alors dcider que :

si z appartient la rgion critique, remettre en cause H0,


la rejeter, et conclure H1 est vraie, ou dire : au risque , H0 est rejete .
si z nappartient pas la rgion critique, mais lintervalle de pari IP 1 , dire que
lon ne conclut pas, ou dire que lon ne rejette pas lhypothse nulle H0.

Etape 5
Recueil des donnes
Raliser lexprience. On recueille les donnes x 1, ..., xn ; calculer z et conclure.
Si non fait ltape 2, vrifier les conditions de validit.
Etape 6
Interprtation des rsultats
Cette tape concerne linterprtation des rsultats en des termes compatibles avec le problme mdical initialement soulev, et concerne en particulier le problme de la causalit.
Ce point sera dtaill au chapitre 15.
Exemple : dans le cas des souris, et en cas de conclusion au rejet de lhypothse nulle, la
question serait de savoir si ce rejet exprime vritablement une activit du traitement.

2013 - 2014

Biostatistique - Carrat, Mallet, Morice

113/179

Les tests dhypothses. Principes

11.2.2 Justification de la rgle de dcision. Choix de


11.2.2.1 Interprtation de
On a dj vu une interprtation de avec lexemple des souris. De faon gnrale, est la probabilit pour que la valeur observe - ou calcule - z appartienne la rgion critique si H0 est vraie.
Si cet vnement se ralise, on rejette H0. Cela ne se justifie que si est petit car alors on dit : voil
un vnement qui avait 100 % chances de se raliser (5 % par exemple) - donc peu de chances et qui pourtant sest ralis : les rsultats ne sont pas conformes lhypothse doit tre petit.
Une autre interprtation de montre encore mieux que doit tre petit. A nouveau, lorsque H0 est
vraie, la probabilit dobtenir un rsultat z dans la rgion critique est . Mais alors on dit H1 est
vraie . Donc
= probabilit de conclure H1 alors que H0 est vraie
Cest un risque derreur quil convient de situer dans des valeurs acceptables (petites).
Cette valeur sappelle RISQUE DE PREMIERE ESPECE.
Cela veut dire que sur un grand nombre dexpriences, en admettant , on conclura tort dans
100 % des cas (5 % des cas par exemple). Pourquoi alors ne pas choisir un microscopique ?

11.2.2.2 Effet dun changement de valeur de


Les intervalles de pari croissent lorsque leur niveau augmente, cest--dire lorsque diminue.
IP
= 0,1

]
IP

= 0,05
= 0,01

]
IP
]

Donc, toutes choses gales par ailleurs, la rgion critique diminue lorsque dcrot. Donc on rejette moins frquemment H0.
A vouloir commettre moins derreurs, on conclut plus rarement.
On sexpose donc un autre risque : celui de ne pas conclure alors quil le faudrait car H0 est
fausse. A la limite, si on se fixe = 0, on ne conclut jamais, H0 nest jamais rejete.
Prendre une dcision, cest accepter un risque.
Pour finir avec ce problme de il faut retenir :

114/179

Biostatistique - Carrat, Mallet, Morice

2013 - 2014

Les tests dhypothses. Principes

La valeur de doit tre fixe a priori : jamais en fonction des donnes


Pire que cela, on choisit la valeur = 0,05 qui est un compromis entre le risque de conclure
tort et la facult de conclure, compromis adopt par lensemble de la communaut scientifique.

11.2.3 Justification des conclusions du test. Puissance dun


test
On comprend maintenant la partie de la rgle de dcision conduisant au rejet de H0 lorsque la valeur calcule du paramtre nappartient pas lintervalle de pari. On a par ailleurs indiqu (voir
ltape 4 de mise en uvre des tests) que lorsque la valeur calcule du paramtre appartient lintervalle de pari, cest--dire lorsque les rsultats exprimentaux ne sont pas contradictoires avec
lhypothse nulle, on sexprime avec beaucoup de prcautions oratoires puisquon demande de
dire : on ne conclut pas ou on ne rejette pas lhypothse nulle . Pourquoi ne pas affirmer plus
directement lhypothse nulle est vraie ?
Premier lment
En faisant cela, on adopte une dmarche qui sapparente la dmarche scientifique qui
consiste admettre une thorie jusqu la preuve de son chec. Lorsque lon dit
admettre on ne signifie pas que la thorie est vraie mais quelle rend compte pour
linstant - jusqu plus ample inform - des expriences.
Exemples

la mcanique gnrale admise jusqu la thorie de la relativit


la mcanique cleste

Second lment
Supposons que lon mette en parallle les deux tests suivants :
H0 : = 0,2

H0 : = 0,200001

H1 : 0,2

H1 : 0,200001

Les paramtres calculs, soit


0,2

0,200001

p observe 0
z = -------------------------------0 1 0
-------------------------n
seront extrmement voisins, donc les conclusions pratiquement toujours les mmes.

2013 - 2014

Biostatistique - Carrat, Mallet, Morice

115/179

Les tests dhypothses. Principes

Considrons alors une exprience au cours de laquelle z IP 0 95 pour les deux valeurs calcules. Peut-on conclure la fois = 0,2 et = 0,200001 ? Pourtant on peut remarquer
quil ny a pas de vice de fond au niveau de la formulation des hypothses car il existe bien
une valeur vraie , cest--dire quil y a vraiment une hypothse vraie du type =
quelque chose.
On retient : les tests ne sont pas faits pour dmontrer H0, mais pour la rejeter.
Cela ne veut pas dire que lon est toujours content de rejeter H0.
Exemples

cas des souris traites. L on aimerait probablement rejeter H0, cest--dire conclure
lactivit du traitement.
cas dun test dhomognit. On vous livre un nouveau lot de souris ou des souris dun
autre levage. Vous voulez continuer vos recherches. La premire chose faire est de
tester lhypothse selon laquelle ces nouvelles souris sont similaires aux prcdentes
vis--vis du taux de cancer, H0 : = 0,2. Mais l vous esprez bien ne pas rejeter
H0. Cest cette condition que vous pouvez continuer.

PUISSANCE DUN TEST


Revenons la conclusion lactivit du traitement nest pas dmontre . Sous entendu
compte tenu de lexprience effectue. Cela na de sens de sexprimer comme cela que sil
est pensable quune autre exprience, plus complte par exemple, puisse montrer cette efficacit si elle existe.
Cest le cas, en effet. Laptitude dun test rejeter lhypothse nulle alors quelle est fausse
est limite. Prcisment :
On appelle PUISSANCE DUN TEST P la probabilit de rejeter lhypothse nulle, face
une hypothse alternative, alors quelle est fausse.
La valeur complmentaire 1 de cette puissance, cest--dire la probabilit de ne pas rejeter
lhypothse nulle alors que lhypothse alternative est vraie, sappelle le RISQUE DE
DEUXIEME ESPECE et se note conventionnellement : = 1 - P.
Le calcul de la puissance dun test est une opration complexe. La difficult tient essentiellement au fait que lhypothse alternative est vague. Pour contourner cette difficult et apprcier plus troitement cette notion de puissance, considrons le cas dune hypothse
alternative fine. Par exemple, reprenant lexemple des souris, supposons que lhypothse
H1 soit = 0,3, lhypothse H0 restant inchange, cest--dire = 0,2. Dans ces conditions,
il est possible de calculer la distribution de la proportion observe, non plus seulement sous
lhypothse nulle, mais galement sous lhypothse alternative. On obtient :
0 ,2 1 0 , 2

sous lhypothse nulle ( = 0,2) : P n N 0 ,2 -----------------------------


n

116/179

0 ,3 1 0 , 3
sous lhypothse alternative ( = 0,3) : P n N 0 ,3 -----------------------------

Biostatistique - Carrat, Mallet, Morice

2013 - 2014

Les tests dhypothses. Principes

Figure 11 : risque de deuxime espce dun test


La figure 11 prsente les deux distributions correspondantes, pour une certaine valeur de
n. Supposons alors juste lhypothse H1 ; la valeur observe p sera issue de la distribution
de droite, et lon conclura tort au non rejet de H0 avec une probabilit gale laire grise,
puisque cette aire est la probabilit pour que la valeur observe appartienne lintervalle
de pari associ au test, sachant que cette valeur observe est gouverne par la distribution
associe H1. Ainsi la valeur de cette aire grise exprime le risque de deuxime espce ,
son complmentaire 1 la puissance du test.
Supposons pour fixer les ides que la valeur de cette aire soit 0,4. Cela signifie que si les
hypothses sont = 0,2 et = 0,3, on aura 6 chances sur dix seulement de rejeter lhypothse = 0,2 lorsque sera gal 0,3. Autrement dit, 4 fois sur dix, on sera incapable
de dtecter que vaut 0,3 et non 0,2.

Figure 12 : risque de deuxime espce dun test


Par ailleurs, on peroit que plus les hypothses H0 et H1 sont contrastes (par exemple les
hypothses = 0,2, = 0,4 sont plus contrastes que les hypothses = 0,2, = 0,3), plus
les distributions de P n sous ces deux hypothses sont loignes , et plus la puissance est
grande. Cest la raison pour laquelle on dit souvent que la notion de puissance est proche
de la notion de pouvoir discriminant entre hypothses.

2013 - 2014

Biostatistique - Carrat, Mallet, Morice

117/179

Les tests dhypothses. Principes

La figure 12 reproduit les conditions de la figure 11, mais avec une valeur de n accrue. Autrement dit le mme test est mis en uvre, mais sur un nombre dunits statistiques suprieur. On constate sur cette figure que le risque de deuxime espce est trs faible. Ce
rsultat est gnral :
TOUTES CHOSES EGALES PAR AILLEURS, LA PUISSANCE DUN TEST AUGMENTE AVEC LA TAILLE DE LECHANTILLON
Remarque
Les calculs de puissance bauchs ci-dessus, joints au rsultat prcdent, permettent de rpondre des questions du type :

combien de sujets est-il ncessaire dinclure dans un essai pour avoir de bonnes
chances (9 chances sur dix par exemple) de mettre en vidence une diffrence entre
proportions vraies dau moins 0,1 ?
si je dispose de 100 sujets, quelle diffrence minimum entre proportions vraies
suis-je capable de dtecter avec une probabilit de 0,9 ?

Des formules de la relation entre puissance et taille des chantillons seront donnes dans le
chapitre 12.
Les dveloppements ci-dessus montrent que lorsque vous navez pas rejet lhypothse
nulle, vous pouvez toujours dire que cest un manque de puissance du test puisque H0 est
sans doute fausse (pensons = 0,2 exactement). On peut donc dire quavec un plus grand
nombre dindividus vous auriez rejet H0. Cela justifie lexpression lactivit du traitement nest pas dmontre .
Cependant il faut tre raliste : reprenons lexemple des souris traites ou non traites.
Vous avez ralis votre exprience sur un chantillon de 1000 souris. Rsultat du test : non
rejet de H0 cest--dire lactivit nest toujours pas dmontre. Il nest pas raisonnable dans
ces conditions dvoquer un manque de puissance du test ; ce rsultat suggre plutt une
trs faible activit du traitement, si elle existe.

11.2.4 Amlioration de linterprtation du rejet de H0


11.2.4.1 Notion de degr de signification
Supposons que lon ralise un test au risque ou seuil = 0,05.
Considrons deux expriences conduisant au rejet de H0, pour lesquelles on a obtenu des valeurs
calcules du paramtre z 1 et z 2 reprsentes ci-dessous.
On aurait envie de rejeter plus fortement H0 dans le second cas que dans le premier. En effet, considrons des intervalles de pari pour z, de niveau croissant partir de 0,95.

118/179

Biostatistique - Carrat, Mallet, Morice

2013 - 2014

Les tests dhypothses. Principes

z1
IP0,95

IP0,97

IP0,999

IP0,99

z2

]
]

[
[

On observe que z 1 est lextrieur des intervalles de pari jusquau niveau 0,97, que z 2 est lextrieur des intervalles de pari jusquau niveau 0,999. Cela signifie que, en ce qui concerne la premire exprience, H0 aurait t rejete mme si on avait limit le risque derreur 1 - 0,97 = 0,03
(soit 3 %), et que, en ce qui concerne la seconde, H0 aurait t rejete mme si on avait limit le
risque derreur 1 - 0,999 = 0,001 (soit 1). Cest ce pseudo risque derreur que lon appelle degr de signification et qui mesure la force avec laquelle on rejette H0.
Ce degr de signification est not p : plus il est petit, plus confortable est le rejet.
Si lon veut une dfinition plus prcise :
Dfinition
Lorsque H0 est rejete, on appelle degr de signification dun test le risque associ au plus grand
intervalle de pari qui ne contient pas le paramtre calcul z.
Calcul pratique du degr de signification
On cherche dans la table la valeur de p pour laquelle up = z, up tant du type u
Exemple: z = 2,43.
On trouve dans la table u 0,02 = 2,32 et u 0,01 = 2,57
alors p 0 ,01 ; 0 ,02
La valeur exacte ne se trouve pas dans la table : on dira p < 0,02. Le plus grand intervalle de pari
ne contenant pas z est de niveau > 0,98, ou au risque < 0,02.
La plupart des rsultats de tests sexpriment avec ce degr de signification :

On ralise le test (avec un risque = 0,05)


Si H0 est rejete, on calcule ou on value le degr de signification p
Si H0 nest pas rejete, on ne calcule pas p.

11.2.4.2 Orientation du rejet


Le rejet de H0 correspond gnralement lune des deux situations :

rejet car z est trop petit (infrieur la borne infrieure de lintervalle de pari)
rejet car z est trop grand (suprieur la borne suprieure de lintervalle de pari)

2013 - 2014

Biostatistique - Carrat, Mallet, Morice

119/179

Les tests dhypothses. Principes

Dans le cadre de lexemple prcdent, chacune de ces situations correspond gnralement des
commentaires radicalement diffrents. Par exemple :
z est trop petit le traitement est efficace
z trop grand le traitement est nuisible

11.3 Rappels et prcisions


1.

LES TESTS PRENNENT EN COMPTE DES HYPOTHESES SYNTHETIQUES


On a vu que les tests reposent sur lnonc de deux hypothses exclusives. Il y a parfois beaucoup de chemin parcourir entre la formulation dun problme mdical et sa formulation en
termes statistiques. Reprenons lexemple des souris de ce chapitre. Le problme fondamental
est celui de lactivit du traitement. Cette activit peut avoir bien dautres manifestations que
la modification de la frquence dapparition des cancers. On peut penser un effet portant sur
lge de survenue de la maladie, portant sur la vitesse de dveloppement des tumeurs etc
On ne peut rpondre simultanment toutes ces questions, par lintermdiaire dun test du
moins : les tests ne permettent de rpondre qu des questions simples.

2.

ON NE CHOISIT PAS LE SEUIL DE SIGNIFICATION


Que dirait-on dun mdecin annonant : jaime le risque alors jai choisi un risque de 0,4 et
le traitement que je propose est efficace (ou actif) ce risque ?
= 0,05 est conventionnel

3.

ON NE DIT PRATIQUEMENT JAMAIS : LEXACTITUDE DE LHYPOTHESE NULLE


EST DEMONTREE

4.

ON NENCHAINE PAS LES TESTS DE FAON INCONSIDEREE


En effet, les risques de conclusion tort augmentent alors.
Par exemple, supposons que lon veuille tester lgalit une valeur donne de deux proportions (ex : succs dune intervention chirurgicale dans deux services hospitaliers, le pourcentage de succs sur la France tant par ailleurs connu (donnes de lanne prcdente par
exemple)). Que se passe-t-il si lon effectue deux tests successifs dont les hypothses nulles
sont :
service 1 : 1 = 0 ; puis service 2 : 2 = 0.
Le risque de premire espce global de la procdure exprime la probabilit de dire au moins
une fois (soit au cours du premier test soit au cours du second) H1 alors que H0 est vraie les
deux fois :
Pr(conclure H1 au moins une fois si H0 est vraie) = 1 - Pr(ne rejeter H0 aucune des deux fois
si H0 est vraie)

120/179

Biostatistique - Carrat, Mallet, Morice

2013 - 2014

Les tests dhypothses. Principes

Or Pr(ne pas rejeter H0 si H0 est vraie) = 1 -


Donc Pr(ne rejeter H0 aucune des deux fois si H0 est vraie) = (1 - )2
do un risque total = 1 - (1 - )2
Exemple
Si = 0,05, le risque global est environ 0,10.
Cette situation saggrave si le nombre de tests saccrot. Ainsi, dans le cas de

3 services le risque global est 0,14


10 services le risque global est 0,40
100 services le risque global est 0,994

Cela signifie par exemple que dans le cas o 10 services sont comparer une rfrence il y
a 4 chances sur 10 pour quau moins une frquence observe scarte de faon significative
de la valeur de rfrence, alors quen ralit tous les rsultats sont homognes. Si lon prend
la frquence observe la plus diffrente de la valeur de rfrence, le test permettra de conclure,
tort, avec une probabilit suprieure 0,4.
En fait, lorsque lon dsire faire des comparaisons multiples, des tests spcifiques doivent tre
utiliss de faon que les conclusions puissent tre tires avec un risque derreur global de
5 %.
5.

IL EST DANGEREUX ET ERRONE DE CHOISIR LES HYPOTHESES AU VU DES


DONNEES
Lorsque lon opre de cette faon, on a en ralit ralis plus ou moins consciemment un
nombre indtermin de tests que lon a jugs non concluants.
LA STRATEGIE DANALYSE DES DONNEES DOIT ETRE FIXEE CLAIREMENT AVANT LA REALISATION DE LEXPERIENCE

2013 - 2014

Biostatistique - Carrat, Mallet, Morice

121/179

Les tests dhypothses. Principes

Rsum du chapitre
A.

Etapes de mise en uvre des tests :


1.

2.
3.
4.
5.
6.

B.

Examiner le problme mdical, aboutir une formulation sous forme dune question
simple mettant en jeu deux hypothses H0 (prcise, dite hypothse nulle) et H1 (contraire
de H0, dite hypothse alternative). Enoncer ces hypothses.
Construire un paramtre dpendant des donnes venir dont on connaisse la distribution
si H0 est juste.
Choisir le seuil ; = 0,05
Mettre en place la rgle de dcision sur la base dun intervalle de pari au risque .
Faire lexprience, les calculs et conclure sur le plan statistique. En particulier indiquer
le degr de signification du test en cas de rejet de lhypothse nulle.
Se livrer une interprtation mdicale des rsultats du test (ce point sera revu au chapitre
15).

Vrifier les conditions de validit ltape 2 ou ltape 5.


Mettre en uvre un test cest accepter deux risques derreur :

le risque de premire espce, , chiffrant la probabilit de rejeter H0 alors quelle est


vraie,
le risque de deuxime espce, , chiffrant la probabilit de ne pas rejeter H0 alors quelle
est fausse.

La valeur 1- sappelle la puissance du test et mesure laptitude du test dtecter un cart


entre la ralit et lhypothse nulle. Cette puissance augmente avec la taille des chantillons
sur lesquels a t mis en uvre le test.

122/179

Biostatistique - Carrat, Mallet, Morice

2013 - 2014

Quelques tests usuels

Chapitre 12
Quelques tests usuels
12.1 Tests concernant des variables de
Bernoulli
12.1.1 Test dgalit dune proportion vraie une valeur
donne (ou test de comparaison dune proportion observe
une valeur donne)
12.1.1.1 Mise en place du test
Exemple : les souris du chapitre prcdent
1.

Les hypothses en prsence


H0 (hypothse nulle) : la proportion vraie (de souris cancreuses dans la population des
souris traites) est gale 0 (proportion hypothtique ou suppose quon se donne pour le
test).
H1 (hypothse alternative) : la proportion vraie est diffrente de 0.
Notations :
H 0 : = 0
H 1 : 0

2.

Dfinition du paramtre
Pn 0
Z = -----------------------------0 1 0
-------------------------n
o P n reprsente la variable alatoire proportion.
Sous H0, Z est peu prs distribue selon N(0, 1)

2013 - 2014

Biostatistique - Carrat, Mallet, Morice

123/179

Quelques tests usuels

[conditions de validit : n0 5 et n(1 - 0) 5]


3.

Choix dun seuil de signification


Construction de lintervalle de pari de niveau 1 - : IP 1
Exemple : = 0,05 IP0,95= [-1,96 ; 1,96] (lu dans la table de la distribution normale)

4.

Mise en place de la procdure de dcision


Lorsque les donnes seront disponibles on obtiendra une valeur du paramtre Z, soit :
p 0
z = -----------------------------0 1 0
-------------------------n
Si z IP 1 on rejette H0 et on dit : au risque lhypothse dgalit de la proportion
vraie et de la valeur donne est fausse ; ou, au risque , la proportion vraie est diffrente de la valeur donne.
Si z IP 1 on ne rejette pas H0 ou on ne conclut pas .

5.

Recueil des donnes. Conclusion


Rappelons les conditions de validit : n0 5 et n(1 - 0) 5

12.1.1.2 Autre interprtation du paramtre z


Regardons la forme du paramtre z. On conclut (cest--dire on rejette H0) si z u ; u cest-dire si z u soit si :
0 1 0
p 0 u -------------------------n
cest--dire si la proportion observe p est suffisamment diffrente de 0. Voil pourquoi on dit
que lon compare p et 0. Cest pourquoi on dit aussi, lorsque H0 est rejete :
La proportion observe est significativement diffrente de la valeur donne, au
risque (0,05), ou encore : la diffrence entre p et 0 est significative. Ce qui
indique une diffrence entre la valeur donne et la proportion vraie .
Lorsque H0 nest pas rejete, on dit : la proportion observe nest pas significativement diffrente de la valeur donne.
Trs important : une mme diffrence |p - 0| peut tre ou non significative selon la valeur de n.
Si lon vous demande : p = 0,25 et 0,2, sont-elles significativement diffrentes, ne rpondez-pas ;
demandez : quelle est la taille de lchantillon sur lequel p a t calcul, quel risque ?

124/179

Biostatistique - Carrat, Mallet, Morice

2013 - 2014

Quelques tests usuels

12.1.1.3 Nombre de sujets ncessaires


Si on considre quen ralit = 1, le nombre de sujets ncessaires pour obtenir une puissance
1 - ( < 0,5) est approximativement donn par
2

1 96 0 1 0 + u 2 1 1 1
n = ----------------------------------------------------------------------------------------------2
0 1
Conditions de validit : n0 5 et n0) 5

12.1.2 Test dgalit de deux proportions vraies (ou test de


comparaison de deux proportions observes)
12.1.2.1 Mise en place du test
Reprenons lexemple des souris mais en supposant maintenant que lon ne connat plus la frquence vraie de cancer chez les souris non traites (le 0,2 dalors). On se pose toujours la mme
question relative lactivit du traitement. On est amen reformuler lgrement le problme et
identifier labsence dactivit du traitement lgalit des proportions vraies de souris cancreuses dans deux populations, lune traite lautre non traite, et lactivit une diffrence entre
ces deux pourcentages. On notera A et B les deux populations, A et B les frquences vraies
de souris cancreuses dans ces deux populations, nA et nB les tailles des chantillons sur lesquels
on calculera p A et p B , les frquences observes correspondantes. Mettons en place le test.
1.

Les hypothses en prsence


H0 hypothse nulle : les frquences vraies sont gales A = B
H1 hypothse alternative : les frquences vraies sont diffrentes A B

2.

Construction dun paramtre dont on connaisse la loi sous lhypothse nulle (i.e. si H0 est
vraie)
Cest une tape un peu dlicate (le lecteur peu curieux peut passer rapidement sur ces dveloppements). Essayons de nous ramener un cas connu : comparaison dun pourcentage observ une valeur donne, problme associ aux hypothses suivantes :
H 0 : = 0
H 1 : 0
On y parvient en reformulant les hypothses
H 0 : A - B = 0
H1 : A - B 0
Il sagit donc de comparer 0 la diffrence A - B .
Pn 0
Auparavant on formait le paramtre -----------------------------0 1 0
-------------------------n

2013 - 2014

Biostatistique - Carrat, Mallet, Morice

125/179

Quelques tests usuels

v.a. proportion valeur thorique


qui peut sinterprter comme -------------------------------------------------------------------------------cart-type de la v.a. proportion
diffrence des v.a. proportions valeur thorique
Alors on va former ---------------------------------------------------------------------------------------------------------------------cart-type des diffrences des v.a. proportions
P nA P nB
soit -------------------------------------------------------------------------------------------------------------cart-type des diffrences des v.a. proportions
La difficult est de former lexpression de lcart type des diffrences des % exprimentaux.
Remarquons dabord que les variables alatoires P nA et P nB sont indpendantes ; cette indpendance rsulte du fait que ce nest pas parce que lon a trouv une souris cancreuse dans
la population des souris traites que lon a plus ou moins de chances de trouver une souris cancreuse ou non dans la population non traite.
Alors : var(P nA - P nB ) = var(P nA ) + var(-P nB ) = var(P nA ) + var(P nB ) (voir chapitre 6)
Par ailleurs, sous lhypothse nulle, les moyennes vraies A de P nA et B de P nB sont
identiques, et leur valeur commune, inconnue, est note . Do :
1
1
var P nA = --------------------- et var P nB = ----------------------nA
nB
si nA et nB sont les tailles des chantillons sur lesquels P nA et P nB sont calcules.
1 1
Donc : var P nA P nB = --------------------- + ----------------------nA
nB
Maintenant, reste inconnu ; il sagit de la valeur vraie commune des pourcentages. Le
mieux pour lestimer est de mlanger les deux populations - elles contiennent sous H0 le
mme pourcentage de souris cancreuses - et dire :
de souris cancreuses dans les deux chantillons
= nombre
proche de
--------------------------------------------------------------------------------------------------------------------------------------nombre total de souris
n
p
+
n
p
A A
B B
= -----------------------------soit :
nA + nB
Finalement on adopte le paramtre suivant :
P nA P nB
Z = ------------------------------------------------------ 1

1

--------------------- + ----------------------nA
nB
A pA + nB pB
= n-----------------------------avec
nA + nB
Sous lhypothse nulle Z est peu prs distribue selon N(0, 1).
Conditions de validit :

n A 5 n A 1 5

5 n 1
5
nB
B

126/179

Biostatistique - Carrat, Mallet, Morice

2013 - 2014

Quelques tests usuels

3.

Choix dun seuil de signification ( = 0,05).


Construction de lintervalle de pari IP 1 lu dans une table.
ex. : IP0,95 = [-1,96 ; 1,96]

4.

Mise en place de la procdure de dcision


Si z, dont on connatra la valeur une fois lexprience ralise
IP0,95 on ne conclut pas
IP0,95 on rejette H0 : une proportion est alors plus grande que lautre.

5.

pA pB
Ralisation de lexprience, calcul de z = ------------------------------------------------------- , conclusion.
1

--------------------- + ----------------------nA
nB

12.1.2.2 Nombre de sujets ncessaires

Pour obtenir une puissance 1 - ( < 0,5) sur la base de 2 chantillons de mme taille n, la valeur
minimale de n est donne par la formule approche suivante
A + B
1
2 2
n = 1 96 + u 2 -------------------------2avec = ------------------2
A B
Conditions de validit : nA 5, nA) 5, nB 5 et nB) 5

12.2 Tests concernant des variables


quantitatives
12.2.1 Tests impliquant une valeur donne
Ces tests concernent les variables quantitatives continues et permettent de traiter les types de questions suivantes :
1.

2.

la moyenne vraie de la taille des individus dans une sous-population est-t-elle gale la
moyenne vraie de la taille des individus dans la population gnrale, cette taille moyenne
tant connue par ailleurs.
la distribution de la taille des individus dans cette sous population est-elle dissymtrique par
rapport cette moyenne vraie , cest--dire tmoigne-t-elle dune ingalit de frquences
entre les petites tailles et les grandes tailles , ce qui est le cas par exemple si la frquence des 20-25 cms de moins que la moyenne est diffrente de celle des 20-25 cms
de plus que la moyenne ?

Ces deux tests sont apparents dans la mesure o le premier met lpreuve E(X) = 0, lautre le

2013 - 2014

Biostatistique - Carrat, Mallet, Morice

127/179

Quelques tests usuels

fait que X - 0 et 0 - X ont la mme densit de probabilit. Cette dernire condition, qui entrane
alors E(X) - 0 = 0 - E(X) et donc E(X) = 0, tant plus contraignante que la premire.

12.2.1.1 Test dgalit dune moyenne vraie une valeur donne (ou test de
comparaison dune moyenne observe une valeur donne)
Ce cas concerne les variables quantitatives continues et nest valide que lorsque n 30.
1.

Les hypothses en prsence :


H0 : la moyenne vraie est gale avec la valeur donne 0 : = 0
H1 : 0

2.

Construction du paramtre
Mn 0
Z = ------------------2
s
---n
Z est peu prs distribu selon N(0, 1). Cela rsulte du thorme central limite, ceci prs
que s 2 est utilis la place de 2. On admettra que Z est tout de mme distribu selon une
distribution normale.

3.

Choix du seuil ; = 0,05


Construction de lintervalle de pari centr IP 1
IP 1 = u ; u ; u 0,05 = 1,96

4.

5.

Dfinition de la rgle de dcision


La rgle de dcision est tout fait similaire au cas des proportions.
Si z IP 1 , rejet de H0. On dit alors : au risque la moyenne vraie diffre de la valeur
donne ou, pour les mmes raisons que pour les proportions : la moyenne observe est significativement diffrente, au risque , de la valeur donne ; ou encore : la moyenne observe et
la valeur donne sont significativement diffrentes, au risque .
Si z IP 1 , on ne conclut pas. La moyenne observe nest pas significativement diffrente
de la valeur donne.
m 0
Recueil des donnes. Calcul de z = ---------------- . Conclusion.
2
s
---n

Nombre de sujets ncessaires

Pour rejeter H0 avec une puissance 1 - ( < 0,5), lorsque = 1 et que X a pour variance 2, il
faut constituer un chantillon dont la taille minimale est donne par la formule approche suivante
2

2
n = 1 96 + u 2 ------------------------2 0 1

128/179

Biostatistique - Carrat, Mallet, Morice

2013 - 2014

Quelques tests usuels

Condition de validit : n 30

12.2.1.2 Test de symtrie dune variable (X) par rapport une valeur donne
(0) : test de Wilcoxon
1.

Les hypothses en prsence :


H0 : les variables X - 0 et 0 - X ont mme densit de probabilit
H1 : les variables X - 0 et 0 - X nont pas la mme densit de probabilit

2.

Construction du paramtre
Le paramtre est construit partir des valeurs ordonnes par ordre croissant des valeurs absolues des xi - 0 o les xi sont les valeurs de X observes dans lchantillon ; chaque valeur
on associe son rang de classement et lon garde la mmoire de son signe. On attribue aux
ventuels ex-quo un rang commun gal la moyenne des rangs quils occupent.
Exemple
Si les valeurs observes (qui ne seront disponibles quaprs ralisation de lexprience) sont :
-2,3 ; 4 ; 1 ; 5,6 ; -1,2
Le classement sera : 1 (+) ; 1,2 (-) ; 2,3 (-) ; 4 (+) ; 5,6 (+)
On sintresse alors la somme des rangs des places occupes par les valeurs positives, appele T +. Ici la valeur de T + serait 1+4+5 = 10.
Le paramtre du test est :
+

T nn + 1 4
Z = ------------------------------------------------------n n + 1 2n + 1 24
La variable Z a une distribution connue :

3.

Lorsque n > 15 cette distribution est peu prs N(0, 1).


Pour n 15, il sagit dune distribution faisant lobjet dune table spcifique, la table du
test de Wilcoxon.

Choix du seuil ; = 0,05


Construction de lintervalle de pari centr IP 1
IP 1 = W ; W ; lorsque n > 15, W = u

4.

Dfinition de la rgle de dcision


Si z IP 1 , rejet de H0. On dit alors : au risque la densit de probabilit de X nest pas
symtrique par rapport 0 ; selon le signe de z, on conclura que X est plutt plus grand que
0 , ou que X est plutt plus petit que 0 .
Si z IP 1 , on ne conclut pas ; on ne rejette pas H0.

2013 - 2014

Biostatistique - Carrat, Mallet, Morice

129/179

Quelques tests usuels

5.

Recueil des donnes, calcul de z, conclusion.

Remarque : si n < 6 ce test ne permet jamais de rejeter H0

12.2.2 Tests de comparaison de variables quantitatives


Ces tests concernent les variables quantitatives continues et permettent de traiter les types de questions suivantes :
1.

2.

la moyenne vraie de la taille des individus dans une sous-population A est-t-elle gale la
moyenne vraie de la taille des individus dans une autre sous-population B, ces moyennes
vraies ntant pas connues.
la distribution de la variable alatoire taille des individus dans la population A concide-t-elle
avec la distribution de la variable alatoire taille des individus dans la population B.

Ces deux tests sont apparents, lhypothse dgalit des distributions tant plus contraignante que
lhypothse dgalit des moyennes vraies seules. Dans les deux cas on va raliser une exprience mettant en jeu deux chantillons issus des deux populations, lissue de laquelle on disposera de deux sries de valeurs de taille (les nombres de valeurs observes sont nots respectivement
nA et nB ).

12.2.2.1 Test dgalit de deux moyennes vraies (ou test de comparaison de


deux moyennes observes)
Ce test nest valide que lorsque nA et nB sont 30, cas dit des grands chantillons.
Il sagit dun problme trs proche du problme trait en 12.2.1.1
1.

Les hypothses en prsence


H0 hypothse nulle : les moyennes vraies dans les deux populations sont gales A = B
H1 hypothse alternative : A B

2.

Construction du paramtre : cette construction suit les mmes lignes que prcdemment et on
obtient
M nA M nB
Z = --------------------------2
2
sA sB
----- + ----nA nB
Z est peu prs distribue selon N(0, 1).

3.

Choix dun seuil de signification (0,05)


Construction de lintervalle de pari IP 1 (IP0,95)

130/179

Biostatistique - Carrat, Mallet, Morice

2013 - 2014

Quelques tests usuels

4.

Rgle de dcision

5.

Mise en uvre de lexprience.


Calculs :
nA

nA

1
1
2
2
m A = ----- x iA et s A = -------------- x iA m A
nA
nA 1
i=1

i=1

nB

nB

1
1
2
2
m B = ----- x iB et s B = -------------- x iB m B
nB
nB 1
i=1

i=1

les xiA et xiB tant les valeurs de tailles observes dans les chantillons des populations A et
B respectivement.
mA mB
z = ----------------------2
2
sA sB
----- + ----nA nB
Conclusion.

Nombre de sujets ncessaires


Pour dtecter une diffrence de moyennes avec une puissance 1 - ( < 0,5) il faut constituer deux
chantillons, chacun de taille au moins gale n, valeur donne par la formule approche suivante
o A2 et B2 sont les variances dans les populations
2

A + B
n = 1 96 + u 2 -------------------------2 A B
Condition de validit : n 30
2

12.2.2.2 Test dgalit de deux distributions (ou test de comparaison de deux


distributions observes) : test de Mann-Whitney-Wilcoxon
1.

Les hypothses en prsence


H0 les densits de probabilit concident dans les deux populations : fA = fB
H1 les densits de probabilit ne concident pas : fA fB

2.

Construction du paramtre : cette construction suit les mmes lignes que celles du test de Wilcoxon dcrit section 12.2.1.2.
Par convention, on considre que nA nB .
On ordonne par valeurs croissantes lensemble des donnes observes (dont on disposera
aprs ralisation de lexprience). On attribue aux ventuels ex-quo un rang commun gal
la moyenne des rangs quils occupent. Puis on calcule la somme des rangs de classement occups par les donnes issues de lchantillon de la population A, soit TA .

2013 - 2014

Biostatistique - Carrat, Mallet, Morice

131/179

Quelques tests usuels

nA nA + nB + 1
On calcule galement = T A -------------------------------------- .
2
Puis TA de la faon suivante :

si > 0 TA = TA - 0,5
si < 0 TA = TA + 0,5

Exemple
Si les valeurs observes sont :

Echantillon de population A : 1,7 ; 6,1 ; 3,2 ; 1,5


Echantillon de population B : 4,3 ; 0,5 ; 1,1 ; 2,7 ; 5,4

Le classement conduit 0,5 (B) ; 1,1 (B) ; 1,5 (A) ; 1,7 (A) ; 2,7 (B) ; 3,2 (A) ;
4,3 (B) ; 5,4 (B) ; 6,1 (A) et TA = 3+4+6+9 = 22.
Enfin = 22-410/2 = 2. Donc TA = 21,5.
Le paramtre du test est :

TA nA nA + nB + 1 2
Z = ----------------------------------------------------------- lorsque nA et nB 10
n A n B n A + n B + 1 12

T A nA nA + nB + 1 2
Z = ------------------------------------------------------------- lorsque nA ou nB > 10
n A n B n A + n B + 1 12

Z a une distribution connue :

3.

Lorsque nA ou nB >10 cette distribution est peu prs N(0,1).


Lorsque nA et nB 10, il sagit dune distribution faisant lobjet dune table spcifique,
la table du test de Mann-Whitney-Wilcoxon.

Choix du seuil ; = 0,05


Construction de lintervalle de pari IP 1
Cet intervalle est du type IP 1 = M ; M
Exemple : si nA = 3 et nB = 5, on a M 0,05 = 2,117

4.

Rgle de dcision
Si z IP 1 , rejet de H0. On dit alors : au risque la densit de probabilit de la variable
tudie nest pas la mme dans les populations A et B ; selon le signe de z, on conclura que
la variable est plutt plus grande dans A que dans B , ou que la variable est plutt plus
petite dans A que dans B .
Si z IP 1 , on ne conclut pas ; on ne rejette pas H0.

5.

Mise en uvre de lexprience ; calcul de z ; conclusion.

132/179

Biostatistique - Carrat, Mallet, Morice

2013 - 2014

Quelques tests usuels

Remarque : si nA < 3 ou nB < 4, ce test ne permet jamais de rejeter H0

12.2.3 Cas des sries apparies


Jusqu prsent on a suppos que les tirages (la constitution) des chantillons des populations A
et B taient indpendants. Il arrive que cette condition ne soit pas vrifie, que les individus des
deux chantillons soient lis. Ceci se produit dans les exemples suivants :

pour comparer le niveau de svrit de deux examinateurs, on fait corriger 100 copies par chacun deux, cest--dire chacun corrigeant chacune de ces copies, et il sagit de comparer les
notes moyennes.
pour comparer deux mthodes de dosage de la glycmie on dose 100 prlvements de sang
par chacune de ces deux mthodes et lon souhaite comparer les valeurs moyennes vraies .

La procdure indique plus haut ne convient plus. A un moment de la mise en place des tests on
avait calculer la variance de la diffrence des moyennes observes. On avait dit quelle concide
avec la somme des variances de chacune des moyennes. Ici, cest faux ; on peut sen convaincre
facilement. Supposez quun correcteur accorde systmatiquement un point de plus que son collgue toutes les copies. Alors, quoi quil arrive, la diffrence des moyennes observes sera 1,
donc cette diffrence nest pas soumise aux fluctuations dchantillonnage ; sa variance est nulle,
donc na rien voir avec les variances de chacune des moyennes qui, elles - ces variances -refltent
les diffrences de qualit entre les copies.
On montre que le bon abord du problme est de travailler sur les diffrences des paires de valeurs
obtenues par unit statistique (diffrence des notes, diffrence des glycmies par individu). Cela
revient au problme de la comparaison dune moyenne (moyenne des diffrences) zro ou la
question de la symtrie dune distribution (celle des diffrences) par rapport zro. On se ramne
ainsi des tests que lon connat (cf. section 12.2.1).
On note d la variable alatoire diffrence entre rsultats pour un mme sujet.

12.2.3.1 Test de comparaison de deux moyennes observes sur sries apparies


Ce test nest valide que si n 30
Les tapes de mise en uvre du test sont les suivantes :
1.
2.

H0 : la moyenne vraie de d est nulle, soit = 0.


H1 : la moyenne vraie de d est non nulle, soit 0.
Construction du paramtre
M nd
Z = --------2
s
---n
n

s2

1
2
est la variance observe des diffrences, soit s = ------------ d i m d
n1
2

i=1

2013 - 2014

Biostatistique - Carrat, Mallet, Morice

133/179

Quelques tests usuels

n est le nombre de paires


Mnd est la variable alatoire moyenne arithmtique des diffrences
et md est la moyenne observe des diffrences.
On montre que Z est peu prs distribue selon N(0, 1).
Les tapes se succdent alors de faon ordinaire :
md
choix de , construction de lIP, dfinition de la rgle de dcision, calcul de z = --------- , conclusion.
2
s
---Pour le nombre de sujets ncessaires, se reporter la section 12.2.1.1 page 128
n
Remarque
Si les notes attribues par chacun des correcteurs varient gnralement dans le mme sens - cest-dire une copie mieux note quune autre par le premier examinateur le sera galement par le
second - alors la valeur absolue de z calcule sur la base de lappariement est suprieure la valeur
absolue que lon aurait obtenue en oubliant lappariement. Ainsi, toutes choses gales par ailleurs, on conclura plus frquemment au rejet de lhypothse nulle : le test ainsi mis en place est
plus puissant. On a exploit plus dinformation. On a gomm une source de fluctuations, celle lie
la disparit de la qualit des copies. Si cet effet de variation dans le mme sens nest pas rel (ex. :
lorsque lun note la copie x, lautre la note 20 - x) le problme dans son ensemble na plus beaucoup de sens.

12.2.3.2 Test de symtrie de la distribution des diffrences


Ce test est un cas particulier du test vu au paragraphe 12.2.1.2. car les hypothses considres dans
ce cas sont les suivantes :
1.

2.

Hypothses en prsence
H0 : La densit de probabilit de la variable alatoire d est symtrique par rapport zro.
H1 : La densit de probabilit de la variable d nest pas symtrique par rapport zro ; il existe
des domaines de valeurs de d plus probables que leur oppos (par exemple si le domaine
[2,1 ; 2,4] est plus probable que le domaine [-2,4 ; -2,1]).
Construction du paramtre
Le paramtre se construit comme en 12.2.1.2 : on range dans lordre croissant de leurs valeurs
et sans tenir compte de leur signe les n diffrences di .

La suite se droule comme en 12.2.1.2.

134/179

Biostatistique - Carrat, Mallet, Morice

2013 - 2014

Quelques tests usuels

Rsum du chapitre
1.

Comparaison dune proportion observe une valeur donne

2.

p 0
z = ------------------------------ ; v.a. ~ N(0, 1) ; validit n0 5 et n(1 - 0) 5
0 1 0
-------------------------n
Comparaison de deux proportions observes

3.

pA pB
nA pA + nB pB

z = ------------------------------------------------------- ; v.a. ~ N(0, 1) ; = ------------------------------nA + nB

1 1
--------------------- + ----------------------nB
nA

validit : n A 5 n A 1 5 n B 5 n B 1 5
Comparaison dune moyenne observe une valeur donne

4.

m 0
z = ---------------- ; v.a. ~ N(0, 1) ; validit n 30
2
s
---n
Test de symtrie dune variable par rapport une valeur donne
Ordonner les valeurs absolues des carts la valeur donne et calculer T +, somme des rangs
des carts positifs.
+

5.

T n n + 1 4
z = ------------------------------------------------------- ; v.a. ~ N(0, 1) si n > 15 ; v.a. Wilcoxon sinon.
n n + 1 2n + 1 24
Comparaison de deux moyennes observes
mA mB
z = ----------------------- ; v.a. ~ N(0, 1) ; validit nA et nB 30
2
2
sA sB
----- + ----nA nB

6.

Test dgalit de deux distributions (on suppose nA nB )


nA nA + nB + 1
Ordonner les valeurs. TA = somme des rangs des donnes A. = T A -------------------------------------- .
2
TA = TA - 0,5 si > 0, TA = TA + 0,5 sinon
T A nA nA + nB + 1 2
z = ------------------------------------------------------------- N 0 1 lorsque nA ou nB > 10
n A n B n A + n B + 1 12

7.
8.

TA nA nA + nB + 1 2
z = ----------------------------------------------------------- Mann-Whitney-Wilcoxon si nA et nB 10
n A n B n A + n B + 1 12
Comparaison de deux moyennes observes sur sries apparies
On utilise le test 3 en comparant la moyenne de la variable diffrence d 0
Test de symtrie des diffrences (sries apparies)
On utilise le test 4 de symtrie de la variable d par rapport 0.

2013 - 2014

Biostatistique - Carrat, Mallet, Morice

135/179

Quelques tests usuels

136/179

Biostatistique - Carrat, Mallet, Morice

2013 - 2014

Tests concernant des variables qualitatives

Chapitre 13
Tests concernant des variables
qualitatives
Introduction
On a jusqu prsent compltement nglig les variables qualitatives plus de deux modalits. On a en effet toujours parl de moyenne, et cette notion nexiste pas pour les variables
qualitatives, sauf pour celles deux modalits grce un artifice de codage. Il ny a pas
dinstrument permettant de rsumer la distribution dune variable qualitative ; il faut considrer la distribution dans son ensemble, cest--dire lensemble des probabilits pour que
telle ou telle modalit se ralise. Pourtant des problmes de choix dhypothses se posent
galement dans le cas de telles variables ou tels caractres (ex : la rpartition [distribution]
de la couleur des cheveux diffre-t-elle chez les habitants de tel dpartement et de tel
autre ?). Si la rpartition du caractre est connue dans une des deux populations, on aura
comparer une rpartition observe une rpartition donne. Si les deux rpartitions sont
inconnues, on aura comparer deux rpartitions observes . Ces problmes sont respectivement les homologues des tests de comparaison dune moyenne une valeur donne, de
comparaison de deux moyennes. Il existe des tests adapts chacun de ces cas.

13.1 Comparaison dune rpartition observe


une rpartition donne ou test du 2
dajustement
Supposons que lon souhaite savoir si la rpartition de la couleur des cheveux dans la population
des habitants du dpartement A diffre de la rpartition de la couleur des cheveux dans la population franaise, cette dernire rpartition tant suppose donne. Supposons quil y ait k couleurs
rpertories. On est alors amen considrer une variable qualitative k modalits. Notons i la
probabilit de survenue de lvnement la i me modalit est observe .
Exemple :
1 = probabilit quun individu tir au hasard dans le dpartement A ait les cheveux blonds
2 = probabilit quun individu tir au hasard dans le dpartement A ait les cheveux bruns

2013 - 2014

Biostatistique - Carrat, Mallet, Morice

137/179

Tests concernant des variables qualitatives

etc...
Notons par ailleurs hi la proportion vraie de la modalit i dans la population franaise.
On sapprte raliser une exprience sur n individus lissue de laquelle on disposera dun ensemble de Oi (Oi = nombre dindividus prsentant la modalit i du caractre tudi, parmi les individus de lchantillon).

13.1.1 Les tapes de mise en uvre


1.

Les hypothses en prsence


Deux hypothses sont en prsence :
i.
ii.

la rpartition vraie de la variable dans la population tudie concide avec la rpartition donne (hypothse nulle H0)
les rpartitions diffrent (hypothse alternative H1)

Avec les notations prcdemment introduites, cela scrit :


H0 : hypothse nulle : i = hi pour tous les i de 1 k.
H1 : hypothse alternative : i hi pour au moins une modalit, cest--dire pour au moins
un i.
2.

Construction du paramtre
On a dj mis en place ce test dans le cas dune variable (0 - 1) cest--dire dune variable
deux modalits. Dans ce cas, les hypothses en prsence taient bien du type ci-dessus cest-dire
H0 : = h 1 et 1 - = h 2 = 1 - h 1
ce qui scrit avec les nouvelles notations :
1 = h 1 et 2 = 1 - h 1
Mais on navait retenu que la condition = h1 (en fait = ) car dans ce cas les deux conditions ci-dessus sont redondantes.
Le paramtre calcul retenu tait :
p h1
z = ---------------------------------- h1 1 h1
------------------------------n
Calculons son carr
2

n p h1
n p h1
n p h1
z = ------------------------------- = ---------------------------- + --------------------------- h1 1 h1
h1
1 h1
2

np n h1
n 1 p n 1 h1
np n h1
n 1 p n h2
z = ------------------------------- + ----------------------------------------------------------- = ------------------------------- + --------------------------------------------n h1
n 1 h1
n h1
n h2
2

138/179

Biostatistique - Carrat, Mallet, Morice

2013 - 2014

Tests concernant des variables qualitatives

Or np = nombre dindividus observs prsentant la valeur 1 cest--dire la modalit 1 de la


variable ; or sous H0 la probabilit de cette modalit est h1. On sattend donc observer nh 1
individus prsentant cette valeur. Ce nombre dindividus attendu sappellera effectif attendu
ou calcul de la premire modalit et sera not A 1.
De la mme faon, n(1 - p) = nombre dindividus observs prsentant la valeur 0 cest--dire
la modalit 2 de la variable ; or sous H0 la probabilit de cette modalit est h 2 = 1 - h 1. On
sattend donc observer nh 2 individus prsentant cette valeur. Ce nombre dindividus attendu sappellera effectif attendu ou calcul de la seconde modalit et sera not A 2.
2

O1 A1
O2 A2
Do z = -------------------------- + -------------------------A1
A2
2

o les Oi reprsentent les effectifs observs dans les diffrentes modalits, les Ai reprsentent
les effectifs nhi dits prvus ou calculs ou ATTENDUS dans les diffrentes modalits.
GENERALISATION
Lorsque les variables considres ont plus de deux modalits, on gnralise le calcul ci-dessus
et on retient le paramtre suivant :
k

Q =

i=1

Oi Ai
-----------------------Ai

o la somme stend toutes les k modalits de la variable.


On rappelle que les Oi sont les effectifs observs, et que les Ai valent nhi .
On remarque que Q chiffre lcart entre ce qui est prvu par lhypothse H0 et ce qui est
obtenu ; cet cart se fonde naturellement sur les diffrences Oi - nhi car nhi est le nombre
attendu dindividus prsentant la modalit i.
Exemple : si hi = 0,4, sur 100 individus on en attend 40 prsentant la modalit i. Cest le
nombre que lon aurait si la distribution dchantillonnage concidait avec la distribution hypothtique.
Par ailleurs on a pu montrer (rsultat d Pearson) que sous H0 (et si tous les Ai 5) ce paramtre a une distribution qui ne dpend que du nombre de modalits, k. Cette distribution
porte le nom de DISTRIBUTION DE 2.
Si bien que lon peut former - grce encore une table - un intervalle de pari de niveau donn
relatif cette variable.
RETENONS :
CONDITIONS DE VALIDITE : TOUS LES Ai DOIVENT ETRE AU MOINS EGAUX A 5
3.

Intervalle de pari
tant choisi (0,05), construction de lintervalle de pari IP 1
La variable 2 a lallure prsente figure 13. On remarque quil serait stupide de choisir lin-

2013 - 2014

Biostatistique - Carrat, Mallet, Morice

139/179

Tests concernant des variables qualitatives

tervalle de pari centr dessin sur cette figure car alors des valeurs numriques voisines de
zro pour la valeur Qc du paramtre Q seraient dans la rgion critique du test ; or des valeurs
proches de zro sont plutt compatibles avec H0 do le choix suivant (voir figure 14) :
IP 1 = 0 ; K ddl,
Cest cette valeur, note K ddl, qui est lisible directement dans une table.
Remarque : notez que cet intervalle, bien que non symtrique autour de la moyenne, respecte
la dfinition dun intervalle de pari donne section 9.4.1 page 94.

Figure 13 : distribution de 2

Figure 14 : distribution de 2
Usage de la table
Cette table comporte - comme celle du t de Student - une entre entire appele nombre de
degrs de libert (ddl). On montre que pour le test envisag ici
nombre de degrs de libert = nombre de modalits - 1

140/179

Biostatistique - Carrat, Mallet, Morice

2013 - 2014

Tests concernant des variables qualitatives

Exemple : K 5;0,05 (5 ddl, si 6 modalits) = 11,07


La suite de la mise en place de ce test est usuelle.
4.

Rgle de dcision
Si Q c K ddl, on ne conclut pas

5.

Si Q c K ddl, H0 est rejete. Cela signifie que lon conclut que la rpartition du caractre tudi (par exemple la couleur des cheveux dans le dpartement A) ne concide pas - ou ne
sajuste pas - avec la rpartition donne (par exemple la rpartition de la couleur des cheveux
dans la population franaise). On admet, en formulant cette conclusion, un risque derreur
gal .
Recueil des donnes et conclusion
Exemple numrique : le tableau ci-dessous prsente une application numrique de lexemple
considr.
couleur des cheveux
blonds

bruns

roux

total

effectifs observs
(Oi )

25

37
(n)

effectifs attendus
(Ai = nhi )

14,8

11,1

11,1

37

rpartition donne
(hi )

0,4

0,3

0,3

Les conditions de validit sont vrifies (Ai 5).


On obtient ici :
2

9 11 ,1
3 11 ,1
25 14 ,8
Q c = ------------------------------ + --------------------------- + --------------------------- = 13 ,3
14 ,8
11 ,1
11 ,1
On sait que Q est distribu selon un 2 (3-1) degrs de libert ; on lit dans la table :
K 2;0,05 = 5,99.
Ainsi, la valeur calcule nappartient pas lintervalle de pari : on conclut que la rpartition
du caractre ne concide pas avec la rpartition donne.

2013 - 2014

Biostatistique - Carrat, Mallet, Morice

141/179

Tests concernant des variables qualitatives

13.1.2 Cas particulier : variable deux modalits


On a vu que le paramtre du test Q gnralise lexpression du carr du paramtre Z utilis pour la
comparaison dune proportion observe une valeur donne. Dans le cas dune variable deux
modalits (k = 2), ces deux paramtres sont gaux : Q = Z 2.
En outre, et sinon il y aurait incohrence, on peut vrifier lgalit suivante :
2
K 1; = u
Exemple : pour = 0,05 K 1;0,05 = 3,84 = (1,96)2
Ainsi, pour comparer une rpartition observe une rpartition donne, dans le cas dune variable
deux modalits, on dispose de 2 tests quivalents, lun fond sur la distribution normale, lautre
fond sur la distribution du 2 1 d.d.l. (qui est en fait la distribution du carr de N(0, 1)).
On peut utiliser lun ou lautre de ces tests indiffremment.
Exemple : Reprenons lexemple du chapitre 11
Une race de souris prsente un taux de cancers spontans de 0,2. Sur 100 souris traites on observe
34 cancers soit p = 0,34. La diffrence est elle significative ?

test de comparaison :

0 ,34 0 ,2
z = -------------------------- = 3 ,5
0 ,2 0 ,8
---------------------100
2
test du :
cancer

absence de
cancer

rpartition thorique

0,2

0,8

effectifs attendus

20

80

effectifs observs

34

66

100
(effectif total)

66 80
34 20
2
Q c = ------------------------- + ------------------------- = 12 ,25 = 3 ,5
20
80
Remarque : On parle souvent de ce test sous la terminologie test du 2 dajustement pour exprimer quil met lpreuve lajustement - la compatibilit - entre une rpartition observe et une
rpartition donne.

142/179

Biostatistique - Carrat, Mallet, Morice

2013 - 2014

Tests concernant des variables qualitatives

13.2 Comparaison de plusieurs rpartitions


observes ou test du 2 dhomognit
On reprend lexemple prcdent concernant la rpartition de la couleur des cheveux mais sans plus
supposer que lune de ces rpartitions est connue ; il sagit par exemple des rpartitions de ce caractre dans deux dpartements. On souhaite donc comparer deux rpartitions observes. Pour cela, on sapprte raliser une exprience mettant en jeu deux chantillons, un chantillon de n 1
individus issu de la population des habitants du dpartement 1, et un chantillon de n 2 individus
issu de la population des habitants du dpartement 2. A lissue de cette exprience on disposera
dun ensemble deffectifs observs, nots de la faon suivante :

O 1i est le nombre dindividus du premier chantillon prsentant la modalit i de la variable.


O 2i est le nombre dindividus du second chantillon prsentant la modalit i de la variable.

Le test se met en place de la faon suivante :


1.

Les hypothses en prsence


H0 : les rpartitions vraies de la variable sont identiques dans les deux populations
H1 : les rpartitions vraies sont diffrentes
Ces hypothses se schmatisent par :
H0 : 1i = 2i pour toutes les modalits i.
H1 : 1i 2i pour au moins une modalit i.

2.

Construction du paramtre
Cest encore ici le point dlicat. La solution ressemble dans son approche celle du problme
de la comparaison de deux pourcentages. Cl du principe : on mlange les deux populations
pour calculer une pseudo-rpartition thorique. On se retrouve alors pratiquement dans la situation du paragraphe prcdent. Cela se verra mieux sur un exemple. On va faire, pour des
raisons de simplicit de calcul, une petite entorse notre faon de procder, et directement
valuer le paramtre dont on connat la loi.
i.

2013 - 2014

On construit ce que lon appelle un tableau de contingence qui contient les rsultats exprimentaux.
On a procd une exprience portant sur 37 individus issus de la population 1 et 40 individus issus de la population 2. Les rsultats sont les suivants :

Biostatistique - Carrat, Mallet, Morice

143/179

Tests concernant des variables qualitatives

Tableau 4 : effectifs observs (O 1i et O 2i )


blonds

bruns

roux

nombre total

chantillon 1

25

37 = n 1

chantillon 2

13

17

10

40 = n 2

ii.

On construit une pseudo-rpartition de rfrence, en mlangeant les rsultats exprimentaux, cest--dire en oubliant leur origine (population 1 ou population 2).
On obtient les rsultats suivants, en termes deffectifs (premire ligne), puis en termes
de frquences (deuxime ligne).
Tableau 5 : rpartition de rfrence

mlange
frquences

blonds

bruns

roux

nombre total

38
38/77 = 0,49

26
26/77 = 0,34

13
13/77 = 0,17

77

Ces trois frquences, 0,49, 0,34, 0,17, vont jouer maintenant le rle des probabilits hypothtiques hi de la section 13.1. Pour la commodit de lcriture, on les note respectivement p 1, p 2, p 3.
iii. On forme le tableau des effectifs attendus.
Si lhypothse nulle est juste, cest--dire si les rpartitions de la couleur des cheveux
concident dans les deux dpartements, on sattend trouver des effectifs calculs
comme suit :
effectif attendu pour la modalit i (modalit 1 = blond, modalit 2 = brun, modalit 3 =
roux) dans lchantillon j (j = 1 ou 2) : nj multipli par pi
Par exemple le nombre attendu dindividus bruns dans lchantillon de la premire population est : 37 0,34 = 12,6.
En effectuant systmatiquement ces calculs, on obtient le tableau des EFFECTIFS ATTENDUS.
Tableau 6 : effectifs attendus (A 1i et A 2i )
blonds

bruns

roux

chantillon 1

18,1 (n 1p 1)

12,6 (n 1p 2)

6,3 (n 1p 3)

chantillon 2

19,6 (n 2p 1)

13,6 (n 2p 2)

6,8 (n 2p 3)

iv. On calcule finalement le paramtre du test

144/179

Biostatistique - Carrat, Mallet, Morice

2013 - 2014

Tests concernant des variables qualitatives

On montre que le paramtre adapt ce test est :


k

Q =

i=1

O 1i A 1i
----------------------------- +
A 1i

i=1

O 2i A 2i
----------------------------A 2i

o k demeure le nombre de modalits de la variable.


On a souvent recours une expression plus compacte de lexpression ci-dessus et on
crit :
nombre de cases du tableau

Q =

j=1

Oj Aj
-----------------------Aj

MAIS ICI LA SOMMATION SETEND A TOUTES LES CASES DES TABLEAUX,


numrotes grce lindice j.
Exemple : dans lexemple trait il sagira donc de calculer une somme de 6 termes.
On montre que, si H0 est vraie, Q est distribu comme un 2 (3 - 1) (2 - 1) degrs de
libert [3 est le nombre de modalits, et 2 le nombre de rpartitions]
La VALIDITE de ce rsultat suppose que tous les effectifs attendus Aj soient au moins
gaux 5.
GENERALISATION
Les calculs ci-dessus se gnralisent un nombre quelconque de modalits k, un nombre
quelconque de populations m.
Le paramtre Q calculer a alors la forme ci-dessus, o la somme comprend km termes.
La distribution de Q, sous H0 est alors un 2 (k - 1)(m - 1) degrs de libert.
Les conditions de validit du test sont : Aj 5, 1 j km
3.

La suite des tapes de mise en uvre est classique.


La valeur observe de Q, note Qc , sera compare la valeur K ddl;0,05 :

si Q c K ddl;0,05 on ne conclut pas. Il nest pas dmontr que les deux rpartitions
vraies diffrent.
si Q c K ddl;0,05 on conclut que les deux rpartitions observes diffrent significativement.

Suite de lexemple : on obtient :


2

25 18 ,1
9 12 ,6
3 6 ,3
13 19 ,6
17 13 ,6
10 6 ,8
Q c = ------------------------------ + --------------------------- + ------------------------ + ------------------------------ + ------------------------------ + --------------------------18 ,1
12 ,6
6 ,3
19 ,6
13 ,6
6 ,8
soit : Q c = 9 ,96
Or : K 2;0,05 = 5,99 rejet de H0. Les rpartitions observes de la couleur des cheveux diffrent significativement dans les deux populations.

2013 - 2014

Biostatistique - Carrat, Mallet, Morice

145/179

Tests concernant des variables qualitatives

Remarque 1 : Ce test sappelle aussi test du 2 dhomognit de plusieurs rpartitions.


Remarque 2 : Cas particulier de deux variables deux modalits : dans le cas o lon
considre deux variables deux modalits, cest--dire dans le cas o le tableau de contingence est deux lignes et deux colonnes, on observe que le problme se rduit un problme
de comparaison de deux proportions observes. On montre que, dans ce cas, la valeur de Q
concide avec le carr de la valeur de Z, Z tant le paramtre form pour comparer directement
ces proportions (voir chapitre 12).

13.3 Test dindpendance entre deux


variables qualitatives
Reprenons lexemple prcdent et supposons que les populations 1 et 2, plutt que de correspondre
des individus habitant le dpartement 1 et le dpartement 2, soient en fait :

population 1 : population des individus ayant les yeux bleus


population 2 : population des individus ayant les yeux verts

La question que lon aurait rsolue dans le paragraphe prcdent aurait t :


la rpartition de la couleur des cheveux diffre-t-elle dans les populations dindividus aux yeux
bleus ou verts. Ou encore, la rpartition de la couleur des cheveux diffre-t-elle selon la couleur
des yeux ? Autrement dit : la variable couleur des cheveux dpend-elle statistiquement de la variable couleur des yeux ?
Maintenant supposons que lon veuille rpondre cette question. Plutt que de prendre un chantillon de la population des individus aux yeux bleus et un autre chantillon issu de la population
des individus aux yeux verts, autant prendre un chantillon de la population gnrale (cest--dire
quelle que soit la couleur de ses yeux) et observer conjointement la couleur des cheveux et la couleur des yeux. Vues comme cela, les deux variables jouent bien des rles symtriques et le problme est donc de mettre lpreuve leur indpendance.
1.

Les hypothses en prsence.


On formule naturellement deux hypothses :
Hypothse H0
les deux variables tudies (couleur des cheveux, couleur des yeux) sont indpendantes. Sous cette hypothse, le fait davoir observ chez un individu la couleur de ses
cheveux (respectivement la couleur de ses yeux) napporte aucune information sur la
couleur de ses yeux (respectivement la couleur de ses cheveux).
On pourra se reporter au chapitre 6 dans lequel ont t commentes ces notions dindpendance.
On notera que, comme dans tous les cas rencontrs jusquici, cette hypothse est une

146/179

Biostatistique - Carrat, Mallet, Morice

2013 - 2014

Tests concernant des variables qualitatives

hypothse fine qui engage un ensemble dgalits.


En effet, on sait que lindpendance sexprime par :
Pr(la modalit de la couleur des cheveux est l et la modalit de la couleur des yeux
est c) = Pr(la modalit de la couleur des cheveux est l) Pr(la modalit de la couleur
des yeux est c), et ceci pour tous les choix possibles de l et c.
Remarque : on pourra vrifier que parmi les (nombre de modalits de la couleur des
cheveux nombre de modalits de la couleur des yeux) galits qui en rsultent, certaines sont redondantes, et que (nombre de modalits de la couleur des cheveux - l)
(nombre de modalits de la couleur des yeux - 1) galits suffisent exprimer les
mmes conditions.
Hypothse H1
les deux variables tudies ne sont pas indpendantes.
Cette hypothse exprime le contraire de H0.

TRES IMPORTANT (des erreurs sont souvent commises)


HYPOTHESE NULLE : LES DEUX VARIABLES SONT INDEPENDANTES
HYPOTHESE ALTERNATIVE : LES DEUX VARIABLES SONT LIEES
2.

Le paramtre du test
Le paramtre est encore Q, et sexprime exactement comme prcdemment, cest--dire :
nombre de cases du tableau

Q =

j=1

Oj Aj
-----------------------Aj

Ici le nombre de cases du tableau de contingence est gal au produit du nombre de modalits
de la premire variable et du nombre de modalits de la seconde variable.
Les effectifs attendus sobtiennent exactement comme dans le cas du paragraphe prcdent,
ainsi quon peut le voir sur lexemple numrique ci-dessous.
Un exemple numrique
Le tableau ci-dessous montre un exemple de tableau de contingence (D. Schwartz, Mthodes
statistiques lusage des mdecins et des biologistes, Flammarion (collection statistique en
biologie et mdecine), 3e dition, p79) ; cet exemple est similaire aux prcdents, si ce nest
que lon a considr un plus grand nombre de modalits pour la variable couleur des cheveux,
et que la nouvelle variable introduite (couleur des yeux) comporte trois modalits. Ces modalits remplacent les chantillons considrs dans la section 13.2 page 143. Ainsi, la modalit
bleu par exemple peut tre lue : chantillon issu de la population des individus aux yeux
bleus . La taille de cet chantillon nest cependant plus matrise.

2013 - 2014

Biostatistique - Carrat, Mallet, Morice

147/179

Tests concernant des variables qualitatives

Couleur
des yeux

Couleur des cheveux

frquence

blonds

bruns

roux

noirs

total

bleus

25

44

44/124

gris

13

17

10

47

47/124

marrons

13

33

33/124

total

45

39

19

21

124

frquence

45/124

39/124

19/124

21/124

124/124

Les effectifs attendus sobtiennent comme prcdemment. Ainsi, leffectif attendu relatif au
couple blonds, marrons sera : 45/12433/124124 = 11,9.
REMARQUES
i.

Pour allger les calculs, on peut remarquer que leffectif attendu relatif la cellule localise ligne l, colonne c est gal au rapport

du produit du total de la ligne l et du total de la colonne c,


et du total gnral.

ii.

La somme des effectifs attendus, soit en ligne, soit en colonne, concide avec les mmes
sommes sur les effectifs observs. Cette remarque permet une vrification partielle des
calculs.
iii. Dans la prsentation des calculs, on a procd au mlange des rsultats sans plus tenir
compte de la couleur des yeux (ce qui conduit sommer les lignes du tableau). On peut
de faon quivalente mlanger les rsultats exprimentaux sans plus tenir compte de la
couleur des cheveux, ce qui conduira sommer les colonnes du tableau de contingence
pour obtenir la rpartition de rfrence. On pourra vrifier que les rsultats du calcul sont
strictement les mmes, ce que lon attend compte tenu du rle symtrique jou par les
deux variables tudies.

SOUS LHYPOTHESE NULLE DINDEPENDANCE entre les deux variables, Q EST


DISTRIBUE SELON un 2 :
(nombre de modalits de la premire variable - 1) (nombre de modalits de la seconde
variable - 1)
DEGRES DE LIBERTE.

148/179

Biostatistique - Carrat, Mallet, Morice

2013 - 2014

Tests concernant des variables qualitatives

Les CONDITIONS DE VALIDITE sont encore : Aj 5.


3.

La suite des tapes est habituelle


En particulier, la rgle de dcision stablit comme suit :

si la valeur calcule de Q, note Qc , est infrieure K ddl, , on ne rejette pas lhypothse


dindpendance des deux variables.
si la valeur calcule Qc est suprieure K ddl, , on rejette lhypothse dindpendance
des deux variables. On dira alors que les deux variables sont lies, au risque .

Exemple :
Dans lexemple ci-dessus, la valeur de Qc , rsultant de la sommation de 12 termes, est 15,1.
Le nombre de degrs de libert est : (4 - 1)(3 - 1) = 6, la valeur de K 6;0,05 associe tant 12,6
(lue dans une table). On rejette donc ici lhypothse dindpendance : couleur des cheveux et
couleur des yeux sont lies, ou encore sont dpendantes. Voyons une illustration de cette dpendance. Sur la base des donnes observes on a :
Pr(yeux bleus) = 44/124 = 0,35
Pr(yeux bleus / cheveux blonds) = 25/45 = 0,56
La connaissance de la couleur des cheveux (ici la modalit blond ) modifie la rpartition
de la couleur des yeux (ici la frquence de la modalit bleu qui volue de 0,35 0,56). Le
test indique que cette modification est significative. En ralit la valeur de Qc ci-dessus
chiffre dans leur ensemble les diffrences entre Pr(A / B) et Pr(A), cest--dire les carts de
Pr(A et B) par rapport au produit Pr(A)Pr(B), o A est un vnement relatif la couleur des
yeux et B un vnement relatif la couleur des cheveux.

2013 - 2014

Biostatistique - Carrat, Mallet, Morice

149/179

Tests concernant des variables qualitatives

Rsum du chapitre
Tests du 2. Effectifs observs Oj , effectifs attendus Aj .
Conditions de validit gnrales : Aj 5
Paramtre gnral :
nombre de cases du tableau

Q =

j=1

Oj Aj
-----------------------Aj

Comparaison dune rpartition observe une rpartition donne (ajustement)


H0 : La rpartition vraie sajuste la rpartition donne
H1 : La rpartition vraie ne sajuste pas la rpartition donne
Nombre de cases = nombre de modalits
Q ~ 2(nombre de modalits -1)
Comparaison de plusieurs rpartitions observes (homognit)
H0 : Les rpartitions concident
H1 : Les rpartitions diffrent
Nombre de cases = nombre de modalits nombre de rpartitions
Q ~ 2((nombre de modalits -1) (nombre de rpartitions -1))
Test dindpendance de deux variables qualitatives
H0 : Les deux variables sont indpendantes
H1 : Les deux variables sont lies
Q ~ 2((nb de modalits de 1re variable - 1) (nb de modalits de 2me variable - 1))
Dans les deux derniers cas, si l est le nombre de lignes, c le nombre de colonnes du tableau de
contingence, le nombre de degrs de libert des 2 est (l - 1)(c - 1).

150/179

Biostatistique - Carrat, Mallet, Morice

2013 - 2014

Liaison entre deux variables continues : notion de corrlation

Chapitre 14
Liaison entre deux variables
continues : notion de
corrlation
14.1 Introduction
Nous avons rappel dans le chapitre prcdent la notion fondamentale dindpendance entre deux
variables qualitatives et vu la faon dont cette indpendance pouvait tre mise lpreuve lors
dune exprience. Dans le chapitre 12, les tests mis en uvre faisaient intervenir une variable quantitative continue et une variable qualitative encore juges dans leurs interdpendances. Il se trouve
quil existe une autre classe de problmes mettant en jeu encore deux variables alatoires, mais
cette fois-ci, deux variables continues. Considrons, par exemple, deux variables alatoires, linsuffisance rnale (avec deux valeurs ou modalits prsence-absence) et linsuffisance hpatique
(avec les deux mmes modalits). Supposons que lon connaisse un indicateur de la fonction rnale
(ou de certains de ses aspects), la clairance la cratinine par exemple et un indicateur de la fonction hpatique (ou de certains de ses aspects) la bilirubinmie et que le diagnostic dinsuffisance
rnale soit port lorsque la clairance est infrieure un seuil, celui dinsuffisance hpatique lorsque
la bilirubinmie est suprieure un autre seuil. On sait rsoudre (voir chapitre 13) la question de
savoir si les variables insuffisance rnale et insuffisance hpatique sont indpendantes ou lies.
Toutefois, compte tenu des prcisions donnes sur lorigine des diagnostics dinsuffisance rnale
et dinsuffisance hpatique, on est tent de reformuler le problme pos en ces termes : y a-t-il un
lien entre les variables alatoires clairance la cratinine et bilirubinmie ? Un niveau lev de
lune est-il annonciateur dun niveau lev de lautre ? Ou encore : la connaissance du niveau
de lune modifie-t-elle lide que lon se fait du niveau de lautre, non encore observe ? Cette dernire formulation est trs proche de la formulation utilise pour discuter de lindpendance entre
vnements : la connaissance du fait quun vnement sest ralis (maintenant un niveau de clairance connu) modifie-t-elle la plausibilit dun autre vnement (maintenant la bilirubinmie) ?
Les situations dans lesquelles on se pose naturellement la question de savoir si deux variables
continues sont lies sont extrmement frquentes. Voil quelques exemples :

2013 - 2014

Biostatistique - Carrat, Mallet, Morice

151/179

Liaison entre deux variables continues : notion de corrlation

la consommation de cigarettes (quotidienne ou cumule) et la capacit respiratoire sont-elles


lies ?
la gastrinmie et la quantit de cellules ECL sont-elles lies ?
les valeurs de glycmie obtenues selon deux mthodes de dosage sur les mmes chantillons
sanguins sont-elles lies [ici, il faut lesprer].

14.2 Abord du problme


Considrons deux variables alatoires continues X (cratininmie) et Y (bilirubinmie). Imaginons que nous ayons ralis une exprience consistant en lobservation conjointe du niveau de ces
deux variables sur un ensemble (chantillon) de n sujets. On dispose ainsi dun ensemble de
couples de valeurs xi , yi . La reprsentation naturelle - sinon la meilleure - de ces rsultats est donne dans la figure ci-dessous ; chaque couple de valeurs obtenu chez chaque individu est reprsent
par un point de coordonnes (cratininmie-bilirubinmie).
On lit sur un tel dessin, au moins grossirement, le domaine des valeurs possibles de X, le domaine
des valeurs possibles de Y.
Intressons nous un nouvel individu ; ne mesurons chez lui que la valeur de la cratininmie, x 0.
Que peut-on dire alors, sur la base de cette connaissance et sur la base de lexprience ci-dessus
concernant le domaine des valeurs possibles de Y pour ce mme individu ? On peut proposer la
rponse gomtrique ou visuelle indique sur la figure ci-dessous.
y (bilirubinmie)
domaine des
valeurs de Y

xx
xx
x xx xx x x x x
x x x
x
x x
x x xx x x x x
x x
x x xxx x

domaine des
valeurs de X

x (cratininmie)

y (bilirubinmie)
domaine des
valeurs de Y
sachant x0

xx
xx
x xx xx x xx x x
x
x
x
x x
x x xx x x x x
x x
x x xxx x

x0

152/179

Biostatistique - Carrat, Mallet, Morice

x (cratininmie)

2013 - 2014

Liaison entre deux variables continues : notion de corrlation

Le nouveau domaine possible - sachant x 0 - est trs voisin du domaine initial ; ceci se reproduit
pour toute valeur de x 0. Il est alors clair que dans cet exemple, la connaissance de X napporte pas
dinformation sur celle de Y. On a ici une situation visuelle dun cas o les deux variables X et Y
sont indpendantes. On pourrait renverser le rle de X et Y, la conclusion serait la mme.
Considrons maintenant le cas o les rsultats exprimentaux produisent la reprsentation de la figure ci-dessous.
Dans ce cas, au contraire, on voit clairement que la connaissance de x 0 (respectivement y 1) modifie le domaine des valeurs possibles, donc attendues de Y (respectivement X) ; les deux variables
X et Y sont lies.
y
domaine domaine de
de Y
Y sachant x0

xx
x x xx x
x xx x
x
xx x x x x xx x x
x
x xx
x xx
x x
xx
x

x0

y
y1

xx
xx x x
x xx x x
x
xx x x x x xx x x
x
x xx
x xx
x x
xx
x

domaine de
X sachant y1

domaine de X
La modification ici concerne aussi bien lamplitude du domaine que sa localisation en termes de
valeurs.
Lapprciation visuelle de la dpendance correspond lapprciation de lpaisseur de lensemble des points. Plus les points exprimentaux ont tendance se rpartir sur une courbe - non
horizontale ni verticale - plutt qu remplir une partie du plan, plus les variables sont lies.
Peut-on trouver un indicateur numrique de la force dune telle liaison ? Au sens strict, la rponse
est non.
Quelques situations de dpendance - cest--dire de liaison - sont reprsentes sur les figures ci-

2013 - 2014

Biostatistique - Carrat, Mallet, Morice

153/179

Liaison entre deux variables continues : notion de corrlation

dessous.
y

xx
x x xxxx
xx x
x x xx
x x x xxx
x x x xx x
x xxx x xxxxxxx xxx xxxxx xx xxx
x
x x xx x x x x x x x
xxxxxx x xxxxxxxxxxx xxx
xx
x x xx

y
x
x
xx
xx
xxx
xx
xxx
x x
x xx
x x
x x x x x xxx
x xx x x
x xx x x

On ne sait pas, en toute gnralit, rsumer en un seul nombre exprimant la liaison entre deux variables continues les rsultats dune exprience.
On ne connat quun indicateur gnral prenant en compte non pas le degr de proximit une
courbe quelconque mais le degr de proximit une droite : cest le coefficient de corrlation [linaire].
Il faut voir cependant que dans la plupart des situations relles au cours desquelles on sintresse
lexamen de la liaison entre deux variables, la possibilit dinterprtation des rsultats est largement fonction du caractre monotone, sinon rectiligne, de la dpendance ; que dire en termes dinterprtation dune dpendance figure schmatiquement sur la figure ci-dessous ?
y

14.3 Un indicateur de covariation : le


coefficient de corrlation
Cherchons alors quantifier un phnomne de covariation, cest--dire un phnomne de variation
couple entre X et Y.
On impose naturellement lindicateur recherch une invariance par translation : les phnomnes
productifs de X et Y demeurent fondamentalement inaltrs sils produisent X + a, Y + b. Ainsi
lindicateur se fondera-t-il sur les valeurs x i m x et y i m y . Par ailleurs, on souhaite que lindicateur ne dpende pas des units exprimant X et Y ; alors on travaillera sur

154/179

Biostatistique - Carrat, Mallet, Morice

2013 - 2014

Liaison entre deux variables continues : notion de corrlation

xi mx
yi my
x ri = ---------------- et y ri = ---------------sX
sY
Maintenant si Y et Y prsentent un caractre de covariation, cest que de faon frquente, sinon systmatique

soit les variables varient dans le mme sens, cest--dire lorsque xi est grand (i.e. xri positif
par exemple), yi lest galement le plus souvent (i.e. yri positif), que lorsque xi est petit (xri <
0) yi lest galement (yri < 0) ; dans ce cas, le produit xri yri est frquemment positif.
soit les variables varient en sens contraire : lorsque xi est grand, yi est petit, lorsque xi est petit, yi est grand ; dans ce cas le produit xri yri est frquemment ngatif.

Compte tenu de lanalyse prcdente, on choisit pour indicateur de la covariation ou corrlation le


nombre :
1
r = ------------ x ri y ri
n1
i

Ainsi

si r est grand, cest le signe dune covariation dans le mme sens de X et Y ;


si r est petit (cest--dire grand en valeur absolue et ngatif), cest le signe dune covariation
de X et Y en sens contraire ;
si r est voisin de zro, cest le signe dune absence de covariation.

Retenons, exprim sur la base des valeurs observes :


1
------------ x i m x y i m y
n1
i
r = -------------------------------------------------------------sX sY
Le numrateur de cette expression est appel la covariance observe des deux variables X et Y,
note cov 0(X, Y), dont on montre quelle sexprime aussi sous la forme

n 1
cov 0 X Y = ------------ --- x i y i xy
n 1n

Les figures ci-dessous prsentent diverses situations relativement au coefficient de corrlation observ.

2013 - 2014

Biostatistique - Carrat, Mallet, Morice

155/179

Liaison entre deux variables continues : notion de corrlation

y
y my

my

y my

xx
x xx x x x
x
x
x x x
x
x xx xx
x xx
xx
xx x x
x
x xxx
x xx x

xx x
xxx x
x xxx
xx x x x
x
x xx xx x
xx x x xx x
x xx xx
xx

my

x mx

mx

x mx

mx

r>0, grand

r<0, |r| grand


y
y my

my

x
x x x xx xxx
xxx x xxx xxxx x
x x xx x x
x x xxxxxx
x
x

x mx

mx

r voisin de zro
Proprits numriques fondamentales de r :

r a toujours une valeur comprise entre -1 et 1 ;


r prend la valeur -1 (respectivement 1) si et seulement si il existe des valeurs a et b telles
quon ait pour tout i yi = axi + b avec a ngatif (respectivement a > 0).

Remarques :

plus r est grand en valeur absolue, plus les variables sont dites corrles,
la valeur absolue de r dcrot,

lorsque sestompe le caractre rectiligne du nuage des valeurs observes,


lorsque spaissit ledit nuage,

une valeur absolue trs faible du coefficient de corrlation ne permet pas de conclure lindpendance de deux variables. Deux variables indpendantes prsenteront en revanche un
coefficient de corrlation observ trs faible en valeur absolue.

156/179

Biostatistique - Carrat, Mallet, Morice

2013 - 2014

Liaison entre deux variables continues : notion de corrlation

Quelques exemples sont prsents ci-dessous pour fixer les ides.

x xx
xx
x
xxx
x
x
x x
x
x xx xx
x xx
xx
xx x x
x
x xxx
x
xx x

x
x xx x xxx
x
x
x x x
x
x xx xx
x xx
xx
xx x x
x x
x xx x
xx x

x
r 0,9

r 0,7

x xx
x
x xx
x xx x
x
x
x x x
x x x xx
x
x
x x xx x x
x
x xx x
x
x x

xx
xx x x xx x
x xx
xx xxx x x
x
x xx xx
x xx
xx
x xxxx x xx
x xx
x xx x x
xx x

r 0,7

r 0,6

x xx x
x xx x xxxx
x x x xxx x
x xxxxx xx x
x x xx x
x x xx x
x xxx
xxx xx x
x x
xx

x x
x x xxx xx
x
x
x
x x x xx xxxx
x
x
x
x xx
xxx
x x x x xx xx x
x
x
x
x
x
xx
xx
xx x xxx xx xxx x
xx
xx xxxxxxxx x
x
x x xx
xx x

x
r 0,5

2013 - 2014

r 0,5

Biostatistique - Carrat, Mallet, Morice

157/179

Liaison entre deux variables continues : notion de corrlation

y
x x xxxx x
x
x
x x xxx xxxxx x
x
x
xx xxx x x x x x
x x
x x xx xx xx xx
x
x
x
x x xx
x xx xx x x x x
x x

x
xx
xx
xx
xx
xx
x
xxx
x
xx
xx
xx
x
xx x
xxxx
xx
xx x
x xx x x x xxxx
x x x x xx

x
r 0

r 0

Remarque complmentaire :
Le coefficient de corrlation linaire est, au mme titre que toute statistique, soumis aux fluctuations dchantillonnage. La question se pose alors de savoir que faire de cet indicateur en termes
dinfrences. Par exemple, avant de conclure que les deux variables sont corrles, peut-on se garantir du risque de lobservation dun coefficient de corrlation nul sur une plus grande srie
dobservations ? On se retrouve dans le contexte des tests dhypothses avec ici une difficult supplmentaire qui tient au fait que lon na pas quitt le niveau exprimental, le niveau intuitif. Il
convient de trouver une contrepartie vraie ce coefficient de corrlation observ r.

14.4 Le coefficient de corrlation vrai


Cherchons substituer de la faon la plus naturelle possible des grandeurs vraies aux grandeurs
observes constitutives de r. On note lapparition au dnominateur de sX et sY auxquelles on substitue naturellement X et Y , les carts types vrais de X et Y. Au numrateur on remarque mx
et my auxquels on substitue E(X) et E(Y) les moyennes vraies de X et Y. Reste au numrateur
une moyenne observe (lisons n la place de n-1) ; on lui substitue une moyenne vraie :
moyenne vraie du produit [X - E(X)][Y - E(Y)], soit E{[X - E(X)][Y - E(Y)]}.
Cette moyenne vraie dpendant de X et Y la fois sappelle covariance vraie de X et Y.
Finalement, on obtient la contrepartie vraie note :
EX EXY EY
X Y = ---------------------------------------------------------------X Y
Remarque : propos des notions desprance, de covariance vraie , de coefficient de corrlation
vrai , voir le chapitre 6.

158/179

Biostatistique - Carrat, Mallet, Morice

2013 - 2014

Liaison entre deux variables continues : notion de corrlation

14.5 Test dgalit du coefficient de


corrlation vrai 0
Des calculs thoriques complexes, et imposant un certain nombre de restrictions, qui, dpassant le
cadre de ce cours, ne seront pas mentionns, permettent de calculer la distribution de r sous
lhypothse - retenue comme hypothse nulle - de nullit du coefficient de corrlation vrai .
Il sagit dune famille de distributions indexes par un entier appel nombre de degrs de libert.
La mise en uvre du test est alors conventionnelle :

H0 : = 0 [les variables ne sont pas corrles],


H1 : 0 [les variables sont corrles]
Paramtres du test : coefficient de corrlation observ
1
------------ x i m x y i m y
n1
i
r = -------------------------------------------------------------sX sY
sous H0, r suit une distribution connue, dite du coefficient de corrlation n-2 degrs de libert o n est le nombre de couples (xi, yi) exprimentaux. Lintervalle de pari pour r est de
la forme
IP 1 = corr n 2 ; corr n 2 corr n 2 tant lue dans une table.
Conditions de validit
Les conditions de validit sont complexes et expriment que toute combinaison linaire des variables X et Y est distribue selon une loi normale. Autrement dit, toute variable aX + bY o
a et b sont deux nombres quelconques doit tre normale.
Pour la commodit de lexpression, on noncera les conditions de validit sous le nologisme
distribution de (X, Y) binormale .
la suite de la mise en uvre est standard.

Quelques exemples numriques


Au risque 5 % :
n = 10, IP0,95 = [-0,632 ; 0,632], ddl = 8
n = 20, IP0,95 = [-0,444 ; 0,444], ddl = 18
n = 50, IP0,95 = [-0,280 ; 0,280], ddl = 48
Ainsi, par exemple, pour pouvoir conclure la corrlation, lorsque lon dispose de 20 observations
(20 couples (xi , yi )), le coefficient de corrlation observ doit tre suprieur 0,444, ou infrieur
-0,444.
Autre formulation du test
n2
On peut montrer que t = r -------------2 est, sous H0, distribu selon une loi de Student n-2 ddl.
1r

2013 - 2014

Biostatistique - Carrat, Mallet, Morice

159/179

Liaison entre deux variables continues : notion de corrlation

Si on prfre utiliser ce paramtre plutt que r, il faut lire la table de Student pour construire lintervalle de pari.

160/179

Biostatistique - Carrat, Mallet, Morice

2013 - 2014

Liaison entre deux variables continues : notion de corrlation

Rsum du chapitre
1.

La corrlation entre deux variables alatoires quantitatives X et Y se mesure laide du coefficient de corrlation vrai :
EX EXY EY
X Y = ---------------------------------------------------------------X Y
Proprits :

2.

3.
4.

X Y 1 ; 1
Si X, Y indpendantes, alors (X, Y) = 0

Disposant dun chantillon de n couples (xi , yi ) on dfinit le coefficient de corrlation


observ :

n 1
1
------------ --- x i y i m x m y
------------ x i m x y i m y
n 1n

n1
i
i
r = --------------------------------------------------------------- = -------------------------------------------------------sX sY
sX sY
Proprit : r 1 ; 1
Il existe un test de nullit du coefficient de corrlation vrai dont le paramtre est r.
Indpendance et corrlation sont des notions diffrentes ; deux variables dont le coefficient
de corrlation vrai est nul peuvent tre lies.

2013 - 2014

Biostatistique - Carrat, Mallet, Morice

161/179

Liaison entre deux variables continues : notion de corrlation

162/179

Biostatistique - Carrat, Mallet, Morice

2013 - 2014

Mthodologie des tudes pidmiologiques

Chapitre 15
Mthodologie des tudes
pidmiologiques
The world is richer in associations than meanings, and it is the part of wisdom to differentiate the
two. John Barth

15.1 La causalit
La causalit est une thmatique centrale en philosophie des sciences et en logique, et les premiers
crits sur ce sujet remontent Aristote. Jusquau 18me sicle, la causalit nait de lobservation, et
les connaissances sont construites partir des observations sans ide prconues du rel (infrence
dite inductive). Nous formons alors une sorte danticipation, qui nous reprsente que le second vnement (leffet) doit se produire quand le premier (la cause) se produit - mme si les mcanismes
explicatifs liant ces deux vnements nous chappent. Dans la vie courante, lacquisition de nos
apprentissages ou lapplication des rgles de bon sens , illustrent cette conception de la causalit. Hume, philosophe cossais, montrera pourtant les limites de ce principe et limpossibilit de
prouver la relation causale de lobservation de la succession de deux vnements dont on ne peut
jamais exclure la concidence.
Le questionnement sur la causalit en mdecine est galement ancien. Claude Bernard crit en
1865 :
Lesprit de lhomme ne peut concevoir un effet sans cause, de telle sorte que la vue dun phnomne veille toujours en lui une ide de causalit. Toute la connaissance humaine se borne remonter des effets observs leur cause. la suite dune observation, une ide relative la cause
du phnomne observ se prsente lesprit ; puis on introduit cette ide anticipe dans un raisonnement en vertu duquel on fait des expriences pour la contrler.
On retrouve dans ce propos une conception diffrente de la causalit : il sagit de dduire (au sens
strict) les consquences dune hypothse et ensuite de comparer ces consquences aux donnes.
Sil y a dsaccord, alors lhypothse est rfute. Dans le cas contraire, lhypothse nest pas prouve mais notre croyance en elle sen trouve renforce. Cette conception, de type dductif, formalise par Karl Popper au dbut du 20me sicle, sest impose comme le socle de la dcouverte
scientifique.
Des livres dpidmiologie entiers, dont certains trs mathmatiques utilisant les outils de la logique, traitent de ce problme de la causalit. On retiendra quune relation causale entre deux caractres pourra tre voque lorsque lun des deux est contrl . Lessai contrl est la seule

2013 - 2014

Biostatistique - Carrat, Mallet, Morice

163/179

Mthodologie des tudes pidmiologiques

mthode qui permet de mesurer leffet causal dune intervention, par exemple un traitement, sur
un vnement, par exemple, la gurison dune maladie.

15.2 Dmarche exprimentale et dmarche


dobservation
Caractre contrl ; caractre alatoire
Dans ce qui suit, les termes caractre, caractristique, variable et facteur sont considrs
comme synonymes.
On dit dun caractre quil est contrl lorsque sa dtermination nous appartient.
Exemple : on sintresse leffet dun traitement sur la survenue dun type de cancer chez
des souris. Le caractre absence ou prsence du traitement est contrl car dtermin par
lexprimentateur.
Dans le cas contraire, on dit que le caractre est alatoire. Exemple : la survenue du cancer chez la souris.
Lorsquon envisage un problme de liaison entre deux variables (cela recouvre tous les problmes que lon a rencontrs) un au plus des caractres peut tre contrl.
Dmarche exprimentale
Lorsque lexprience se conduit avec un facteur contrl, on dit que lon suit une dmarche exprimentale. Dans ce cas, au cours de la constitution de lchantillon qui permettra de mettre en uvre les tests, on dcide du choix de la valeur dun caractre (par
exemple, on dcide si le Xme patient sera trait ou non, et on tudie la gurison de la maladie).
Dmarche dobservation
Lorsque lexprience se conduit sur la base de deux facteurs alatoires, on dit que lon suit
une dmarche dobservation (par exemple, on observe si le Xme sujet est fumeur ou non,
et on tudie la survenue de cancer).
Principe fondamental
La discussion de la causalit ne se conoit pas sans contrle dun des deux caractres tudis.
Autrement dit, on ne peut mesurer un effet causal hors dune dmarche exprimentale.
Seule cette dmarche, en effet, permet dassurer que les individus constituant lchantillon
sont comparables en tout (homognes) sauf pour ce qui concerne le caractre contrl. Encore faut-il assurer cette homognit et la mthode de rfrence est le tirage au sort. On
parle de randomisation pour lattribution par tirage au sort du caractre contrl, le traitement.

164/179

Biostatistique - Carrat, Mallet, Morice

2013 - 2014

Mthodologie des tudes pidmiologiques

15.3 Les essais randomiss


15.3.1 Dfinition
Le but de lessai randomis est, grce une dmarche exprimentale rigoureuse, dvaluer lefficacit dune intervention de sant, par exemple un nouveau traitement - on parle alors dessai thrapeutique randomis. Il peut sagir galement dune autre intervention mdicale, par exemple une
technique chirurgicale, un programme dducation pour la sant, un dispositif mdical, une mthode diagnostique.
Dans un essai thrapeutique pour une maladie, on cherche le plus souvent montrer quun nouveau
traitement a une efficacit suprieure celle du traitement habituellement utilis dans cette maladie, ou labsence de traitement (notamment lorsquil nexiste pas encore de traitement dusage
pour la maladie tudie). Parce que lattribution du traitement est contrle et dcide par tirage au
sort, on sera le cas chant en mesure de conclure quune diffrence defficacit est cause par le
traitement (au risque derreur statistique choisi). La ralisation dun essai thrapeutique ncessite
donc de dfinir le critre que lon utilisera pour juger de lefficacit - appel critre de jugement.
Des exemples de critres de jugement sont la rgression des symptmes dune maladie, la dure de
survie, la valeur dune constante biologique, un score de qualit de vie .... En pratique on distingue
les critres de jugement objectifs, reposant sur une grandeur valuable par une mesure physique
objective, par exemple la charge virale, la concentration de cholestrol sanguin, la survie, ... des
critres de jugement subjectifs, qui peuvent tre influencs par des effets de type psychologique,
par exemple la douleur, lanxit, la qualit de vie, la mesure dune impotence une preuve de
marche, ... Lessai thrapeutique doit tre organis afin de limiter au maximum les biais pouvant
modifier le droulement de lessai ou linterprtation du critre de jugement.

15.3.2 Comment limiter les biais dans le droulement dun


essai thrapeutique randomis ? Aveugle et placebo
Le placebo est une prsentation lidentique du mdicament ltude mais qui ne contient pas le
principe actif. Ainsi lorsquun essai randomis contre placebo est ralis, un sujet dans lessai recevra au hasard soit le mdicament ltude soit une copie de ce mdicament, et ni ce sujet, ni le
mdecin qui le prend en charge dans ltude, ni la personne (souvent le mdecin) qui valuera le
critre de jugement ne sauront ce qui est rellement pris. On parle dans ce cas de mise en insu ou
daveugle. Les sujets recevant le placebo constituent ce que lon appelle le groupe tmoin (ou
groupe contrle par anglicisme). Laveugle est justifi pour deux raisons principales : 1) dune
part, parce quil garantit que les patients seront a priori pris en charge et suivis de la mme manire
dans lessai quel que soit le groupe dans lequel ils ont t randomiss. En labsence daveugle, un
patient recevant, par exemple, un placebo, pourrait tre amen plus facilement interrompre rapidement sa participation dans lessai (puisquil a le placebo) pour pouvoir bnficier dun autre traitement, contrairement un patient recevant le traitement ltude ; un patient recevant le
traitement ltude pourrait faire lobjet de plus dattention que celui du groupe placebo et 2)

2013 - 2014

Biostatistique - Carrat, Mallet, Morice

165/179

Mthodologie des tudes pidmiologiques

dautre part, parce quil permet dviter une interprtation tendancieuse ou biaise du critre de jugement si celui-ci est subjectif. Lvaluateur dune douleur rsiduelle 6 mois aprs le dbut de lessai sera invitablement influenc dans son jugement sil connat le groupe du patient, et aura
tendance trouver une plus grande efficacit sur la douleur chez les patients qui reoivent le traitement ltude que chez les patients du groupe tmoin.
Dailleurs, en cas dabsence daveugle, le simple fait de soumettre un sujet un traitement amliore
souvent un critre de jugement subjectif, mme si ce traitement na aucune efficacit intrinsque :
cest leffet placebo.
Leffet placebo est dfini comme lcart positif constat entre leffet thrapeutique observ et leffet pharmacologique propre dun mdicament. Si lon donne une substance inerte sur le plan pharmacologique, on observera uniquement un effet placebo. On considre ainsi que lhomopathie ou
dautres mdecines douces , relvent uniquement de leffet placebo et donc que leffet de ces
thrapeutiques est exclusivement subjectif. Dans un essai en aveugle, leffet placebo est rparti de
la mme manire entre les deux groupes de patients, et la diffrence observe est donc imputable
aux seules proprits pharmacologiques du traitement.
Un essai contre placebo en aveugle peut porter sur dautres interventions que le seul mdicament.
Un exemple clbre rcent porte sur la chirurgie du genou chez les sujets obses. Jusque rcemment, tous les essais indiquaient une amlioration franche de la douleur et de la mobilit chez les
sujets randomiss dans le groupe ayant subi lintervention chirurgicale ligamentaire par rapport
ceux randomiss dans le groupe sans intervention. Jusquau jour o un essai fut conduit comparant
des sujets chez qui lintervention sur les ligaments tait ralise, des sujets endormis et chez lesquels un simulacre dintervention (ouverture/fermeture simple de la cavit articulaire) tait ralis.
Le rsultat montrait lamlioration de la douleur dans les deux groupes (leffet placebo), et labsence de diffrence entre les deux groupes (donc labsence defficacit intrinsque de lintervention).

15.3.3 Comment limiter les biais dans lanalyse dun essai


thrapeutique randomis ? Intention de traiter
Lanalyse des rsultats dun essai thrapeutique est effectue grce la mthode statistique. Ce
sont les tests statistiques qui permettent de conclure si les diffrences observes entre le groupe de
sujets traits et le groupe de sujets non traits ou recevant le placebo permettent de rejeter ou non
lhypothse dgalit de traitement, cest--dire de conclure quun traitement est ou non meilleur
que lautre. De faon tout fait gnrale, les tests employs sont des tests bilatraux. De faon tout
aussi gnrale, dans ce type dessai de supriorit ou defficacit, lanalyse statistique est effectue
selon le principe de lintention de traiter. Ce principe consiste considrer le patient dans lessai
littralement tel quon avait lintention de le traiter , cest dire, dans le groupe dans lequel il
avait t randomis - peu importe ce qui a t rellement pris. Par exemple, un patient randomis
dans le groupe placebo pourrait en ralit recevoir le traitement lessai pendant toute la dure de
ltude, par simple erreur au moment de la dlivrance du mdicament : quand bien mme, ce patient sera analys dans le groupe placebo. Le principe de lanalyse en intention de traiter a pour
objectif de prserver les bnfices de la randomisation au moment de lanalyse des rsultats, et de
limiter les biais lis aux carts entre le protocole de lessai et la conduite de celui-ci. En pratique,
la consquence implicite dune analyse en intention de traiter sera que tout patient randomis sera

166/179

Biostatistique - Carrat, Mallet, Morice

2013 - 2014

Mthodologie des tudes pidmiologiques

inclus dans lanalyse y compris ceux nayant pas bien voire pas du tout pris le traitement qui leur
tait allou.
Cependant, les tudes randomises ne sont pas toujours ralisables do limportance de la question de causalit dans les tudes observationnelles en mdecine. En particulier, si lexprimentation
peut parfois permettre de mesurer un effet causal entre un traitement et une maladie, elle est trs
souvent impossible lorsque la cause potentielle tudie est un risque.

15.4 Les tudes dobservation


On regroupe sous cette terminologie, les tudes dont lobjectif est didentifier les facteurs associs
des vnements de sant et ne reposant pas sur une dmarche exprimentale. Il est en effet contre
les principes thiques dexposer une personne une cause potentielle de maladie pour tudier comment celle-ci survient - par exemple faire fumer par tirage au sort des sujets pour tudier le rle du
tabac dans les cancers. En revanche, les personnes delles-mmes se rpartissent souvent en exposes / non exposes (ex : fumeur/non fumeur), et le but de ces tudes dobservation sera donc
dtayer avec la meilleure dmarche possible lhypothse teste partir de ces observations.
Les tudes dobservation peuvent tre catgorises en cohortes - cas-tmoins et transversales ;
prospectives et rtrospectives. On notera que cette terminologie peut sappliquer galement la dmarche exprimentale : un essai thrapeutique est une tude prospective imposant un recueil de
donnes longitudinales. Dans les tudes dobservation, on tudie le plus souvent lassociation entre
une exposition et un vnement de sant.
Lexposition peut tre un risque (par exemple fumer, un polymorphisme gntique), ou un bnfice
(par exemple un traitement, le poids). Des vnements de sant sont par exemple, la survenue
dune maladie, une gurison, un dcs, une rcidive, etc ...

15.4.1 Cohortes - Cas-tmoins et tudes transversales


Etudes de cohorte
Une cohorte tait le dixime dune lgion romaine. Cest plus gnralement un ensemble
de sujets. Dans une tude dite de cohorte les sujets sont rpartis en groupes en fonction
de leur exposition (par exemple, fumeur/non fumeur) et lvnement nest pas survenu au
moment o cette rpartition est faite. Chacun de ces groupes dfinit une sous cohorte ,
et la comparaison du taux de survenue de lvnement entre ces diffrentes sous cohortes,
permettra de mesurer lassociation entre exposition et vnement. Dun point de vue pratique ltude de cohorte est la dmarche dobservation la plus proche de lessai randomis, la principale diffrence tant que dans un essai, lattribution de lexposition (le
traitement) est ralise par tirage au sort.
Etudes cas-tmoins
Dans une tude cas-tmoins (ou cas-contrle), les groupes de sujets sont constitus en
fonction de leur ralisation ou non de lvnement de sant : les cas sont par exemple
les malades atteints dun cancer et les tmoins, des sujets non atteints de ce cancer. On com-

2013 - 2014

Biostatistique - Carrat, Mallet, Morice

167/179

Mthodologie des tudes pidmiologiques

pare les niveaux dexposition dans ces deux groupes pour tudier lassociation entre exposition et vnement de sant. En gnral, on choisit de un 4 tmoins pour chaque cas et la
proportion de malades dans ltude est compltement dtermine (de 50 % pour 1 tmoin
pour 1 cas, 20 % pour 4 tmoins par cas), et ne correspond en rien la proportion de malades dans la population cible.
Etudes transversales
Une tude transversale est une tude descriptive dont le principe est essentiellement de
recueillir simultanment des informations sur expositions et vnements de sant sur un
chantillon reprsentatif de la population cible - celle laquelle on souhaite pouvoir extrapoler les rsultats. Les enqutes de prvalence sont un exemple typique de ces tudes transversales, dans lesquelles on value le nombre de malades prsents un instant dans la
population, et qui identifie les facteurs associs aux variations de prvalence. Ces tudes
transversales sont limites par labsence de description temporelle des expositions (et des
vnements), mais peuvent permettre didentifier des relations entre vnement de sant et
exposition lorsque celles-ci sont invariables dans le temps (par exemple, le sexe, le groupe
sanguin, ...).

15.4.2 Etudes prospectives et rtrospectives


Une tude est dite prospective lorsque lexposition est mesure avant la survenue de lvnement
tudi. Une tude est dite rtrospective lorsque la mesure de lexposition survient aprs la survenue de lvnement. Par exemple, une tude dans laquelle on mesure la consommation journalire
de tabac, et dans laquelle on observe la survenue de cancer au cours du suivi des sujets est une tude
prospective ; a contrario, demander la consommation de tabac des dix dernires annes des sujets
ayant un cancer est une tude rtrospective. On notera que cette dfinition de prospective/rtrospective nest pas consensuelle, et les pidmiologistes modernes recommandent de ce fait, de ne
plus utiliser cette terminologie.

15.4.3 Donnes longitudinales


On dit que les donnes sont longitudinales lorsque quil existe plusieurs mesures travers le temps
par sujet. Par exemple, la mesure du taux de cholestrol chez un sujet tous les 6 mois, ou la mesure
du statut fumeur/non fumeur au cours du temps est une donne longitudinale. Les mesures longitudinales chez un mme sujet ne peuvent pas tre considres comme ralisation de variables alatoires indpendantes ; par exemple, le taux de cholestrol dun sujet un instant quelconque
apporte une information sur le taux de cholestrol du mme sujet 6 mois plus tard. Il faudra tenir
compte de cette non-indpendance dans les analyses statistiques de ces donnes - qui seront souvent complexes.

168/179

Biostatistique - Carrat, Mallet, Morice

2013 - 2014

Mthodologie des tudes pidmiologiques

15.4.4 En pratique
Le plus souvent, une tude de cohorte sera prospective, et aura recueilli des donnes longitudinales.
Le plus souvent une tude cas-tmoins sera rtrospective.

15.5 Mesures dassociation utilises en


pidmiologie
On traite le cas le plus simple o une exposition est rpartie en deux niveaux (oui/non, prsent/absent, expos/ non expos), et on notera E+ lexposition, E- labsence dexposition au facteur tudi.
Lvnement dintrt est galement catgoris en deux niveaux, M+ pour malade, M- pour nonmalade. On notera que dans le cas dun essai thrapeutique E+ est le traitement ltude, et Mpeut tre dfini comme le succs thrapeutique, donc ce qui suit sapplique aussi bien lessai randomis quaux tudes dobservation.
A partir de cette catgorisation, il est possible de dresser le tableau suivant :

M+

M-

E+

n1

n2

E-

n3

n4

On dfinit

le risque absolu chez les exposs, comme la proportion vraie de malades parmi les exposs
P(M+ | E+), estim par n1/(n1+n2)
le risque absolu chez les non exposs, comme la proportion de malades chez les non exposs,
P(M+ | E-), estim par n3/(n3+n4)
le risque relatif est une mesure dassociation, dfini comme le rapport des risques absolus
chez les exposs et non exposs, P(M+ | E+) / P(M+ | E-).
Ce risque est estim par n1/(n1+n2) / n3/(n3+n4)
le rapport des cotes (odds-ratio en anglais) est une autre mesure dassociation trs utilise en
biomdecine. Rappelons que la cote dun vnement est dfinie comme le rapport de sa probabilit sur son complmentaire : jouer une cote de 9 contre 1 signifie jouer avec 9 chance
de perdre contre une chance de gagner.
Le rapport des cotes est dfini comme le rapport de la cote de la maladie chez les exposs
P(M+ | E+)/P(M- | E+) sur la cote de la maladie chez les non-exposs P(M+ | E-)/P(M- | E-),
mais aussi, par application du thorme de Bayes, comme le rapport de la cote des expositions
chez les malades P(E+ | M+)/P(E- | M+), par la cote des expositions chez les non malades
P(E+ | M-)/P(E- | M-). Il est estim par le rapport des produits croiss (n1n4) / (n2n3).

2013 - 2014

Biostatistique - Carrat, Mallet, Morice

169/179

Mthodologie des tudes pidmiologiques

Le rapport des cotes est la seule quantit pertinente qui peut tre estime dans une tude cas-tmoins puisque le nombre total de sujets non malades est dtermin par le nombre de tmoins choisi
par cas. Si la maladie est rare dans la population cible, aussi bien chez les exposs que chez les nonexposs, P(M+) est proche de 0 et donc P(M-) voisin de 1, et P( M+ | E+)/P(M- | E+) est voisin de
P( M+ | E+) ; P(M+ | E-)/P(M- | E-) proche de P(M+ | E-) et donc le rapport des cotes dfini ci-dessus est proche de du risque relatif.
Le risque relatif et le rapport des cotes sont des quantits qui peuvent prendre les valeurs entre 0 et
linfini. Sous lhypothse (nulle) dindpendance entre lexposition et lvnement tudi, ces
deux quantits valent 1.
Un risque relatif ou un rapport de cotes suprieur 1 (conclusion que lon portera aprs avoir fait
le test dhypothse appropri) signifie que lexposition est un facteur de risque de lvnement tudi. Un risque relatif ou un rapport de cotes infrieur 1 signifie que lexposition est un facteur
protecteur de lvnement. Un risque relatif de 50 (par exemple) pour lexposition fumeur et
lvnement cancer du poumon sinterprte littralement comme il y a 50 fois plus de cancer
du poumon chez les fumeurs que chez les non fumeurs .

15.6 Risque attribuable, proportion de cas


vitables
Cette section a t crite par A.J. Valleron.
Le risque attribuable un facteur est la proportion des cas que lon pourrait viter en supprimant
ce facteur, lorsquil est causal. Par exemple, le risque de cancers du poumon attribuable au tabac
est de lordre de 90 % (si on supprimait par magie le tabac, environ 10 % des cancers des bronches
surviendraient encore, car ils sont dus dautres facteurs).
Soit :
N le nombre total de malades ;
NF le nombre de malades exposs au facteur F ;
NNF le nombre de malades non exposs au facteur F.
On peut crire N = NF + NNF .
Parmi les N Pr(M) cas totaux de maladie, on ne peut viter les N Pr(M/NF) cas qui seraient survenus de toute faon en labsence du facteur F. On peut esprer viter les NF autres. La proportion
maximale de cas que lon peut viter est donc :
Pr M Pr M NF
--------------------------------------------------Pr M
Soit f la proportion de sujets exposs. En crivant que : Pr(M) = f Pr(M/F) + (1-f) Pr(M/NF) on
trouve que le risque attribuable vaut :
f RR 1
--------------------------------f RR 1 + 1

170/179

Biostatistique - Carrat, Mallet, Morice

2013 - 2014

Mthodologie des tudes pidmiologiques

Rsultat :
Dans une population o une proportion f des sujets est expose un facteur F augmentant
le risque de maladie, cette augmentation tant caractrise par le risque relatif RR = Pr(M/
F)/Pr(M/NF), le risque attribuable au facteur, cest dire la proportion maximale de cas qui
peut tre vite vaut
f RR 1
--------------------------------- .
f RR 1 + 1
La proportion calcule grce cette formule est maximale : elle nest atteinte que si le facteur
F a un rle causal dans le dclenchement de la maladie. Par exemple, lexposition au tabac est un
facteur causal du cancer des bronches. Lalcoolisme ne lest pas. Pourtant, le risque relatif RR de
cancer des bronches chez les alcooliques est suprieur 1 parce que les alcooliques sont plus souvent fumeurs que les non alcooliques. Lalcoolisme est appel facteur de confusion. Bien entendu,
en supprimant lalcool, on ne supprimerait pas le cancer des bronches !

2013 - 2014

Biostatistique - Carrat, Mallet, Morice

171/179

Mthodologie des tudes pidmiologiques

Rsum du chapitre
1.

Lessai contrl randomis permet de mesurer de leffet causal dune intervention de sant,
un traitement par exemple.
2. La randomisation qui consiste tirer au sort lattribution de lintervention, permet dassurer
que les individus constituant lchantillon sont comparables en tout (homognes) sauf pour ce
qui concerne le caractre contrl.
3. Dans un essai randomis, le critre de jugement est la variable qui sera compare entre les
groupes pour juger de lefficacit de lintervention. On distingue critres de jugements objectifs (ex : dcs) et subjectifs (ex : douleurs), ces derniers pouvant tre facilement influencs
par dautres effets que les effets propres de lintervention.
4. Leffet thrapeutique dans un essai est la somme de leffet pharmacologique propre et de leffet placebo.
5. La mise en aveugle qui signifie que ni le patient, ni le mdecin qui le suit, ni lvaluateur du
critre ne savent dans quel groupe est randomis le patient, est utilise pour limiter les biais.
6. Lanalyse en intention-de-traiter signifie que lon compare le critre de jugement entre les
groupes tels quils ont t constitus par la randomisation. Elle implique que tous les patients
randomiss sont conservs dans lanalyse.
7. Dans une tude dobservation, il nest pas possible de conclure causalement, juste de mettre
en vidence des associations entre expositions (par exemple fumer) et vnement de sant
(par exemple un cancer).
8. Les tudes dobservations visent identifier les facteurs associs des vnements de sant ;
il sagit souvent de risques.
9. On distingue les tudes de cohortes, o les sujets sont rpartis en groupes en fonction de leur
exposition (ex : fumeur/non fumeur) ; les tudes cas-tmoins, o les sujets sont rpartis en
groupes en fonction de la ralisation ou non de lvnement de sant (ex cancer/ pas cancer) ;
les tudes transversales, o expositions et vnements sont mesurs simultanment.
10. Une tude est dite prospective lorsque lexposition est mesure avant la survenue de lvnement tudi. Une tude est dite rtrospective lorsque la mesure de lexposition survient aprs
la survenue de lvnement.
11. Le risque relatif et le rapport des cotes mesurent la force de lassociation entre lexposition et
lvnement de sant tudi. Ils valent 1 en cas dabsence dassociation.

172/179

Biostatistique - Carrat, Mallet, Morice

2013 - 2014

Tables statistiques

Annexe A
Tables statistiques

2013 - 2014

Biostatistique - Carrat, Mallet, Morice

173/179

Tables statistiques

A.1 TABLE DE LA VARIABLE NORMALE


REDUITE Z

0,00

0,01

0,02

0,03

0,04

0,05

0,06

0,07

0,08

0,09

0,00
0,10
0,20
0,30
0,40
0,50
0,60
0,70
0,80
0,90

1,645
1,282
1,036
0,842
0,674
0,524
0,385
0,253
0,126

2,576
1,598
1,254
1,015
0,824
0,659
0,510
0,372
0,240
0,113

2,326
1,555
1,227
0,994
0,806
0,643
0,496
0,358
0,228
0,100

2,170
1,514
1,200
0,974
0,789
0,628
0,482
0,345
0,215
0,088

2,054
1,476
1,175
0,954
0,772
0,613
0,468
0,332
0,202
0,075

1,960
1,440
1,150
0,935
0,755
0,598
0,454
0,319
0,189
0,063

1,881
1,405
1,126
0,915
0,739
0,583
0,440
0,305
0,176
0,050

1,812
1,372
1,103
0,896
0,722
0,568
0,426
0,292
0,164
0,038

1,751
1,341
1,080
0,878
0,706
0,553
0,412
0,279
0,151
0,025

1,695
1,311
1,058
0,860
0,690
0,539
0,399
0,266
0,138
0,013

La probabilit sobtient par addition des nombres inscrits en marge


exemple : pour u = 0,994, la probabilit est = 0,30 + 0,02 = 0,32
TABLE POUR LES PETITES VALEURS DE LA PROBABILIT

0,001

0,000 1

0,000 01

0,000 001

0,000 000 1

0,000 000 01

0,000 000 001

3,29053

3,89059

4,41717

4,89164

5,32672

5,73073

6,10941

(daprs Fisher et Yates, Statistical tables for biological, agricultural, and medical research (Oliver
and Boyd, Edinburgh) avec laimable autorisation des auteurs et des diteurs)

174/179

Biostatistique - Carrat, Mallet, Morice

2013 - 2014

Tables statistiques

A.2 TABLE DU TEST DE WILCOXON


Table adapte de Siegel

0,05

0,02

0,01

2,118

1,961

2,299

2,044

2,324

2,464

2,026

2,263

2,381

10

1,947

2,253

2,456

11

2,009

2,276

2,454

12

2,008

2,322

2,479

13

1,964

2,313

2,523

14

1,952

2,329

2,517

15

1,965

2,306

2,533

Indique, pour n 15 les valeurs de W pour = 0,05, 0,02 et 0,01.

2013 - 2014

Biostatistique - Carrat, Mallet, Morice

175/179

Tables statistiques

A.3 TABLE DU TEST DE MANNWHITNEY-WILCOXON


Table adapte de Siegel

nA

nB
4

10

10

0,05

2,333

1,905

0,01

2,687

2,483

0,05

2,117

2,107

2,110

0,01

2,415

2,596

2,528

0,05

1,962

2,047

2,118

2,018

0,01

2,479

2,473

2,483

2,498

0,05

2,074

2,003

1,965

2,086

2,057

0,01

2,530

2,570

2,615

2,514

2,568

0,05

1,960

1,970

1,991

2,014

2,037

1,953

0,01

2,572

2,480

2,576

2,530

2,500

2,584

0,05

2,052

2,099

2,013

1,956

2,022

1,982

2,040

0,01

2,422

2,561

2,680

2,546

2,551

2,560

2,570

0,05

1,961

2,065

2,033

2,017

2,010

2,008

2,009

2,011

0,01

2,366

2,489

2,523

2,560

2,498

2,541

2,580

2,540

Indique, pour nA 10 et nB 10, nA nB , les valeurs de M, pour =0,05 et =0,01.


Exemple : nA =5, nB =8 : M0,05=1,991

176/179

Biostatistique - Carrat, Mallet, Morice

2013 - 2014

Tables statistiques

A.4 TABLE DE 2
La table donne la probabilit pour que 2 gale
ou dpasse une valeur donne, en fonction du
nombre de degrs de libert (d. d. l.)
Quand le nombre de degrs de libert est lev,
2

2 est peu prs distribu normalement


autour de
gale 1

2 d.d.l. 1 avec une variance

0,90

0,50

0,30

0,20

0,10

0,05

0,02

0,01

0,001

1
2
3
4
5
6
7
8
9
10

0,0158
0,211
0,584
1,064
1,610
2,204
2,833
3,490
4,168
4,865

0,455
1,386
2,366
3,357
4,351
5,348
6,346
7,344
8,343
9,342

1,074
2,408
3,665
4,878
6,064
7,231
8,383
9,524
10,656
11,781

1,642
3,219
4,642
5,989
7,289
8,558
9,803
11,030
12,242
13,442

2,706
4,605
6,251
7,779
9,236
10,645
12,017
13,362
14,684
15,987

3,841
5,991
7,815
9,488
11,070
12,592
14,067
15,507
16,919
18,307

5,412
7,824
9,837
11,668
13,388
15,033
16,622
18,168
19,679
21,161

6,635
9,210
11,345
13,277
15,086
16,812
18,475
20,090
21,666
23,209

10,827
13,815
16,266
18,467
20,515
22,457
24,322
26,125
27,877
29,588

11
12
13
14
15
16
17
18
19
20

5,578
6,304
7,042
7,790
8,547
9,312
10,085
10,865
11,651
12,443

10,341
11,340
12,340
13,339
14,339
15,338
16,338
17,338
18,338
19,337

12,899
14,011
15,119
16,222
17,322
18,418
19,511
20,601
21,689
22,775

14,631
15,812
16,985
18,151
19,311
20,465
21,615
22,760
23,900
25,038

17,275
18,549
19,812
21,064
22,307
23,542
24,769
25,989
27,204
28,412

19,675
21,026
22,362
23,685
24,996
26,296
27,587
28,869
30,144
31,410

22,618
24,054
25,472
26,873
28,259
29,633
30,995
32,346
33,687
35,020

24,725
26,217
27,688
29,141
30,578
32,000
33,409
34,805
36,191
37,566

31,264
32,909
34,528
36,123
37,697
39,252
40,790
42,312
43,820
45,315

21
22
23
24
25
26
27
28
29
30

13,240
14,041
14,848
15,659
16,473
17,292
18,114
18,939
19,768
20,599

20,337
21,337
22,337
23,337
24,337
25,336
26,336
27,336
28,336
29,336

23,858
24,939
26,018
27,096
28,172
29,246
30,319
31,391
32,461
33,530

26,171
27,301
28,429
29,553
30,675
31,795
32,912
34,027
35,139
36,250

29,615
30,813
32,007
33,196
34,382
35,563
36,741
37,916
39,087
40,256

32,671
33,924
35,172
36,415
37,652
38,885
40,113
41,337
42,557
43,773

36,343
37,659
38,968
40,270
41,566
42,856
44,140
45,419
46,693
47,962

38,932
40,289
41,638
42,980
44,314
45,642
46,963
48,278
49,588
50,892

46,797
48,268
49,728
51,179
52,620
54,052
55,476
56,893
58,302
59,703

ddl

Exemple : avec d. d. l. = 3, pour K 3; = 0,584 la probabilit est = 0,90


(daprs Fisher et Yates, Statistical tables for biological, agricultural, and medical research (Oliver
and Boyd, Edinburgh) avec laimable autorisation des auteurs et des diteurs)

2013 - 2014

Biostatistique - Carrat, Mallet, Morice

177/179

Tables statistiques

A.5 TABLE DU COEFFICIENT DE


CORRELATION
La table indique la probabilit pour que
le coefficient de corrlation gale ou
dpasse, en valeur absolue, une valeur
donne r , cest--dire la probabilit extrieure lintervalle (- r , + r ), en fonction du nombre de degrs de libert (d. d.
l.)

ddl \
1
2
3
4
5
6
7
8
9
10

0,10
0,9877
0,9000
0,8054
0,7293
0,6694
0,6215
0,5822
0,5494
0,5214
0,4973

0,05
0,9969
0,9500
0,8783
0,8114
0,7545
0,7067
0,6664
0,6319
0,6021
0,5760

0,02
0,9995
0,9800
0,9343
0,8822
0,8329
0,7887
0,7498
0,7155
0,6851
0,6581

0,01
0,9999
0,9900
0,9587
0,9172
0,8745
0,8343
0,7977
0,7646
0,7348
0,7079

11
12
13
14
15
16
17
18
19
20

0,4762
0,4575
0,4409
0,4259
0,4124
0,4000
0,3887
0,3783
0,3687
0,3598

0,5529
0,5324
0,5139
0,4973
0,4821
0,4683
0,4555
0,4438
0,4329
0,4227

0,6339
0,6120
0,5923
0,5742
0,5577
0,5425
0,5285
0,5155
0,5034
0,4921

0,6835
0,6614
0,6411
0,6226
0,6055
0,5897
0,5751
0,5614
0,5487
0,5368

25
30
35
40
45
50
60
70
80
90
100

0,3233
0,2960
0,2746
0,2573
0,2428
0,2306
0,2108
0,1954
0,1829
0,1726
0,1638

0,3809
0,3494
0,3246
0,3044
0,2875
0,2732
0,2500
0,2319
0,2172
0,2050
0,1946

0,4451
0,4093
0,3810
0,3578
0,3384
0,3218
0,2948
0,2737
0,2565
0,2422
0,2301

0,4869
0,4487
0,4182
0,3932
0,3721
0,3541
0,3248
0,3017
0,2830
0,2673
0,2540

Exemple : avec d. d. l. = 30, pour r = 0,3494 la probabilit est = 0,05


(daprs Fisher et Yates, Statistical tables for biological, agricultural, and medical research (Oliver
and Boyd, Edinburgh) avec laimable autorisation des auteurs et des diteurs)

178/179

Biostatistique - Carrat, Mallet, Morice

2013 - 2014

Tables statistiques

A.6 TABLE DU t DE STUDENT

0,90

0,50

0,30

0,20

0,10

0,05

0,02

0,01

0,001

1
2
3
4
5
6
7
8
9
10

0,158
0,142
0,137
0,134
0,132
0,131
0,130
0,130
0,129
0,129

1,000
0,816
0,765
0,741
0,727
0,718
0,711
0,706
0,703
0,700

1,963
1,386
1,250
1,190
1,156
1,134
1,119
1,108
1,100
1,093

3,078
1,886
1,638
1,533
1,476
1,440
1,415
1,397
1,383
1,372

6,314
2,920
2,353
2,132
2,015
1,943
1,895
1,860
1,833
1,812

12,706
4,303
3,182
2,776
2,571
2,447
2,365
2,306
2,262
2,228

31,821
6,965
4,541
3,747
3,365
3,143
2,998
2,896
2,821
2,764

63,657
9,925
5,841
4,604
4,032
3,707
3,499
3,355
3,250
3,169

636,619
31,598
12,924
8,610
6,869
5,959
5,408
5,041
4,781
4,587

11
12
13
14
15
16
17
18
19
20

0,129
0,128
0,128
0,128
0,128
0,128
0,128
0,127
0,127
0,127

0,697
0,695
0,694
0,692
0,691
0,690
0,689
0,688
0,688
0,687

1,088
1,083
1,079
1,076
1,074
1,071
1,069
1,067
1,066
1,064

1,363
1,356
1,350
1,345
1,341
1,337
1,333
1,330
1,328
1,325

1,796
1,782
1,771
1,761
1,753
1,746
1,740
1,734
1,729
1,725

2,201
2,179
2,160
2,145
2,131
2,120
2,110
2,101
2,093
2,086

2,718
2,681
2,650
2,624
2,602
2,583
2,567
2,552
2,539
2,528

3,106
3,055
3,012
2,977
2,947
2,921
2,898
2,878
2,861
2,845

4,437
4,318
4,221
4,140
4,073
4,015
3,965
3,922
3,883
3,850

21
22
23
24
25
26
27
28
29
30

0,127
0,127
0,127
0,127
0,127
0,127
0,127
0,127
0,127
0,127

0,686
0,686
0,685
0,685
0,684
0,684
0,684
0,683
0,683
0,683

1,063
1,061
1,060
1,059
1,058
1,058
1,057
1,056
1,055
1,055

1,323
1,321
1,319
1,318
1,316
1,315
1,314
1,313
1,311
1,310

1,721
1,717
1,714
1,711
1,708
1,706
1,703
1,701
1,699
1,697

2,080
2,074
2,069
2,064
2,060
2,056
2,052
2,048
2,045
2,042

2,518
2,508
2,500
2,492
2,485
2,479
2,473
2,467
2,462
2,457

2,831
2,819
2,807
2,797
2,787
2,779
2,771
2,763
2,756
2,750

3,819
3,792
3,767
3,745
3,725
3,707
3,690
3,674
3,659
3,646

0,126

0,674

1,036

1,282

1,645

1,960

2,326

2,576

3,291

ddl

Exemple : avec d. d. l. = 10, pour t = 2,228, la probabilit est = 0,05


(daprs Fisher et Yates, Statistical tables for biological, agricultural, and medical research (Oliver
and Boyd, Edinburgh) avec laimable autorisation des auteurs et des diteurs)

2013 - 2014

Biostatistique - Carrat, Mallet, Morice

179/179

Vous aimerez peut-être aussi