Vous êtes sur la page 1sur 131

Universit PARIS-VI Pierre et Marie Curie

Facult de Mdecine Piti-Salptrire


Statistiques
PCEM1
2001 - 2002
J.F. BOISVIEUX
J.L. GOLMARD
A. MALLET
V. MORICE
Mise jour : 15 janvier 2002
Relecture : V. Morice et S. Tezenas
Sommaire
2001 - 2002 Biostatistiques - Boisvieux, Golmard, Mallet & Morice 3/159
Sommaire
3 Sommaire
9 1 La variabilit et lincertain
10 2 La dcision dans lincertain
11 Chapitre 1 : Statistique(s) et Probabilit(s)
11 1.1 Statistique
11 1.2 Population et chantillon
12 1.3 Statistique et probabilit
15 Chapitre 2 : Rappels mathmatiques
15 2.1 Ensembles, Elments
15 2.2 Oprations sur les ensembles, diagrammes de Venn
17 2.3 Ensembles finis, dnombrables, non dnombrables
17 2.4 Ensembles produits
18 2.5 Familles densembles
18 2.6 Autres rappels mathmatiques
18 2.6.1 Rappel sur les sommes
19 2.6.2 Rappel sur les intgrales
21 Chapitre 3 : Elments de calcul des Probabilits
21 3.1 Introduction
21 3.2 Ensemble fondamental et vnements
22 3.3 Oprations sur les vnements
23 3.4 Rgles du calcul des probabilits
24 3.5 Remarque
25 3.6 Illustration de quelques ensembles probabiliss
25 3.6.1 Ensemble probabilis fini
25 3.6.2 Ensemble fini quiprobable
26 3.6.3 Ensembles probabiliss infinis
26 3.6.3.1 Cas dnombrable
27 3.6.3.2 Cas dun ensemble probabilis infini non dnombrable
29 Chapitre 4 : Probabilit Conditionnelle ; Indpendance et Thorme
de Bayes
29 4.1 Probabilit conditionnelle
Sommaire
4/159 Biostatistiques - Boisvieux, Golmard, Mallet & Morice 2001 - 2002
30 4.2 Thorme de la multiplication
31 4.3 Diagramme en arbre
32 4.4 Thorme de Bayes
34 4.5 Indpendance entre vnements
34 4.6 Indpendance, inclusion et exclusion de deux vnements
37 Chapitre 5 : Variables alatoires
37 5.1 Dfinition dune variable alatoire
38 5.2 Variables alatoires finies
38 5.2.1 Reprsentation dune loi de probabilit finie
38 5.2.2 Esprance mathmatique dune loi finie
41 5.2.3 Variance et cart-type
41 5.2.4 Loi de probabilit produit
43 5.2.5 Variables alatoires indpendantes
43 5.2.6 Fonction de rpartition
43 5.3 Variables infinies dnombrables
44 5.4 Variables alatoires continues
47 Chapitre 6 : Exemples de distributions
47 6.1 Lois discrtes
47 6.1.1 Loi de Bernoulli
47 6.1.2 Loi binomiale
50 6.2 Lois continues
50 6.2.1 Loi normale
50 6.2.1.1 Dfinition
50 6.2.1.2 Proprits
53 6.2.2 Loi du 2 (chi-2)
53 6.2.2.1 Dfinition
54 6.2.2.2 Proprits
54 6.2.3 Loi de Student
55 6.2.4 Loi exponentielle
57 Chapitre 7 : Statistiques descriptives
57 7.1 Rappels et complments
58 7.2 Reprsentation complte dune srie dexpriences
58 7.2.1 Cas dune variable qualitative
59 7.2.2 Cas dune variable quantitative discrte
60 7.2.3 Cas dune variable quantitative continue. Notion dHISTOGRAMME
61 7.3 Reprsentation simplifie dune srie dexpriences
61 7.3.1 Indicateurs de localisation des valeurs
61 7.3.2 Indicateurs de dispersion des valeurs
62 7.4 Reformulation de la moyenne et de la variance exprimentales
Sommaire
2001 - 2002 Biostatistiques - Boisvieux, Golmard, Mallet & Morice 5/159
62 7.4.1 Reformulation de la moyenne exprimentale
63 7.4.2 Reformulation de la variance exprimentale
63 7.5 Cas particulier dune variable deux modalits - Proportion
64 7.5.1 Expression de la moyenne vraie de X
64 7.5.2 Expression de la variance vraie de X
64 7.5.3 Interprtation de la moyenne exprimentale
65 7.6 Conclusion : la variable alatoire moyenne exprimentale
66 Rsum du chapitre
67 Chapitre 8 : Fluctuations de la moyenne exprimentale : la variable
alatoire moyenne exprimentale
67 8.1 Premire proprit de la moyenne exprimentale
67 8.1.1 Un exemple
68 8.1.2 Gnralisation
69 8.2 Seconde proprit de la moyenne exprimentale : le thorme central limite
70 8.3 Etude de la distribution normale (rappel)
72 8.4 Application du thorme central limite. Intervalle de Pari (I. P.)
72 8.4.1 Dfinition de lintervalle de pari (I. P.) dune moyenne exprimentale
74 8.4.2 Les facteurs de dpendance de la longueur de lintervalle de pari (IP)
75 8.4.3 Lintervalle de pari dune variable alatoire
76 Rsum du chapitre
77 Chapitre 9 : Le premier problme dinduction statistique : les tests
dhypothses. Principes
77 9.1 Un exemple concret (emprunt Schwartz)
80 9.2 Principe gnral des tests dhypothses
80 9.2.1 Les tapes de mises en uvre
82 9.2.2 Justification de la rgle de dcision. Choix de
82 9.2.2.1 Interprtation de
82 9.2.2.2 Effet dun changement de valeur de
83 9.2.3 Justification des conclusions du test. Puissance dun test
86 9.2.4 Amlioration de linterprtation du rejet de H0
86 9.2.4.1 Notion de degr de signification
87 9.2.4.2 Orientation du rejet
89 Rsum du chapitre
91 Chapitre 10 : Quelques tests usuels
91 10.1 Test dgalit dune proportion vraie une valeur donne (ou test de
comparaison dune proportion observe une valeur donne)
91 10.1.1 Mise en place du test
92 10.1.2 Autre interprtation du paramtre zc
Sommaire
6/159 Biostatistiques - Boisvieux, Golmard, Mallet & Morice 2001 - 2002
93 10.2 Test dgalit dune moyenne vraie une valeur donne (ou test de
comparaison dune moyenne observe une valeur donne)
93 10.2.1 Cas des grands chantillons
94 10.2.2 Cas des petits chantillons (n < 30)
95 10.3 Test dgalit de deux proportions vraies (ou test de comparaison de deux
proportions observes)
97 10.4 Test dgalit de deux moyennes vraies (ou test de comparaison de deux
moyennes observes)
97 10.4.1 Cas des grands chantillons (nA et nB 30)
98 10.4.2 Cas des petits chantillons (nA ou nB < 30)
99 10.5 Test de comparaison de deux moyennes. Cas des sries apparies
101 Rsum du chapitre
103 Chapitre 11 : Tests concernant des variables qualitatives
103 11.1 Comparaison dune rpartition observe une rpartition donne ou test du 2
dajustement
104 11.1.1 Les tapes de mise en uvre
107 11.1.2 Cas particulier : variable deux modalits
109 11.2 Comparaison de deux rpartitions observes ou test du 2 dhomognit
112 11.3 Test dindpendance entre deux variables qualitatives
116 Rsum du chapitre
117 Chapitre 12 : Liaison entre deux variables continues : notion de
corrlation
117 12.1 Introduction
118 12.2 Abord du problme
120 12.3 Un indicateur de covariation : le coefficient de corrlation
124 12.4 Le coefficient de corrlation vrai
125 12.5 Mise lpreuve de la nullit du coefficient de corrlation vrai
126 Rsum du chapitre
127 Chapitre 13 : A propos des tests dhypothses
127 13.1 Rappels et prcisions
129 13.2 Jugement dinterprtation - La causalit
131 Chapitre 14 : Le second problme dinduction statistique :
lestimation - Intervalle de confiance
131 14.1 Introduction
132 14.2 Estimation ponctuelle
132 14.2.1 Dfinition
Sommaire
2001 - 2002 Biostatistiques - Boisvieux, Golmard, Mallet & Morice 7/159
132 14.2.2 Proprits
132 14.2.2.1 Biais
133 14.2.2.2 Variance
133 14.2.2.3 Erreur quadratique moyenne
133 14.2.3 Exemple
134 14.3 Intervalle de confiance
134 14.3.1 Exemple dune proportion
136 14.3.2 Intervalle de confiance approch dune proportion vraie
137 14.3.3 Intervalle de confiance approch dune moyenne vraie (variable continue)
137 14.3.4 Applications
138 14.3.4.1 Prcision dun sondage
138 14.3.4.2 Prcision dune moyenne
141 Chapitre 15 : Evaluation de lintrt diagnostique des informations
mdicales
141 15.1 Introduction
141 15.1.1 Le diagnostic
142 15.1.2 Les informations mdicales
142 15.1.3 Situation exprimentale et estimation
143 15.2 Les paramtres de lvaluation
143 15.2.1 Un chantillon reprsentatif
143 15.2.1.1 Les donnes
143 15.2.1.2 Le couple sensibilit-spcificit
145 15.2.1.3 Les valeurs prdictives
145 15.2.1.4 Comparaison des deux couples de paramtres
146 15.2.2 Deux chantillons reprsentatifs
147 Chapitre 16 : Notion daide la dcision
147 16.1 Introduction
147 16.2 Notion dutilit
148 16.3 Arbres de dcision
148 16.3.1 Structure dun arbre de dcision
148 16.3.1.1 Les sommets
148 16.3.1.2 Les arcs
149 16.3.1.3 Les utilits
150 16.3.1.4 Les probabilits
150 16.3.2 valuation des arbres de dcision
151 16.3.3 Intrts et limites
153 Annexe A : Tables statistiques
154 A.1 TABLE DE LA VARIABLE NORMALE REDUITE u
155 A.2 TABLE DU t DE STUDENT
Sommaire
8/159 Biostatistiques - Boisvieux, Golmard, Mallet & Morice 2001 - 2002
156 A.3 TABLE DE 2
157 A.4 TABLE DU COEFFICIENT DE CORRELATION
159 Quelques rfrences de livres couvrant le programme de biostatistiques
de P1
Introduction
2001 - 2002 Biostatistiques - Boisvieux, Golmard, Mallet & Morice 9/159
Introduction
Les statistiques constituent, en mdecine, loutil permettant de rpondre de nombreuses ques-
tions qui se posent en permanence au mdecin :
1. Quelle est la valeur normale dune grandeur biologique, taille, poids, glycmie ?
2. Quelle est la fiabilit dun examen complmentaire ?
3. Quel est le risque de complication dun tat pathologique, et quel est le risque dun
traitement ?
4. Le traitement A est-il plus efficace que le traitement B ?
1 La variabilit et lincertain
Toutes ces questions, proprement mdicales, refltent une proprit fondamentale des systmes
biologiques qui est leur variabilit. Cette variabilit est la somme dune variabilit exprimentale
(lie au protocole de mesure) et dune variabilit proprement biologique. On peut ainsi dcomposer
la variabilit dune grandeur mesure en deux grandes composantes :
variabilit totale = variabilit biologique + variabilit mtrologique
La variabilit biologique peut tre elle-mme dcompose en deux termes : dune part la va-
riabilit intra-individuelle, qui fait que la mme grandeur mesure chez un sujet donn peut
tre soumise des variations alatoires ; et dautre part la variabilit inter-individuelle qui fait
que cette mme grandeur varie dun individu lautre.
variabilit biologique = variabilit intra-individuelle + variabilit inter-individuelle
La variabilit intra-individuelle peut tre observe lors de la mesure de la performance dun
athlte qui nest pas capable des mmes performances chaque essai, mais qui se diffrencie
des autres athltes (variabilit inter-individuelle). En gnral, la variabilit intra est moindre
que la variabilit inter.
La variabilit mtrologique peut tre elle aussi dcompose en deux termes : dune part les
conditions exprimentales dont les variations entranent un facteur dalas ; et dautre part les
erreurs induites par lappareil de mesure utilis.
variabilit mtrologique = variabilit exprimentale + variabilit appareil de mesure
La mesure de la pression artrielle peut grandement varier sur un individu donn suivant les
conditions de cette mesure ; il est ainsi recommand de la mesurer aprs un repos dau moins
15 minutes, allong, en mettant le patient dans des conditions de calme maximal. Cette recom-
mandation vise minimiser la variabilit due aux conditions exprimentales. La prcision de
lappareil de mesure est une donne intrinsque de lappareil, et est donne par le construc-
teur.
Introduction
10/159 Biostatistiques - Boisvieux, Golmard, Mallet & Morice 2001 - 2002
2 La dcision dans lincertain
Pour prendre une dcision diagnostique ou thrapeutique le mdecin doit avoir des lments lui
permettant de prendre en compte cette variabilit naturelle, pour distinguer ce qui est normal de ce
qui est pathologique (dcision propos dun patient) et pour valuer la qualit dun nouvel examen,
ou dune nouvelle thrapeutique (dcision thrapeutique). La comprhension des mthodes statis-
tiques, de leur puissance et de leurs limites, est essentielle pour un mdecin de nos jours. Tout r-
sultat de recherche mdicale rsulte dune exprimentation (clinique ou biologique) qui sappuie
sur une mthodologie statistique rigoureuse, et dont les rsultats sont analyss en termes statisti-
ques.
De mme la dmarche statistique permet dvaluer les risques (ou les bnfices) dune prescrip-
tion, de dterminer dans une situation donne lexamen qui apportera la meilleure information dia-
gnostique.
Nous voyons donc limportance de la matrise de loutil et de la dmarche statistique :
Pour permettre les progrs de la connaissance mdicale : cest le domaine de la recherche cli-
nique qui ne peut saccomplir convenablement (dfinition de la question, mise en place du
protocole exprimental, analyse des rsultats) quen suivant une mthodologie statistique ri-
goureuse.
Pour mieux connatre ltat de sant dune population, la frquence et la gravit dune pid-
mie (penser au SIDA), etc. Cette connaissance se fera partir dchantillons convenablement
choisis et de calculs bass sur les outils de la statistique. Il sera alors possible de rechercher
les stratgies de prvention les mieux adaptes, den valuer leur impact. Il sagit l des ap-
plications relevant de lpidmiologie et de la sant publique.
Pour amliorer la pratique mdicale dans ses aspects dcisionnels, savoir choisir le meilleur
examen (clinique ou para-clinique) pour aboutir le plus rapidement et le plus srement au dia-
gnostic. Pour optimiser la thrapeutique, choisir le traitement le mieux adapt un patient
donn (choix du mdicament, posologie, etc).
Lobjectif de ce cours est de vous fournir les bases indispensables permettant de comprendre les
mthodes utilises, dinterprter correctement les rsultats de nouvelles recherches, et dadopter un
mode de raisonnement qui soit mme doptimiser la dcision dans lexercice de la mdecine.
Plus prcisment nous tudierons successivement :
1. Les bases de calcul de probabilits, qui sont indispensables la comprhension et lutilisa-
tion des mthodes statistiques.
2. La statistique descriptive qui permet de reprsenter et de quantifier la variabilit dune ou plu-
sieurs grandeurs observes.
3. La statistique inductive qui inclura les tests statistiques permettant de retenir une hypothse
A plutt quune hypothse B partir de donnes exprimentales (comme dans le cas de la
comparaison de deux traitements, o lhypothse A est que les deux traitements sont quiva-
lents et lhypothse B est quils sont diffrents).
4. Les applications des mthodes statistiques lpidmiologie, laide la dcision thrapeu-
tique et diagnostique, et les applications aux essais thrapeutiques.
Statistique(s) et Probabilit(s)
2001 - 2002 Biostatistiques - Boisvieux, Golmard, Mallet & Morice 11/159
Chapitre 1
Statistique(s) et Probabilit(s)
Nous commencerons par dfinir les termes et les concepts importants.
1.1 Statistique
Le terme statistique dsigne la fois un ensemble de donnes dobservations, et lactivit qui con-
siste en leur recueil, leur traitement et leur interprtation. Les termes statistique, ou statistiques
(au pluriel) englobent ainsi plusieurs notions distinctes :
1. Dune part le recensement de grandeurs dintrt comme le nombre dhabitants dun pays, le
revenu moyen par habitant, le nombre de sropositifs dans la population franaise. Nous
voyons que la notion fondamentale qui se dgage de cette numration est celle de
Population. Une population est un ensemble dobjets, dtres vivants ou dobjets abstraits
(ensemble des mains de 5 cartes distribues au bridge...) de mme nature.
2. La statistique en tant que science sintresse aux proprits des populations naturelles. Plus
prcisment elle traite de nombres obtenus en comptant ou en mesurant les proprits dune
population. Cette population dobjets doit en outre tre soumise une variabilit, qui est due
de trs nombreux facteurs inconnus (pour les populations dobjets biologiques qui nous in-
tressent ces facteurs sont les facteurs gntiques et les facteurs environnementaux).
3. A ces deux acceptions du terme statistiques (au pluriel) il faut ajouter le terme statistique (au
singulier) qui dfinit toute grandeur calcule partir dobservations. Ce peut tre la plus gran-
de valeur de la srie statistique dintrt, la diffrence entre la plus grande et la plus petite, la
valeur de la moyenne arithmtique de ces valeurs, etc.
1.2 Population et chantillon
On appelle population P un ensemble gnralement trs grand, voire infini, dindividus ou dobjets
de mme nature. Tous les mdecins de France constituent une population, de mme que lensemble
des rsultats possibles du tirage du loto. Une population peut donc tre relle ou fictive.
Il est le plus souvent impossible, ou trop coteux, dtudier lensemble des individus constituant
une population ; on travaille alors sur une partie de la population que lon appelle chantillon. Cet
chantillon, sil est convenablement slectionn, permettra ltude de la variabilit des caractris-
Statistique(s) et Probabilit(s)
12/159 Biostatistiques - Boisvieux, Golmard, Mallet & Morice 2001 - 2002
tiques dintrt de la population. On dira quon a extrait un chantillon reprsentatif. Si par exem-
ple on souhaite dterminer les caractristiques moyennes du poids et de la taille des prmaturs
masculins on tirera au hasard
1
un certain nombre de sujets parmi les naissances de prmaturs de
lanne.
Chaque individu, ou unit statistique, appartenant une population est dcrit par un ensemble de
caractristiques appeles variables ou caractres. Ces variables peuvent tre quantitatives (num-
riques) ou qualitatives (non numriques) :
quantitatives
pouvant tre classes en variables continues (taille, poids) ou discrtes (nombre denfants
dans une famille)
qualitatives
pouvant tre classes en variables catgorielles (couleurs des yeux) ou ordinales (intensit
dune douleur classe en nulle, faible, moyenne, importante).
1.3 Statistique et probabilit
La thorie (ou le calcul) des probabilits est une branche des mathmatiques qui permet de mod-
liser les phnomnes o le hasard intervient (initialement dveloppe propos des jeux de hasard,
puis progressivement tendue lensemble des sciences exprimentales, dont la physique et la bio-
logie).
Cette thorie permet de construire des modles de ces phnomnes et permet le calcul : cest par-
tir dun modle probabiliste dun jeu de hasard comme le jeu de ds que lon peut prdire les fr-
quences dapparition dvnements comme le nombre de fois que lon obtient une valeur paire en
jetant un d un grand nombre de fois. Les lments de calcul des probabilits indispensables la
comprhension des statistiques seront traits dans la premire partie du cours.
Sous jacente la notion de statistiques se trouve la notion de Population dont on souhaite connatre
les proprits (plus prcisment les rgularits), permettant en particulier de savoir si deux popu-
lations sont identiques ou non. Ce cas est celui du cadre des essais thrapeutiques, o lon considre
2 populations (patients traits avec le mdicament A ou avec le mdicament B) dont on souhaite
savoir si elles diffrent ou non (cest le cas le plus simple des essais cliniques). Pour ce faire il est
ncessaire de modliser les populations, en utilisant des modles probabilistes. Un modle de ce
type est par exemple de considrer que la taille des individus suit une distribution gaussienne. A
partir de ce modle on peut calculer les proprits dchantillons ; cest ce quon appelle une d-
duction qui va du modle vers lexprience. A linverse considrant un chantillon dune popula-
tion on peut essayer de reconstruire le modle de la population.
Cette dmarche est calque sur la dmarche scientifique habituelle. Le scientifique est capable, en
utilisant les mathmatiques, de prdire le comportement dun modle donn (cest par exemple une
loi de la physique) : cest la dmarche dductive. A linverse, observant des faits exprimen-
1. Nous reviendrons sur cette mthode permettant dobtenir un chantillon reprsentatif de la population
tudie. Cela consiste en gros slectionner les individus sur la base dun tirage analogue celui qui con-
siste tirer des noms dans une urne qui contiendrait tous les noms possibles.
Statistique(s) et Probabilit(s)
2001 - 2002 Biostatistiques - Boisvieux, Golmard, Mallet & Morice 13/159
taux il va tenter de dgager des proprits gnrales du phnomne observ quil va en gnral re-
prsenter sous forme dun modle (toutes les lois de la physique et de la chimie sont des modles
mathmatiques les plus gnraux possibles des faits exprimentaux) : cest la construction induc-
tive de la thorie. Cette dmarche gnrale va plus loin car le modle permet de prdire des exp-
riences non ralises. Si les prdictions ainsi ralises sont contradictoires avec les rsultats
exprimentaux alors on pourra avec certitude rfuter le modle (on dit aussi quon la falsifi) ;
dans le cas contraire on garde le modle mais on nest pas certain quil soit vrai . Autrement dit,
lissue dun tel test on ne peut avoir de certitude que si on a trouv des lments permettant de
rfuter le modle. Nous verrons dans la suite que cette approche se transpose exactement dans la
dmarche statistique, en particulier dans le domaine des tests.
Rappels mathmatiques
2001 - 2002 Biostatistiques - Boisvieux, Golmard, Mallet & Morice 15/159
Chapitre 2
Rappels mathmatiques
2.1 Ensembles, Elments
On appelle ensemble, toute liste ou collection dobjets bien dfinis, explicitement ou
implicitement ; on appelle lments ou membres de lensemble les objets appartenant lensemble
et on note :
si p est un lment de lensemble A
B est partie de A, ou sous ensemble de A, et lon note ou , si
On dfinit un ensemble soit en listant ses lments, soit en donnant la dfinition de ses lments :
A = {1, 2, 3}
X = {x : x est un entier positif}
Notations :
la ngation de est
est lensemble vide
S est lensemble universel.
2.2 Oprations sur les ensembles,
diagrammes de Venn
Soient A et B deux ensembles quelconques.
Intersection
Lintersection de A et B, note , est lensemble des lments x tels que et
. Soit :
= { x : et }
Le terme et est employ au sens si x appartient la fois A et B
p A
B A A B x B x A
x A x A
A B x A
x B
A B x A x B
x A et B
Rappels mathmatiques
16/159 Biostatistiques - Boisvieux, Golmard, Mallet & Morice 2001 - 2002
Cas particulier : si , on dit que A et B sont disjoints.
Runion
La runion de A et B, note , est lensemble des lments x tels que ou
. Soit :
= { x : ou }
Le terme ou est employ au sens si x appartient A, ou B, ou A et B
(car signifie et ).
Complmentaire
Le complmentaire de A est lensemble des lments qui nappartiennent pas A.
Diffrence
La diffrence entre A et B, ou complmentaire de B relatif A, est lensemble des lments
de A qui nappartiennent pas B.
A B
A
B
S
A B =
A B x A
x B
A B x A x B
x A ou B
x A et B x A x B
S
B
A B
A
CA x : x A =
A
S
CA
A B C =
A
B x : x B et x A =
S
A
B
C B
A
Rappels mathmatiques
2001 - 2002 Biostatistiques - Boisvieux, Golmard, Mallet & Morice 17/159
Algbre des ensembles
2.3 Ensembles finis, dnombrables, non
dnombrables
Un ensemble est fini sil est vide () ou sil contient un nombre fini dlments ; sinon, il est
infini :
A = {a
1
, a
2
, a
3
} est fini ;
I = { } est infini.
Un ensemble infini est dit dnombrable si on peut faire correspondre de faon unique chaque
lment de lensemble un entier naturel et un seul :
A = {n : n est un entier pair} est infini dnombrable.
Un ensemble infini est non dnombrable dans le cas contraire. Dans la pratique, les seuls en-
sembles infinis non dnombrables que nous rencontrerons seront des intervalles de :
{ } ou des intervalles de
2
: { }.
2.4 Ensembles produits
Soient A et B deux ensembles ; lensemble produit de A et de B, not , est lensemble de tous
les couples ordonns (a, b), avec et .
Exemples :
,
A A A = A A A =
A ( B) C A B C ( ) = A ( B) C A B C ( ) =
A B B A = A B B A =
A B C ( ) A B ( ) A C ( ) = A B C ( ) A B ( ) A C ( ) =
A A = A S A =
A S S = A =
A CA S = A CA =
CCA A = CS = C S =
C A B ( ) CA CB = C A B ( ) CA CB =
x 0 1 [ , ]
x a b [ , ] x y , ( ) : x a b [ , ] y c d [ , ] ,
A B
a A b B
Rappels mathmatiques
18/159 Biostatistiques - Boisvieux, Golmard, Mallet & Morice 2001 - 2002
A = {a, b, c} ; B = {1, 2}
= { (a, 1), (a, 2), (b, 1), (b, 2), (c, 1), (c, 2) }
est le plan cartsien, chaque lment de tant dfini par son abscisse et son
ordonne :
2.5 Familles densembles
Les lments dun ensemble peuvent eux-mmes tre des ensembles. On dit alors que ces ensem-
bles font partie de la mme classe ou de la mme famille.
Parties
Soit un ensemble A quelconque. On appelle famille des parties de A lensemble des sous-
ensembles de A.
Exemple : A = {1, 2}
Partition
Une partition dun ensemble A est une subdivision de A en sous-ensembles disjoints dont
la runion forme A.
Notation
Soit une famille densembles {A
i
} = {A
1
, A
2
, ...., A
n
, ....} qui peut tre finie ou non. On
note :
2.6 Autres rappels mathmatiques
2.6.1 Rappel sur les sommes
Soit {a
i
} une suite de termes a
i
. On note .
Proprits :
A B

(a,b)
b
a

P A ( ) 1 2 1 2 { , } , , { , } =
A
i
i

A
1
A
2
... A
n
... =
A
i
i

A
1
A
2
... A
n
... =
a
i
i 1 =
n

a
1
a
2
... a
n
+ + + =
Rappels mathmatiques
2001 - 2002 Biostatistiques - Boisvieux, Golmard, Mallet & Morice 19/159
1.
2.
Si k est une constante (indpendante de i), elle peut tre sortie de la somme.
2.6.2 Rappel sur les intgrales
Dfinition
Soit f une fonction relle. Lintgrale dfinie de cette fonction sur lintervalle [a,b] est
laire sous la courbe de f sur lintervalle [a,b].
Elle est note .
Proprits
1.
2.
3.
Fonction primitive
Soit f une fonction relle. Laire sous la courbe sur lintervalle varie lorsquon fait
varier x de - +. Cette aire est une fonction F de x, appele fonction primitive de f. Elle
est dfinie par :
Noter lutilisation de la variable dintgration . On peut utiliser nimporte quel nom de va-
riable (il sagit dune variable muette), diffrent de la borne dintgration x.
Proprits
1. Si , alors
Donc F se dduit de f par intgration, et f se dduit de F par drivation.
2.
a
i
b
i
+ ( )
i

a
i
i

b
i
i

+ =
ka
i
( )
i

k a
i
i

=
f x ( ) x d
a
b

f x ( ) x d
a
b

x
f x ( )
a b
f x ( ) g x ( ) + ( ) x d
a
b

f x ( ) x d
a
b

g x ( ) x d
a
b

+ =
kf x ( ) x d
a
b

k f x ( ) x d
a
b

=
f x ( ) x d
a
b

f x ( ) x d
a
c

f x ( ) x d
c
b

+ =
]- x] ,
F x ( ) f ( ) d

x

=
F x ( ) f ( ) d

x

= f x ( )
dF x ( )
dx
-------------- =
f x ( ) x d
a
b

F b ( ) F a ( ) =
Rappels mathmatiques
20/159 Biostatistiques - Boisvieux, Golmard, Mallet & Morice 2001 - 2002
Notation
On crit souvent en omettant les bornes dintgration. F x ( ) f x ( ) x d

=
Elments de calcul des Probabilits
2001 - 2002 Biostatistiques - Boisvieux, Golmard, Mallet & Morice 21/159
Chapitre 3
Elments de calcul des
Probabilits
3.1 Introduction
Le calcul des probabilits est une thorie mathmatique, et donc fonde axiomatiquement, qui per-
met de modliser des phnomnes alatoires, ou non dterministes.
De tels phnomnes sont bien reprsents par les jeux de hasard dont ltude a initi le calcul des
probabilits. Considrons le cas du jeu de ds ; lorsquon jette un d on est certain quil va tomber
sur la table (phnomne dterministe), mais on nest pas capable de prdire la valeur qui va sortir
(phnomne alatoire).
Un phnomne dterministe est un phnomne dont on peut prvoir le rsultat ; les lois de la phy-
sique classique sont des modles permettant de prdire le rsultat dune exprience donne. La loi
dOhm permet de prdire la valeur de lintensit du courant connaissant la rsistance et la tension
aux bornes. Les lois de la physique mettent en vidence une rgularit qui permet de prdire les
rsultats dune exprience lorsquon contrle les causes.
Les phnomnes alatoires exhibent un autre type de rgularit. Prenons le cas des lois de Mendel.
Mendel tait un biologiste qui tudiait les rsultats du croisement de deux espces de plantes ; plus
prcisment, il tudiait la transmission de caractres comme la couleur, laspect, etc. Une observa-
tion typique de rgularit dun nouveau type est dobserver que, sur une srie suffisamment grande
de croisements de deux espces A et B, on observait par exemple, dans 1/4 des cas, les caractres
de A, et dans 3/4 des cas, les caractres de B. Une telle rgularit frquentielle a donn lieu ce
quon appelle les lois de Mendel. Cette rgularit permet de prdire la frquence dapparition dun
phnomne, ce qui est plus faible que la prdiction dterministe. Ltude et la modlisation de
tels phnomnes (la recherche de lois) est le champ dapplication du calcul des probabilits.
3.2 Ensemble fondamental et vnements
Ensemble fondamental
Pour une exprience donne, lensemble des rsultats possibles est appel lensemble fon-
Elments de calcul des Probabilits
22/159 Biostatistiques - Boisvieux, Golmard, Mallet & Morice 2001 - 2002
damental, que nous noterons S dans la suite du cours. Chaque rsultat dexprience est un
point de S ou un lment de S.
Evnement
Un vnement A est un sous ensemble de S, cest--dire un ensemble de rsultats.
Lvnement {a}, constitu par un seul point de S, donc par un seul rsultat , est ap-
pel vnement lmentaire.
Lensemble vide ne contient aucun des rsultats possibles : il est appel vnement im-
possible.
Lensemble S contient tous les rsultats possibles : cest lvnement certain.
Si S est fini, ou infini dnombrable, tout sous-ensemble de S est un vnement ; ce nest
pas vrai si S est non dnombrable (ceci sort du cadre de ce cours).
Exemple
On jette un d et on observe le rsultat obtenu. Lensemble fondamental est form par les
6 rsultats possibles :
S = {1, 2, 3, 4, 5, 6}
Lvnement correspondant lapparition dun nombre pair est A = {2, 4, 6}, qui est bien
un sous ensemble de S.
Lvnement correspondant lapparition dun nombre premier est B = {1, 2, 3, 5}, et
lvnement correspondant lapparition dun 3 est C = {3}.
3.3 Oprations sur les vnements
Les vnements peuvent se combiner entre eux pour former de nouveaux vnements. Si A et B
sont deux vnements, les oprations de combinaison sont :
1. est lvnement qui se produit si A ou B (ou les deux) est ralis. Il est parfois not
.
2. est lvnement qui se produit si A et B sont raliss tous les deux. Il est parfois not
.
3. est lvnement qui se produit quand A nest pas ralis. On lappelle aussi ngation de
A. Il est parfois not , ou .
On dit que lensemble des vnements, muni des oprations prcdentes, forme une algbre.
Evnements incompatibles
Quand deux vnements A et B sont tels que , ils ne peuvent tre raliss si-
multanment. On dit quils sexcluent mutuellement, ou quils sont incompatibles.
Systme complet dvnements
On dit que les vnements A
1
, A
2
, ..., A
n
forment une famille complte si les A
i
constituent
une partition de S, cest--dire si :
1. les vnements sont deux deux disjoints :
2. ils couvrent tout lespace :
a S
A B
A B +
A B
A B
CA
non A A
A B =
i j ( ) A
i
A
j
= ( ) ,
A
i
i

S =
Elments de calcul des Probabilits
2001 - 2002 Biostatistiques - Boisvieux, Golmard, Mallet & Morice 23/159
Exemples
1. Reprenons lexemple prcdent du jeu de ds :
S = {1, 2, 3, 4, 5, 6}, A = {2, 4, 6}, B = {1, 2, 3, 5}, C = {3}.
= apparition dun nombre pair ou premier
= apparition dun nombre pair et premier
= apparition dun nombre autre que 3
: A et C sexcluent mutuellement.
2. Dans lexemple prcdent S tait fini et donc dnombrable ; S peut tre infini dnom-
brable comme dans le cas suivant. On jette une pice de monnaie jusqu ce quon ob-
tienne pile ; lensemble fondamental correspondant est la suite des nombres entiers
S = {1, 2, 3, ..., n, ...} puisquon peut avoir un pile au bout dun jet, de 2 jets, de n jets,
n tant aussi grand que lon veut.
3. On vise avec une flchette une cible suffisamment grande ; si on admet que la flchette
est trs fine, comme le serait un point de la gomtrie, lespace fondamental est la sur-
face de la cible qui est constitue de points et donc infinie et non dnombrable.
3.4 Rgles du calcul des probabilits
Soit un ensemble fondamental S. Nous introduisons une fonction P qui, tout vnement A, asso-
cie un nombre rel positif ou nul.
P est dite fonction de probabilit, et P(A) est appele probabilit de lvnement A, si les condi-
tions ou axiomes suivants sont satisfaits :
1. pour tout vnement A : une probabilit est positive ou nulle
2. : la probabilit de lvnement certain est 1
3. : permet le calcul de la probabilit de la ru-
nion de deux vnements disjoints
4. Soit un ensemble dnombrable (fini ou non) dvnements A
i
deux deux disjoints
( ), alors .
Cette quatrime condition est proche de la troisime. Elle ne peut cependant pas sen dduire
dans le cas dun ensemble dvnements infini dnombrable.
Proprits dduites des quatre conditions prcdentes :
1.
Soit A un vnement quelconque. A et sont videmment disjoints puisque ;
donc . Or ; donc . Do
.
2.
A et son complmentaire sont disjoints, et leur runion forme S, de probabilit 1. Donc
. Toute probabilit tant positive ou nulle, on
A B 1 2 3 4 5 6 , , , , , =
A B 2 =
CC 1 2 4 5 6 , , , , =
A C =
P A ( ) 0
P S ( ) 1 =
A B = ( ) P A B ( ) P A ( ) P B ( ) + = ( )
A
i
A
j
= P A
1
A
2
... ( ) P A
1
( ) P A
2
( ) ... + + =
P ( ) 0 =
A =
P A ( ) P A ( ) P ( ) + = A A = P A ( ) P A ( ) =
P ( ) 0 =
P A ( ) 1
CA
P S ( ) 1 P A CA ( ) P A ( ) P CA ( ) + = = =
Elments de calcul des Probabilits
24/159 Biostatistiques - Boisvieux, Golmard, Mallet & Morice 2001 - 2002
obtient bien .
3.
A dmontrer en exercice, en notant que .
4. Si , alors .
A dmontrer en exercice, en notant que .
5.
A dmontrer en exercice, en remarquant que .
6.
A dmontrer en exercice, en remarquant que .
3.5 Remarque
Alors que , il existe des vnements non vides qui peuvent avoir une probabilit nulle.
Dans le cas dun ensemble infini non dnombrable, un tel vnement nest pas ncessairement
impossible : il est alors dit presque impossible .
Exemple
Considrons lexprience qui consiste choisir au hasard un point sur une feuille de papier
quadrill avec une pointe de compas infiniment fine. La probabilit de lvnement piquer
dans un carr donn a une certaine valeur (par exemple celle du rapport de la surface du
P A ( ) 1
P CA ( ) 1 P A ( ) =
S A CA =
A B P A ( ) P B ( )
B A C
B
A =
C
B
A
B
A
C
A
B P A ( ) P A B ( ) =
A C
A
B A B ( ) =
C
A
B
B
A
A B
P A B ( ) P A ( ) P B ( ) P A B ( ) + =
A B ( ) C
A
B B =
C
A
B
B
A
P ( ) 0 =
Elments de calcul des Probabilits
2001 - 2002 Biostatistiques - Boisvieux, Golmard, Mallet & Morice 25/159
carr avec celle de la feuille de papier) ; en revanche, si on rduit le carr un point (carr
infiniment petit) la probabilit deviendra zro alors que lvnement (piquer dans ce carr
si petit quil est devenu un point) nest pas impossible mais a une probabilit nulle.
De mme un vnement de probabilit 1 peut ne pas tre certain. Il est alors qualifi de presque
certain .
3.6 Illustration de quelques ensembles
probabiliss
3.6.1 Ensemble probabilis fini
Soit S = {a
1
, a
2
, ..., a
n
} un ensemble fondamental fini. On probabilise cet ensemble en attribuant
chaque point a
i
un nombre p
i
, probabilit de lvnement lmentaire {a
i
}, tel que :
1.
2.
La probabilit dun vnement quelconque A est la somme des probabilits des a
i
quil contient :
Exemple
On jette 3 pices de monnaie et on compte le nombre de faces obtenues. Lensemble fon-
damental correspondant cette exprience est S = {0, 1, 2, 3} puisquon peut obtenir com-
me rsultat de lexprience : 0 face (3 piles ), 1 face (2 piles ), 2 faces, ou 3 faces.
On probabilise cet ensemble fini en donnant une valeur p
0
, p
1
, p
2
et p
3
aux vnements
{0}, {1}, {2} et {3} ; comme par exemple p
0
= 1/8, p
1
= 3/8, p
2
= 3/8 et p
3
= 1/8.
Considrons lvnement A tel quon ait au moins 2 faces, A = {a
2
, a
3
} :
P(A) = p
2
+ p
3
= 3/8 + 1/8 = 4/8 = 1/2
3.6.2 Ensemble fini quiprobable
Cest un ensemble fini probabilis tel que tous les vnements lmentaires ont la mme probabi-
lit. On dit aussi quil sagit dun espace probabilis uniforme.
S = {a
1
, a
2
, ..., a
n
} et P({a
1
}) = p
1
, P({a
2
}) = p
2
, ..., P({a
n
}) = p
n
avec p
1
= p
2
= ... = p
n
= 1/n
Les jeux de hasard - ds, cartes, loto, etc. - entrent prcisment dans cette catgorie :
jeu de ds : S = {1, 2, 3, 4, 5, 6} ; p
1
= p
2
= p
3
= p
4
= p
5
= p
6
= 1/6
jeu de cartes : S = {ensemble des cartes dun jeu de 52 cartes} ; p
i
= 1/52
p
i
0
p
1
p
2
... p
n
+ + + 1 =
P A ( ) p
i
a
i
A

=
Elments de calcul des Probabilits
26/159 Biostatistiques - Boisvieux, Golmard, Mallet & Morice 2001 - 2002
Proprit
Dans un ensemble fini quiprobable, la probabilit dun vnement A est gale au rapport
du nombre de rsultats tel que A est vrai, sur le nombre dvnements de S.
Remarque
Quand on dit quon tire au hasard , on sous-entend que lensemble probabilis considr
est quiprobable.
Exemple
On tire au hasard une carte dans un jeu de 52 cartes.
Quelle est la probabilit pour tirer un trfle ?
Quelle est la probabilit de tirer un roi ?
Quelle est la probabilit de tirer un roi de trfle ?
.
Remarque
Le cas des ensembles finis quiprobables est le plus simple apprhender. Il faut insister
sur le fait que lquiprobabilit nest quun cas particulier des ensembles probabiliss ; ce
nest (de loin) pas le plus utile en mdecine.
3.6.3 Ensembles probabiliss infinis
3.6.3.1 Cas dnombrable
On a alors un ensemble fondamental de la forme S = {a
1
, a
2
, ..., a
n
, ...} comme dans le cas fini.
Cet ensemble fondamental est probabilis en affectant chaque lment a
i
une valeur relle p
i
telle que :
et .
La probabilit dun vnement quelconque est alors la somme des p
i
correspondant ses l-
ments.
Exemple 1
A = {a
25
, a
31
, a
43
}
P(A) = p
25
+ p
31
+ p
43
Exemple 2
Si on reprend lexprience consistant jeter une pice et compter le nombre de jets jus-
qu ce quon obtienne un rsultat pile (cest un espace infini dnombrable), on peut
P tirer un trfle ( )
nombre de trfles
nombre de cartes
------------------------------------------
13
52
----- -
1
4
--- = = =
P tirer un roi ( )
nombre de rois
nombre de cartes
-----------------------------------------
4
52
----- -
1
13
----- - = = =
1
52
----- -
p
i
0 p
i
i 1 =

1 =
Elments de calcul des Probabilits
2001 - 2002 Biostatistiques - Boisvieux, Golmard, Mallet & Morice 27/159
construire un espace probabilis en choisissant :
Remarque :
Le choix des p
i
est arbitraire ; en ralit, il est justifi soit par des considrations a priori
(dans le cas de lexprience prcdente on suppose que chaque jet constitue une exprien-
ce avec P(pile) = P(face) = 1/2 et que le rsultat dun jet ninflue pas sur le suivant). Il peut
tre aussi estim ; cest le problme des statistiques qui, partir de nombreuses ralisations
de lexprience, permet dapprocher les valeurs p
i
(ce point sera revu dans la suite du cours
et constitue lobjet de lapproche statistique).
3.6.3.2 Cas dun ensemble probabilis infini non dnombrable
Pour illustrer ce cas, on peut prendre lexemple de la chute dun satellite en fin de vie (ce fut le cas,
en octobre 1993 pour un gros satellite chinois dont on parla beaucoup dans la presse). Dans ltat
actuel des connaissances sur lorbite de ce satellite, on nest pas capable de prdire lendroit de la
chute ; lhypothse retenue est alors celle dun espace de probabilit uniforme. Dans ce cas, le sa-
tellite a la mme chance de tomber dans nimporte quelle parcelle du monde et on peut calculer la
probabilit quil tombe sur Paris comme le rapport de la surface de Paris sur la surface du globe.
Lorsquon se rapprochera de lchance, on pourra avoir des hypothses plus prcises, et on pourra
prdire par exemple que le point de chute aura un maximum de probabilit dans une rgion, la pro-
babilit autour de cette rgion tant dautant plus petite quon sloigne de ce maximum.
Il sagit bien sr dun espace infini non dnombrable puisquon peut rduire (au moins par lesprit)
la taille de llment de la rgion considre celle dun point. Des probabilits peuvent donc tre
associes chaque rgion de taille non nulle, mais la probabilit dune chute en un point donn est
nulle, puisque sa surface est nulle. Nous verrons dans la suite que les probabilits se calculent g-
nralement partir dune densit (de probabilit) associe chaque point : lorsque les points dune
rgion ont une densit leve, la probabilit de chute dans cette rgion est leve.
p
1
1
2
--- = p
2
1
4
--- = ... p
n
1
2
n
----- = ... p

0 = , , , , ,
Probabilit Conditionnelle ; Indpendance et Thorme de Bayes
2001 - 2002 Biostatistiques - Boisvieux, Golmard, Mallet & Morice 29/159
Chapitre 4
Probabilit Conditionnelle ;
Indpendance et Thorme de
Bayes
4.1 Probabilit conditionnelle
Soient A et B deux vnements quelconques dun ensemble fondamental S muni dune loi de pro-
babilit P. On sintresse ce que devient la probabilit de A lorsquon apprend que B est dj
ralis, cest--dire lorsquon restreint lensemble des rsultats possibles S B.
La probabilit conditionnelle de A, sachant que lvnement B est ralis, est note P(A/ B) et est
dfinie par la relation suivante :
Equation 1 : probabilit conditionnelle
Figure 1 : probabilit conditionnelle
Cette relation gnrale pour tout espace probabilis sinterprte facilement dans le cas o S est un
espace quiprobable (mais cette relation est vraie pour un espace non-quiprobable !). En notant
le nombre dlments de A :
P A B ( )
P A B ( )
P B ( )
----------------------- =
A B
A B
A
Probabilit Conditionnelle ; Indpendance et Thorme de Bayes
30/159 Biostatistiques - Boisvieux, Golmard, Mallet & Morice 2001 - 2002
P(A/ B) traduit le rapport de la surface de sur la surface de B dans la figure 1.
Toujours dans le cas o S est quiprobable, on a
Cette interprtation de la probabilit conditionnelle, facile apprhender dans le cas dquiproba-
bilit, est la dfinition gnrale de la probabilit conditionnelle quon doit utiliser telle quelle, sans
chercher une interprtation frquentiste dans tous les cas.
Exemple
On jette une paire de ds bien quilibrs (espace quiprobable). On observe une ralisation
de lvnement {somme des ds = 6}. Quelle est la probabilit pour quun des deux ds ait
donn le rsultat 2 ?
B = {somme des deux ds = 6}
A = {au moins un des deux ds donne 2}
B = {(2, 4), (4, 2), (1, 5), (5, 1), (3, 3)}
Nombre de ralisations de = {(2, 4), (4, 2)} = 2
Do , alors que ( vrifier).
4.2 Thorme de la multiplication
Reprenons lquation 1, dfinition des probabilits conditionnelles :
On en tire immdiatement
Equation 2 : thorme de la multiplication
Lquation 2 peut se gnraliser facilement. Soient A
1
, ..., A
n
des vnements quelconques dun
espace probabilis ; partir de lquation 2, on montre :
Exemple
Une bote contient 10 articles dont 4 sont dfectueux. On tire 3 objets de cette bote. Cal-
culer la probabilit pour que ces 3 objets soient dfectueux.
P(1
er
dfectueux) = 4/10
P(2
me
dfectueux / 1
er
dfectueux) = 3/9
P(3
me
dfectueux / 1
er
et 2
me
dfectueux) = 2/8
P(1
er
et 2
me
et 3
me
dfectueux) = 4/103/92/8 = 1/30.
P A B ( )
A B
S
----------------- P B ( )
B
S
------ P A B ( )
A B
B
----------------- = , = , =
A B
P A B ( )
nombre de ralisations possibles de A et B en mme temps
nombre de ralisations de B
--------------------------------------------------------------------------------------------------------------------------------------------- =
A B
P A B ( )
A B
B
-----------------
2
5
--- = = P A ( )
11
36
----- - =
P A B ( )
P A B ( )
P B ( )
----------------------- =
P A B ( ) P A B ( )P B ( ) P B A ( )P A ( ) = =
P A
1
A
2
... A
n
( ) P A
1
( )P A
2
A
1
( )P A
3
A
1
A
2
( ) ( )...P A
n
A
1
A
2
... A
n 1
( ) ( ) =
Probabilit Conditionnelle ; Indpendance et Thorme de Bayes
2001 - 2002 Biostatistiques - Boisvieux, Golmard, Mallet & Morice 31/159
4.3 Diagramme en arbre
On considre une squence finie dexpriences dont chacune dentre elles a un nombre fini de r-
sultats possibles. Les probabilits associes aux rsultats possibles dune exprience dpendent du
rsultat de lexprience prcdente ; il sagit de probabilits conditionnelles. Pour reprsenter cette
squence, on utilise une reprsentation en arbre , le thorme prcdent permettant de calculer
la probabilit de chaque feuille de larbre.
Exemple
On sait que les taux de russite au concours dans les trois CHU Piti, Saint Antoine et
Broussais sont respectivement (donnes arbitraires) de 0,20 ; 0,15 ; et 0,10
(0,20 = P(Russite/Piti)) ; on sait que 1/4 des tudiants de Paris VI sont Saint Antoine,
1/4 Broussais et 1/2 la Piti. Quelle est la probabilit quun tudiant de Paris VI soit reu
au concours ?
R signifie russite et E chec.
P(R) = 0,151/4 + 0,201/2 + 0,101/4
La probabilit quun chemin particulier de larbre se ralise est, daprs le thorme de la
multiplication, le produit des probabilits de chaque branche du chemin.
Les chemins sexcluant mutuellement, la probabilit dtre reu est gale la somme des
probabilits dtre reu pour tout chemin aboutissant un tat R (reu).
Saint Antoine
Piti
Broussais
1/4
1/2
1/4
0,15
0,85
0,20
0,80
0,10
0,90
R
E
R
E
R
E
P R Saint Antoine ( ) 0 15 ,
1
4
--- =
P R Piti ( ) 0 20 ,
1
2
-- - =
P R Broussais ( ) 0 10 ,
1
4
--- =
P R ( ) P R Saint Antoine ( ) P R Piti ( ) P R Broussais ( ) + + =
Probabilit Conditionnelle ; Indpendance et Thorme de Bayes
32/159 Biostatistiques - Boisvieux, Golmard, Mallet & Morice 2001 - 2002
4.4 Thorme de Bayes
En reprenant lquation 2 page 30 de la section 4.2, on obtient le thorme de Bayes :
Equation 3 : thorme de Bayes
Ce thorme existe aussi sous une forme dveloppe que nous introduisons maintenant.
Considrons des vnements A
1
, ..., A
n
tels quils forment une partition de lensemble fondamen-
tal S.
Par dfinition, les Ai sexcluent mutuellement et leur union est S :
Soit B un vnement quelconque
De et de , on tire .
Soit, par distributivit, .
En remarquant que les sont exclusifs, puisque les A
i
le sont, et en appliquant le 3
me
axio-
me du calcul des probabilits on obtient la formule dite des probabilits totales :
Equation 4 : probabilits totales
En appliquant le thorme de la multiplication :
Or, par la forme simple du thorme de Bayes, on a
Do la forme dveloppe du thorme de Bayes :
Equation 5 : formule dveloppe de Bayes
P B A ( )
P A B ( )P B ( )
P A ( )
--------------------------------- =
i j ( ) A
i
A
j
= ( ) ; A
i
i 1 =
n

S = ,
A
1
A
2
A
3
B
S A
1
A
2
... A
n
= B S B = B B A
1
A
2
... A
n
( ) =
B B A
1
( ) B A
2
( ) ... B A
n
( ) =
B A
i

P B ( ) P B A
1
( ) P B A
2
( ) ... P B A
n
( ) + + + =
P B ( ) P B A
1
( )P A
1
( ) P B A
2
( )P A
2
( ) ... P B A
n
( )P A
n
( ) + + + =
P A
i
B ( )
P B A
i
( )P A
i
( )
P B ( )
------------------------------------ =
P A
i
B ( )
P B A
i
( )P A
i
( )
P B A
1
( )P A
1
( ) P B A
2
( )P A
2
( ) ... P B A
n
( )P A
n
( ) + + +
----------------------------------------------------------------------------------------------------------------------------------------- =
Probabilit Conditionnelle ; Indpendance et Thorme de Bayes
2001 - 2002 Biostatistiques - Boisvieux, Golmard, Mallet & Morice 33/159
Exemple 1
Reprenons lexemple des rsultats au concours des tudiants de Paris VI.
Comme prcdemment, soit R lvnement un tudiant de Paris VI est reu . On a, en
notant C
1
, C
2
, C
3
les 3 CHU Saint Antoine, Piti et Broussais respectivement :
P(R) = P(C
1
)P(R/C
1
) + P(C
2
)P(R/C
2
) + P(C
3
)P(R/C
3
)
[noter que cest la mme chose que la somme des probabilits des chemins de larbre, qui
conduisent un succs]
Le thorme de Bayes permet de rpondre la question duale. Au lieu de chercher la pro-
babilit dobtenir un tudiant reu sachant quil vient dun CHU donn, on cherche la pro-
babilit quun tudiant soit inscrit un CHU donn sachant quil est reu (probabilit des
causes).
Calculons la probabilit quun tudiant reu soit issu du CHU Piti-Salptrire.
Avec P(C
1
) = 0,25 ; P(C
2
) = 0,50 ; P(C
3
) = 0,25 ;
et P(R/C
1
) = 0,15 ; P(R/C
2
) = 0,20 ; P(R/C
3
) = 0,10.
Do
Ce qui signifie que, dans ce cas, la probabilit quun tudiant appartienne C
2
, sil est re-
u, est plus grande que si lon ne sait rien (probabilit a priori P(C
2
) = 0,50).
Cette faon de calculer les probabilits des causes connaissant les effets est essentielle en
mdecine. En effet, le problme du diagnostic peut tre pos en ces termes.
Exemple 2
Considrons, pour illustrer notre propos, le problme du diagnostic dune douleur aigu de
labdomen. Il sagit dun patient arrivant aux urgences pour un mal au ventre .
Si lon ne sait rien dautre sur le patient (on na pas fait dexamen clinique ou complmen-
taire), on ne connat que les probabilits davoir tel ou tel diagnostic si on observe une dou-
leur.
Soient D
1
, D
2
et D
3
les 3 diagnostics principaux (il y en a en fait au moins une douzaine)
et exclusifs ; par exemple D
1
= appendicite, D
2
= perforation dulcre, D
3
= autres dia-
gnostics.
Soit un signe s
1
pour lequel on connat P(s
1
/D
1
), P(s
1
/D
2
), et P(s
1
/D
3
).
Par exemple, s
1
serait prsence dune fivre 38,5C ; P(s
1
/D
1
) = 0,90 ; P(s
1
/
D
2
) = 0,30 ; et P(s
1
/D
3
) = 0,10.
Ces probabilits peuvent tre estimes sur une population de patients en dnombrant le
nombre de sujets ayant le diagnostic D
1
et prsentant le signe s
1
. De mme, on peut con-
natre P(D
1
), P(D
2
) et P(D
3
).
Le problme diagnostique se pose comme celui de choisir par exemple le diagnostic le plus
probable connaissant le signe s
1
; pour ce faire, on calcule P(D
1
/s
1
), P(D
2
/s
1
), P(D
3
/s
1
)
et on retient le diagnostic qui a la plus grande probabilit : cest lapplication de lapproche
bayesienne au problme de laide au diagnostic.
P C
2
R ( )
P R C
2
( )P C
2
( )
P R C
1
( )P C
1
( ) P R C
2
( )P C
2
( ) P R C
3
( )P C
3
( ) + +
---------------------------------------------------------------------------------------------------------------------------------- =
P C
2
R ( )
0 20 , 0 50 ,
0 15 , 0 25 , 0 20 , 0 50 , 0 10 , 0 25 , + +
------------------------------------------------------------------------------------------------------- 0 61 , = =
Probabilit Conditionnelle ; Indpendance et Thorme de Bayes
34/159 Biostatistiques - Boisvieux, Golmard, Mallet & Morice 2001 - 2002
4.5 Indpendance entre vnements
On dit que deux vnements A et B sont indpendants si la probabilit pour que A soit ralis nest
pas modifie par le fait que B se soit produit. On traduit cela par P(A / B) = P(A).
Daprs la dfinition dune probabilit conditionnelle, , on tire la
dfinition :
A et B sont indpendants si et seulement si .
La symtrie de cette dfinition implique quon a aussi bien P(A / B) = P(A) (A est indpendant de
B) que P(B / A) = P(B) (B est indpendant de A) : lapparition dun des deux vnements ninflue
pas sur lapparition de lautre.
Note
Ce qui est dfini prcdemment est lindpendance de deux vnements. Si on considre
maintenant 3 vnements A, B, C, on dira que ces 3 vnements sont indpendants :
1. sils sont indpendants 2 2 : A indpendant de B ; A indpendant de C ; et B ind-
pendant de C
2. et si . Cette condition nest pas une consquence
des prcdentes.
4.6 Indpendance, inclusion et exclusion de
deux vnements
Considrons deux vnements A et B.
1. Si (A est inclus dans B) : si A est ralis, alors B aussi.
Alors .
Do et .
A et B ne sont pas indpendants.
P A B ( )
P A B ( )
P B ( )
----------------------- =
P A B ( ) P A ( )P B ( ) =
P A B C ( ) P A ( )P B ( )P C ( ) =
A B
B
A
P A B ( ) P A ( ) =
P B A ( )
P A B ( )
P A ( )
----------------------- 1 = = P A B ( )
P A B ( )
P B ( )
-----------------------
P A ( )
P B ( )
------------ = =
Probabilit Conditionnelle ; Indpendance et Thorme de Bayes
2001 - 2002 Biostatistiques - Boisvieux, Golmard, Mallet & Morice 35/159
2. Si (A et B sont exclusifs) : si A est ralis, B ne peut pas ltre.
Alors .
Do .
De mme A et B ne sont pas indpendants.
A B =
B
A
P A B ( ) P ( ) 0 = =
P A B ( )
P A B ( )
P B ( )
-----------------------
0
P B ( )
------------ 0 = = =
Variables alatoires
2001 - 2002 Biostatistiques - Boisvieux, Golmard, Mallet & Morice 37/159
Chapitre 5
Variables alatoires
5.1 Dfinition dune variable alatoire
Considrons un ensemble fondamental S correspondant une certaine exprience. Les lments de
S, rsultats possibles de lexprience, ne sont gnralement pas des nombres. Il est cependant utile
de faire correspondre un nombre chaque lment de S, en vue de faire ensuite des calculs. Pour
un jet de d, il semble naturel de faire correspondre la face obtenue par le jet, le nombre de points
quelle porte, mais ce nest pas une obligation. Si on jette 2 ds, on sintressera par exemple la
somme des points obtenus. Pour une carte jouer, il faut convenir dune valeur pour chaque carte.
Une variable alatoire X, sur un ensemble fondamental S, est une application de S dans : tout
rsultat possible de lexprience ( tout lment de S), la variable alatoire X fait correspondre un
nombre.
Lorsque S est fini ou infini dnombrable, toute application de S dans est une variable alatoire.
Lorsque S est non dnombrable, il existe certaines applications de S dans qui ne sont pas des
variables alatoires. En effet, la dfinition rigoureuse dune variable alatoire X impose que tout
intervalle de soit limage dun vnement de S par lapplication X. Cette condition est vrifie
pour toute application X si S est fini ou dnombrable, puisque toute partie de S est un vnement.
Ce nest plus vrai si S est non dnombrable. Heureusement, les applications choisies naturellement
sont des variables alatoires.
On parle de variable alatoire discrte lorsque la variable est une application de S dans un sous-
ensemble discret de , le plus souvent N ou une partie de N. On parle sinon de variable alatoire
continue.
Pour un nombre rel a donn, lvnement constitu de tous les rsultats dexprience tels que
X() = a est not [X() = a], ou, en abrg, X = a.
Pour deux nombres rels a et b (a b), lvnement constitu de tous les rsultats dexprience
tels que a X() b est not [a X() b] ou, en abrg, a X b.
Si X et Y sont des variables alatoires dfinies sur le mme ensemble fondamental S, on peut mon-
trer que les fonctions suivantes sont aussi des variables alatoires :
(X + Y)(s) = X(s) + Y(s) (X + k)(s) = X(s) + k
(kX)(s) = kX(s) (XY)(s) = X(s) Y(s)
pour tout lment s de S.
Variables alatoires
38/159 Biostatistiques - Boisvieux, Golmard, Mallet & Morice 2001 - 2002
5.2 Variables alatoires finies
Considrons maintenant le cas le plus simple dune variable alatoire finie, que nous gnralise-
rons dans un second temps une variable alatoire infinie dnombrable, puis continue.
Soit X une variable alatoire sur un ensemble fondamental S valeurs finies :
X(S) = {x
1
, x
2
, ..., x
n
}.
X(S) devient un ensemble probabilis si lon dfinit la probabilit P(X = x
i
) pour chaque x
i
, que
lon note f(x
i
). Cette fonction, dfinie par f(x
i
) = P(X = x
i
) est appele distribution de probabilit
de X.
Puisque les f (x
i
) sont des probabilits sur les vnements {X=x
1
, X=x
2
, ..., X=x
n
}, on a par
consquent :
et .
5.2.1 Reprsentation dune loi de probabilit finie
On peut reprsenter la loi de probabilit f(x
i
) par une table :
Ou par un diagramme en btons :
o la hauteur du bton positionn en x
i
a pour valeur f(x
i
).
5.2.2 Esprance mathmatique dune loi finie
Lesprance mathmatique cherche traduire la tendance centrale de la loi. Il sagit dune moyen-
ne o chacune des valeurs x
i
intervient dautant plus que sa probabilit est importante, cest--dire
dun barycentre ou dun centre de gravit. On dfinit alors la moyenne thorique (ou vraie), ou
esprance mathmatique dune loi f (x
i
) par
.
x
1
x
2
........ x
n
f(x
1
) f(x
2
) ........ f(x
n
)
i ( ) f x
i
( ) , 0 f
i 1 =
n

x
i
( ) 1 =
f(x
i
)
x
i
x
n
x
1
x
2
x
3
x
4

X
E X ( ) x
i
f
i 1 =
n

x
i
( ) x
1
f x
1
( ) x
2
f x
2
( ) ... x
n
f x
n
( ) + + + = = =
Variables alatoires
2001 - 2002 Biostatistiques - Boisvieux, Golmard, Mallet & Morice 39/159

X
peut tre note sil ny a pas de confusion possible.
Exemple
On considre lexprience qui consiste jeter deux ds parfaitement quilibrs. Lespace
fondamental est constitu par lensemble des couples ordonns
S = {(1, 1), (1, 2), (1, 3), ..., (6, 6)}
Cest un espace quiprobable (tous les couples rsultats lmentaires du tirage sont qui-
probables).
Considrons la variable alatoire dfinie comme suit : soit s = (a, b) un lment quelcon-
que de S ; on pose X(s) = X(a, b) = max(a, b)
(la valeur de X(s) est gale a si a > b et b dans le cas contraire).
X est une variable alatoire sur S avec X(S) = {1, 2, 3, 4, 5, 6},
et la loi de probabilit
f(1) = P(X = 1) = P({(1, 1)}) = 1/36 ;
f(2) = P(X = 2) = P({(1, 2), (2, 1), (2, 2)}) = 3/36 ;
f(3) = 5/36 ; f(4) = 7/36 ; f (5) = 9/36 ; f(6) = 11/36.
Soit :
E(X) = 1/36 + 6/36 + 15/36 + 28/36 + 45/36 + 66/36 = 161/36 4,47
Thormes
1. Soit X une variable alatoire et k une constante relle. On a :
E(kX) = kE(X)
E(X + k) = E(X) + k
2. Soient X et Y deux variables alatoires dfinies sur le mme espace fondamental S.
On a :
x
i
1 2 3 4 5 6
f(x
i
) 1/36 3/36 5/36 7/36 9/36 11/36
E(X)
1 2 3 4 5 6
f(x
i
)
x
i
Variables alatoires
40/159 Biostatistiques - Boisvieux, Golmard, Mallet & Morice 2001 - 2002
E(X + Y) = E(X) + E(Y)
On en dduit que pour n variables alatoires X
i
, dfinies sur le mme espace
fondamental :
(lesprance de la somme est la somme des esprances).
Exemple
Considrons lexprience du jeu de ds o S = {1, 2, 3, 4, 5, 6} uniforme (quiprobable).
Soit X(S) une premire variable alatoire [noter que lapplication dfinissant X est lappli-
cation identit].
On a X(S) = {1, 2, 3, 4, 5, 6}
et f(1) = f(2) = f(3) = f(4) = f(5) = f(6) = 1/6
E(X) = (1 + 2 + 3 + 4 + 5 + 6) / 6 = 21/6
Soit Y(S) une seconde variable alatoire telle que
Y(S) = 1 si le chiffre tir est impair
Y(S) = 2 si le chiffre tir est pair.
Donc Y(S) = {1, 2}
f(1) = P({1, 3, 5}) = 1/2
f(2) = P({2, 4, 6}) = 1/2
E(Y) = 1/2 + 1 = 1,5
Calculons maintenant la loi de (X + Y)(S)
(X + Y)(s) = X(s) + Y(s)
Pour s = 1, (X + Y)(1) = X(1) + Y(1) = 1 + 1 = 2
Pour s = 2, (X + Y)(2) = X(2) + Y(2) = 2 + 2 = 4
Pour s = 3, (X + Y)(3) = X(3) + Y(3) = 3 + 1 = 4
Pour s = 4, (X + Y)(4) = X(4) + Y(4) = 4 + 2 = 6
Pour s = 5, (X + Y)(5) = X(5) + Y(5) = 5 + 1 = 6
Pour s = 6, (X + Y)(6) = X(6) + Y(6) = 6 + 2 = 8
On a donc (X + Y)(S) = {2, 4, 6, 8} et f(2) = 1/6, f(4) = 2/6, f(6) = 2/6, f(8) = 1/6
E(X + Y) = 2/6 + 8/6 + 12/6 + 8/6 = 30/6
Or on retrouve bien ce rsultat en utilisant E(X) + E(Y) = 21/6 + 3/2 = 30/6.
Remarque
Lorsquon doit calculer lesprance dune fonction g(X), il faut tudier la variable Y = g(X)
dont les valeurs sont y
1
= g(x
1
), y
2
= g(x
2
), ..., y
n
= g(x
n
). Alors :
P(Y = y
i
) = P[g(X) = g(x
i
)] = P(X = x
i
) = f(x
i
)
Donc :
Par exemple, si lon doit calculer E(X
2
), on considre la variable Y = X
2
dont les valeurs
sont y
1
= x
1
2
, y
2
= x
2
2
, ..., y
n
= x
n
2
. Alors :
E X
i
i 1 =
n

( ,
, (
j \
E X
i
( )
i 1 =
n

=
E g X ( ) ( ) E Y ( ) y
i
P Y y
i
= ( )
i 1 =
n

g x
i
( )f x
i
( )
i 1 =
n

= = =
E X
2
( ) E Y ( ) y
i
P Y y
i
= ( )
i 1 =
n

x
i
2
f x
i
( )
i 1 =
n

= = =
Variables alatoires
2001 - 2002 Biostatistiques - Boisvieux, Golmard, Mallet & Morice 41/159
On constate que pour calculer lesprance dun carr, il faut lever les valeurs x
i
au carr,
mais pas les probabilits f(x
i
) associes.
5.2.3 Variance et cart-type
Aprs avoir traduit la tendance centrale par lesprance, il est intressant de traduire la dispersion
autour de lesprance par une valeur (la variance ou lcart-type).
La variance de X, note var(X) ou , est dfinie par :
Lcart-type de X, not ou , est dfini par .

X
peut tre note sil ny a pas de confusion possible.
Remarques :
1. On dmontre facilement que
En effet :
2. , par dfinition
3. Soit X une variable alatoire de moyenne et de variance
2
.
On dfinit la variable centre rduite par .
On peut montrer facilement (faites lexercice) que E(Y) = 0 et var(Y) = E(Y
2
) = 1.
4. Si a est une constante, on montre que var(X + a) = var(X) et var(aX) = a
2
var(X).
5.2.4 Loi de probabilit produit
Soient X et Y deux variables alatoires finies sur le mme espace fondamental S ayant pour image
respective :
X(S) = {x
1
, x
2
, ..., x
n
}
Y(S) = {y
1
, y
2
, ..., y
m
}.
Considrons lensemble produit
X(S)Y(S) = {(x
1
, y
1
), (x
1
, y
2
), ..., (x
n
, y
m
)}

X
2

X
2
var X ( ) E X
X
( )
2
( ) o
X
E X ( ) = = =
X ( )
X
X ( )
X
var X ( ) = =
var X ( ) E X
2
( )
X
2
=
E X
X
( )
2
( ) x
i

X
( )
2
f x
i
( )
i 1 =
n

x
i
2
2
X
x
i

X
2
+ ( )f x
i
( )
i 1 =
n

= =
E X
X
( )
2
( ) x
i
2
f x
i
( ) 2
X
x
i
i 1 =
n

f x
i
( )
X
2
f
i 1 =
n

x
i
( ) +
i 1 =
n

=
E X
X
( )
2
( ) x
i
2
f x
i
( ) 2
X
2

X
2
+
i 1 =
n

E X
2
( )
X
2
= =

X
2
0
Y
X

------------- =
Variables alatoires
42/159 Biostatistiques - Boisvieux, Golmard, Mallet & Morice 2001 - 2002
(ensemble des couples (x
i
, y
j
) pour i = 1, ..., n et j = 1, ..., m)
Cet ensemble produit peut tre transform en ensemble probabilis si on dfinit la probabilit du
couple ordonn (x
i
, y
j
) par que lon note p(x
i
, y
j
). Cette loi de probabilit
de X, Y est appele distribution jointe de X et Y.
Les fonctions et
sont souvent appeles lois de probabilit marginales de X et de Y. Il sagit simplement de leurs dis-
tributions.
La loi de probabilit p(x
i
, y
j
) possde, bien entendu, les proprits dune loi :
1.
2.
Soient
X
et
Y
les esprances de X et de Y,
X
et
Y
leurs cart-types. On montre facilement que
var(X + Y) =
X
2
+
Y
2
+ 2cov(X, Y), o cov(X, Y) reprsente la covariance de X et Y et est d-
finie par :
De mme que pour la variance (voir section 5.2.3), on a :
cov(X, Y) = E(X Y) -
X

Y
Une notion drive de la covariance est celle de corrlation entre X et Y, dfinie par :
On peut vrifier que
(X, Y) = (Y, X)
(X, X) = 1
x
1
x
2
x
3
.....
x
n
y
1
p(x
1
, y
1
) p(x
2
, y
1
) g(y
1
)
y
2
p(x
1
, y
2
) g(y
2
)
.....
y
m
p(x
1
, y
m
)
f(x
1
) f(x
2
) 1
P X x
i
= [ ] Y y
j
= [ ] ( )
X
Y
x
i
i 1 n , =

y
j
j 1 m , =

f x
i
( ) p x
i
y
j
, ( )
j 1 =
m

= g y
j
( ) p x
i
y
j
, ( )
i 1 =
n

=
p x
i
y
j
, ( ) 0 i j , ,
p x
i
y
j
, ( )
j 1 =
m

i 1 =
n

1 =
cov X Y , ( ) E X
X
( ) Y
Y
( ) [ ] = x
i

X
( ) y
j

Y
( )p x
i
y
j
, ( )
j 1 =
m

i 1 =
n

=
X Y , ( )
cov X Y , ( )

Y
------------------------ =
1 X Y , ( ) 1
Variables alatoires
2001 - 2002 Biostatistiques - Boisvieux, Golmard, Mallet & Morice 43/159
(aX + b, cY + d) = (X, Y) si a et c non nuls
5.2.5 Variables alatoires indpendantes
Soient X et Y deux variables alatoires sur un mme espace fondamental S. X et Y sont indpen-
dantes si tous les vnements X = x
i
et Y = y
j
sont indpendants :
pour tous les couples i , j.
Autrement dit, si f(x
i
) et g(y
j
) sont les distributions respectives de X et Y, les variables sont ind-
pendantes si et seulement si on a
p(x
i
, y
j
) = f(x
i
)g(y
j
)
(la probabilit conjointe est gale au produit des probabilits marginales).
Il en dcoule les proprits importantes suivantes : si X et Y sont indpendantes, on a (attention la
rciproque nest pas toujours vraie)
1. E(XY) = E(X)E(Y)
2. var(X + Y) = var(X) + var(Y)
3. cov(X, Y) = 0 et (X, Y) = 0
5.2.6 Fonction de rpartition
Si X est une variable alatoire, on dfinit sa fonction de rpartition F(x) par
Si X est une variable alatoire discrte on a
Dans tous les cas, F(x) est une fonction monotone croissante, cest--dire
De plus
et
5.3 Variables infinies dnombrables
Tout ce qui a t vu prcdemment dans le cas o S est fini (S = {s
1
, s
2
, ..., s
n
}) se gnralise (nous
ne verrons pas les dmonstrations) au cas o S est infini dnombrable ; on aura par exemple
La somme converge linfini vers E(X), toutes les autres proprits sont conserves, les sommes
devenant des sries.
P X x
i
= [ ] Y y
j
= [ ] ( ) P X x
i
= ( ) P Y y
j
= ( ) =
F x ( ) P X x ( ) pour tout x =
F x ( ) f x
i
( )
x
i
x

=
F a ( ) F b ( ) si a b
F x ( )
x
lim 0 = F x ( )
x
lim 1 =

X
E X ( ) x
i
f
i 1 =

x
i
( ) = =
Variables alatoires
44/159 Biostatistiques - Boisvieux, Golmard, Mallet & Morice 2001 - 2002
5.4 Variables alatoires continues
La gnralisation au continu est dlicate et mme difficile si on ne dispose pas doutils mathma-
tiques hors du champ de ce cours.
Nous nous contenterons de procder par analogie avec le cas discret.
Une variable alatoire X dont lensemble image X(S) est un intervalle de est une variable ala-
toire continue (continue par opposition discrte, cf supra).
Rappelons que, par dfinition dune variable alatoire, est un vnement de S dont la
probabilit est bien dfinie.
On dfinit la loi de probabilit de X, ou distribution de X, laide dune fonction f(x), appele den-
sit de probabilit de X, telle que
Remarques
1. Si f est donne, la probabilit est la surface sous la courbe entre a et b
2. Le passage du discret au continu transforme les sommes en intgrales et f(x
i
) en f (x)dx.
Ainsi, soit X une variable alatoire discrte et f(x
i
) sa distribution
La formule est analogue
En utilisant cette analogie, on admettra les dfinitions suivantes pour une variable alatoire X, con-
tinue, de distribution f(x) :
1. (analogue )
a X b
f x ( ) x d
a
b

P a X b ( ) =
P a X b ( )
P a X b ( )
f(x)
a b x

f(x
i
)
x
i
P x
k
X x
n
( ) f x
i
( )
i k =
n

= P a X b ( ) f x ( ) x d
a
b

=
f x ( ) 0 f x
i
( ) 0
Variables alatoires
2001 - 2002 Biostatistiques - Boisvieux, Golmard, Mallet & Morice 45/159
2. (analogue )
3. (analogue )
4. (analogue )
5. (analogue )
6.
7. (analogue )
Les proprits de la fonction de rpartition donnes section 5.2.6 page 43 sont conserves.
8.
Pour rsumer lanalogie entre le cas discret et le cas continu, un point du domaine discret corres-
pond un intervalle dans le cas continu, la somme discrte correspond lintgrale.
f x ( ) x d

1 = f x
i
( )
i

1 =

X
E X ( ) xf x ( ) x d

= = x
i
f x
i
( )
i

X
2
var X ( ) x
X
( )
2
f x ( ) x d

= = x
i

X
( )
2
f x
i
( )
i

X
2
var X ( ) x
2
f x ( ) x d


X
2
= = x
i
2
f x
i
( )
i


X
2

X ( )
X
var X ( ) = =
F x ( ) P = X x ( ) f ( ) d

x

= f x
i
( )
x
i
x

P a X b ( ) f x ( ) x d
a
b

F b ( ) F a ( ) = =
Exemples de distributions
2001 - 2002 Biostatistiques - Boisvieux, Golmard, Mallet & Morice 47/159
Chapitre 6
Exemples de distributions
6.1 Lois discrtes
6.1.1 Loi de Bernoulli
On considre une exprience nayant que deux rsultats possibles, par exemple succs et chec (ou
prsence et absence dune certaine caractristique). On introduit la variable alatoire X qui associe
la valeur 0 lchec (ou labsence de la caractristique) et la valeur 1 au succs (ou la prsence
de la caractristique). Cette variable alatoire est appele variable de Bernoulli.
Distribution de X
Appelons p la probabilit de lvnement succs :
P({succs}) = P(X = 1) = p
do
P({chec}) = P(X = 0) = 1 - p
On note souvent q = 1 - p
Esprance de X
Variance de X
6.1.2 Loi binomiale
Dfinition
Soient les preuves rptes et indpendantes dune mme exprience de Bernoulli. Cha-
que exprience na que deux rsultats possibles : succs ou chec. Comme prcdemment,

X
E X ( ) x
i
P X x
i
= ( )

1 P X 1 = ( ) 0 P X 0 = ( ) + p = = = =

X
2
var X ( ) E X
X
( )
2
[ ] E X
2
( )
X
2
= = =

X
2
1
2
P X 1 = ( ) 0
2
P X 0 = ( ) + [ ] p
2
=

X
2
p p
2
p 1 p ( ) pq = = =
Exemples de distributions
48/159 Biostatistiques - Boisvieux, Golmard, Mallet & Morice 2001 - 2002
appelons p la probabilit de lvnement lmentaire succs et q = 1 - p celle de lvne-
ment chec. A cette exprience multiple on associe une variable alatoire X qui mesure le
nombre de succs obtenus.
Distribution de X
La probabilit davoir k succs lors de n preuves rptes est
Rappel
pour tout n entier positif
0! = 1 par dfinition
Remarques
a. La probabilit de navoir aucun succs au cours de n preuves (k = 0) est q
n
; la pro-
babilit davoir au moins un succs est donc 1 - q
n
(un succs ou plus)
b. est souvent not ou
Les sappellent coefficients du binme.
En effet ils interviennent dans le dveloppement du binme selon la formule
Exercice :
utiliser cette formule pour vrifier que
c. En appliquant la formule du binme prcdente on retrouve que la somme des proba-
bilits pour toutes les valeurs de X est gale 1 :
Exemples
1. On jette 6 fois une pice bien quilibre ; on suppose que face est un succs. On a donc
p = q = 1/2 et n = 6
a. Probabilit que lon ait exactement 2 faces
b. Probabilit davoir 4 faces ou plus (au moins 4 faces)
Cest aussi la probabilit davoir 0, 1 ou 2 piles
P X k pour n essais = ( )
n!
k! n k ( )!
-----------------------p
k
1 p ( )
n k n!
k! n k ( )!
-----------------------p
k
q
n k
= =
n! 1 2 n =
n!
k! n k ( )!
-----------------------
n
k
( ,
j \
C
n
k
n
k
( ,
j \
a b + ( )
n
n
r
( ,
j \
a
n r
b
r
r 0 =
n

=
a b + ( )
4
a
4
4a
3
b 6a
2
b
2
4ab
3
b
4
+ + + + =
n
k
( ,
j \
p
k
1 p ( )
n k
k 0 =
n

p 1 p ( ) + [ ]
n
1
n
1 = = =
P 2 faces parmi 6 jets ( )
6!
2!4!
----------
1
2
-- -
( ,
j \
2
1
2
---
( ,
j \
4

1 2 3 4 5 6
1 2 1 2 3 4
-------------------------------------------------
1
4
-- -
1
16
------ = =
P 2 faces parmi 6 jets ( )
5 6
2 4 16
------------------------
15
4 16
---------------
15
64
----- - = = =
Exemples de distributions
2001 - 2002 Biostatistiques - Boisvieux, Golmard, Mallet & Morice 49/159
2. On jette 7 fois un d quilibr et on considre que tirer 5 ou 6 est un succs. Calculer
a. la probabilit pour quon ait 3 succs exactement
b. la probabilit de navoir aucun succs
Proprits
La fonction de probabilit P(X= k) dpend des 2 paramtres (ou constantes) n et p ; on la
note b(k ; n, p). Cest une distribution discrte qui prend les valeurs suivantes :
On dit que X est distribue selon une loi binomiale B(n, p).
On peut montrer que
k 0 1 2 ........ n
P(X= k)
q
n

p
n
Distribution binomiale B(n, p)
Esprance
Variance
Ecart-type
p
4
P = 4 faces ( )
6!
2!4!
----------
1
2
-- -
( ,
j \
4
1
2
---
( ,
j \
2

1 2 3 4 5 6
1 2 1 2 3 4
-------------------------------------------------
1
16
----- -
1
4
-- -
15
64
------ = = =
p
5
P = 5 faces ( )
6!
1!5!
----------
1
2
-- -
( ,
j \
5
1
2
---
1 2 3 4 5 6
1 2 3 4 5
-------------------------------------------------
1
32
----- -
1
2
---
6
64
------ = = =
p
6
P = 6 faces ( )
6!
6!
-----
1
2
---
( ,
j \
6
1
2
---
( ,
j \
0

1
64
----- - = =
P au moins 4 faces ( ) p
4
p
5
p
6
+ + =
15
64
----- -
6
64
----- -
1
64
----- - + +
11
32
----- - = =
P succs ( ) P 5 6 , ( )
2
6
---
1
3
--- = = =
P 3 succs ( )
7!
3!4!
----------
1
3
-- -
( ,
j \
3
2
3
---
( ,
j \
4
560
2187
----------- - = =
P aucun succs ( ) q
7 2
3
---
( ,
j \
7
128
2187
----------- - = = =
n
1
( ,
j \
q
n 1
p
n
2
( ,
j \
q
n 2
p
2
np =

2
npq =
npq =
Exemples de distributions
50/159 Biostatistiques - Boisvieux, Golmard, Mallet & Morice 2001 - 2002
6.2 Lois continues
6.2.1 Loi normale
6.2.1.1 Dfinition
La distribution normale, ou de Laplace-Gauss, appele aussi gaussienne, est une distribution con-
tinue qui dpend de deux paramtres et . On la note N(,
2
). Le paramtre peut tre quel-
conque mais est positif. Cette distribution est dfinie par :
Cest une des lois les plus importantes, sinon la plus importante comme vous le verrez loccasion
du thorme central limite.
6.2.1.2 Proprits
a. La loi normale, note N(,
2
), est symtrique par rapport la droite dabscisse .
Exemples :
Figure 2 : N( , 1) pour les valeurs de -2 ; 0 et 2
f x , ; ( )
1
2
--------------e
1
2
---
x ( )
2

2
-------------------
=
Exemples de distributions
2001 - 2002 Biostatistiques - Boisvieux, Golmard, Mallet & Morice 51/159
Figure 3 : N(0,
2
) pour les valeurs de 0,3 ; 1 et 2
b. Caractristiques
c. Distribution normale centre rduite
On dit que la distribution est centre si son esprance est nulle ; elle est dite rduite si sa
variance
2
(et son cart-type ) est gale 1. La distribution normale centre rduite N(0, 1)
est donc dfinie par la formule
Figure 4 : loi normale centre rduite N(0, 1)
Loi normale N( ,
2
)
Esprance
Variance

2
Ecart-type
f t 0 1 , ; ( )
1
2
----------e
1
2
---t
2

=
Exemples de distributions
52/159 Biostatistiques - Boisvieux, Golmard, Mallet & Morice 2001 - 2002
Les probabilits correspondant aux divers intervalles ont t calcules et regroupes dans une
table numrique. Ainsi la table A.1 (en fin de polycopi) permet, partir dune probabilit
donne, de trouver les bornes -u

, +u

dun intervalle symtrique autour de 0, tel que


ou encore, partir de u

, de trouver .
Do par exemple :
On observe ainsi que 68,2 % de la surface est comprise entre (-1 et +1), 95,4 % entre (-2 et +2)
et 99,6 % entre (-3 et +3).
d. Transformation en une loi N(0, 1)
Soit une variable X distribue selon une loi normale desprance et dcart-type .
Alors la variable est distribue selon une loi normale centre rduite.
Les probabilits obtenues pour la loi centre rduite permettent de calculer les probabilits
pour une loi normale quelconque, laide de cette transformation :
.
Soit par exemple calculer . Par la transformation, on a
avec
et .
La probabilit cherche, sur la variable X, revient donc lire sur la table de la loi centre r-
duite (variable t), la probabilit de se trouver entre c et d.
On remarque en particulier que
e. Approximation de la distribution binomiale par la loi normale
Lorsque n est grand, et que p et q ne sont pas trop proches de 0 (en pratique si et
), alors on constate que la distribution binomiale tend vers la distribution normale de
moyenne np et de variance npq ; plus prcisment, pour une variable K distribue selon une
loi binomiale B(n, p) et une variable X distribue selon une loi normale N( = np,
2
= npq),
on a :
On choisit lartifice de reprsenter graphiquement P(k) par un rectangle dont la base est [k -
0,5, k + 0,5] et la surface est P(k) pour comparer la loi discrte P(k) et la loi normale conti-
nue.
P t u

; +u

[ ] ( ) =
P t u

; +u

[ ] ( ) 1 =
P t u

> ( ) P t u

< ( ) 2 = =
t
X

------------- =
t
X

------------- =
P a X b ( )
P a X b ( ) P c t d ( ) =
c
a

------------ = d
b

------------ =
P 2 t 2 ( ) P 2 X 2 + ( ) 0 95 , =
np 5
nq 5
P K k = ( ) P k ( ) P k 0 5 , K k 0 5 , + ( ) P k 0 5 , X k 0 5 , + ( ) = =
Exemples de distributions
2001 - 2002 Biostatistiques - Boisvieux, Golmard, Mallet & Morice 53/159
6.2.2 Loi du
2
(chi-2)
6.2.2.1 Dfinition
Cest une loi drive de la loi normale, trs importante pour ses applications en statistiques comme
nous le reverrons dans les tests.
Soient X
1
, ..., X
n
des variables alatoires indpendantes, chacune tant distribue selon une loi nor-
male centre rduite :
La distribution de (somme des carrs des X
i
) est appele loi de
2
n de-
grs de libert (en abrg d. d. l.), que lon note
2
(n) o n est le nombre de d. d. l., seul paramtre
de la loi.
Loi du
2
(n)
Esprance n
Variance 2n
Ecart-type
2 3 4 5 1
P(4) = surface du rectangle
aire sous la gaussienne correspondante
P k 0 5 , K k 0 5 , + ( ) =
i X
i
, N 0 1 , ( )
S X
1
2
X
2
2
X
n
2
+ + + =
2n
Exemples de distributions
54/159 Biostatistiques - Boisvieux, Golmard, Mallet & Morice 2001 - 2002
6.2.2.2 Proprits
a. Allure de la distribution de
2
(n) pour diffrentes valeurs de n
Pour n = 1, la courbe dcrot de + vers zro de faon monotone ; pour n = 2, la courbe d-
crot de faon monotone de 0,5 zro ; pour n > 2, la courbe part de 0, a son maximum pour
x = n - 2, puis redescend vers zro.
b. Proprit asymptotique
La loi dune variable X suivant un
2
(n) tend vers une loi normale lorsque . On a
donc, aprs avoir centr et rduit cette variable :
NB : Dans la pratique, on utilise plutt la variable dont on montre quel-
le est peu prs distribue selon une loi normale centre rduite ds que n > 30.
c. Tables
De mme que pour la loi normale centre rduite, une table existe pour la loi du
2
(voir en
fin de polycopi, table A.3). Cette table indique pour une probabilit donne, et un degr de
libert n donn, la valeur telle que .
6.2.3 Loi de Student
Il sagit encore dune loi drive de la loi normale, trs utilise dans les tests statistiques. On con-
sidre une premire variable alatoire X, distribue selon une loi normale centre rduite, puis une
seconde variable Y, indpendante de X, distribue selon un
2
n degrs de libert.
Alors la variable alatoire est distribue selon une loi de Student n degrs de libert,
note t(n).
La courbe correspondante est symtrique autour de 0, et son allure est proche de celle de la loi nor-
male.
Cette loi est centre, mais non rduite : la variance, , est suprieure 1.
Lorsque n crot, en pratique pour n > 30, la variance peut tre prise gale 1, et la distribution as-
n +
X n
2n
------------ N 0 1 , ( )
Y 2X 2n 1 =

2
P X

2
> ( ) =
Z n
X
Y
------- =
n
n 2
------------
Exemples de distributions
2001 - 2002 Biostatistiques - Boisvieux, Golmard, Mallet & Morice 55/159
simile celle dune loi normale centre rduite.
La table A.2, en fin de polycopi, indique, pour une probabilit donne, et un degr de libert n
donn, la valeur telle que .
6.2.4 Loi exponentielle
Cette loi dcrit par exemple le processus de mortalit dans le cas o le risque instantan de d-
cs est constant. La loi correspondante est :
o x est la dure de vie.
Loi de Student t(n)
Esprance 0
Variance
Ecart-type
Loi exponentielle
Esprance
Variance
Ecart-type
AVERTISSEMENT
On peut entreprendre ds maintenant la lecture des chapitres 15 et 16 en comprenant le
terme estimateur dans le sens intuitif de valeur approche
n
n 2
------------
n
n 2
------------
t

P Z t

; +t

[ ] ( ) =
f x ( ) e
x
avec 0 et x 0 > =
1
1
2

1
Statistiques descriptives
2001 - 2002 Biostatistiques - Boisvieux, Golmard, Mallet & Morice 57/159
Chapitre 7
Statistiques descriptives
Les statistiques descriptives visent reprsenter des donnes dont on veut connatre les principales
caractristiques quantifiant leur variabilit.
7.1 Rappels et complments
On suppose que lon sintresse une caractristique particulire observable chez des individus is-
sus dune population ; cette caractristique sera appele variable ; si cette caractristique peut va-
rier entre les individus, on lappellera variable alatoire. On sintresse donc une variable
alatoire. Cette dfinition image est compatible avec la dfinition du chapitre 5.
Rappel
Il existe deux grands groupes de variables :
a. Les variables quantitatives qui sont des variables ordonnes, productives de nom-
bres. Exemples : nombre denfants dans une famille, glycmie, taille dun individu,
nombre de colonies bactriennes dans un milieu de culture.
Parmi ces variables quantitatives, certaines prennent un continuum de valeurs (entre
deux valeurs possibles, il existe toujours une troisime valeur possible) ; ces variables
sont dites continues. Dautres ne prennent que des valeurs discontinues ; elles sont di-
tes discrtes, finies ou non.
b. Les variables qualitatives produisant des valeurs non numriques. Exemples : sexe,
couleur des cheveux, appartenance au groupe des fumeurs ou des non fumeurs, pr-
sence ou absence dune maladie.
Les valeurs peuvent tre ordonnes ; on parle alors de variable qualitative ordinale.
Exemple : intensit dune douleur (faible, moyenne, forte).
Remarque
Lindividu voqu ci-dessus, sur lequel on observe les caractristiques dintrt, la varia-
ble, nest pas ncessairement un individu physique. Cest lentit sur laquelle sopre lob-
servation de la variable dintrt. Exemples : famille, colonies bactriennes. Cette entit
sappelle lunit statistique.
Dfinition
Lentit sur laquelle peut sobserver la variable alatoire sappelle lunit statistique.
Connatre le phnomne mettant en jeu cette variable, ou connatre cette variable, cest con-
natre la probabilit pour quun individu tir au hasard dans la population prsente telle va-
Statistiques descriptives
58/159 Biostatistiques - Boisvieux, Golmard, Mallet & Morice 2001 - 2002
leur de la variable. On peut apprcier la probabilit dun vnement alatoire grce
linterprtation suivante de la notion de probabilit. Cette interprtation est cohrente avec
les cours prcdents.
On interprtera la probabilit dun vnement alatoire comme la valeur limite de la fr-
quence avec laquelle lvnement se ralise au cours dun nombre croissant de rptitions
de lexprience. Autrement dit comme la valeur limite du rapport du nombre de fois o
lvnement sest ralis et du nombre de rptitions de lexprience.
Remarques
Ce qui prcde peut tre vu comme une interprtation de la notion probabilit (voire
comme une dfinition).
En dpit de cette interprtation, la probabilit dun vnement alatoire reste
une fiction
du domaine thorique.
Mais cette interprtation a deux consquences :
pour approcher une probabilit on est amen rpter une exprience,
les frquences se substituent aux probabilits ; elles seront les contreparties des
probabilits.
On va donc rpter une exprience un nombre fini de fois, not n ; on aura donc ob-
serv une sous-population appele chantillon. Chaque exprience produit un rsultat
x
i
; on disposera donc de x
1
, ..., x
n
, ensemble appel chantillon de valeurs de la va-
riable.
7.2 Reprsentation complte dune srie
dexpriences
7.2.1 Cas dune variable qualitative
La variable est dcrite par la suite des probabilits des diffrentes modalits. Si lon connaissait ces
probabilits, on produirait le diagramme en btons (ou rpartition vraie) de cette variable ; on va
produire la rpartition exprimentale par substitution aux probabilits inconnues des frquences
observes. Si la variable est ordinale, on respectera cet ordre dans lnumration des modalits por-
tes en abscisses.
Statistiques descriptives
2001 - 2002 Biostatistiques - Boisvieux, Golmard, Mallet & Morice 59/159
Un autre type de reprsentation est utilis : la reprsentation en camembert o les diffrentes mo-
dalits sont reprsentes par secteurs angulaires dangles au centre proportionnels aux frquences
observes.
7.2.2 Cas dune variable quantitative discrte
La situation est similaire si ce nest quil existe un ordre et une chelle naturels en abscisses ; la
rpartition exprimentale se nomme galement histogramme en btons.
modalit 1 modalit 2 .......
Frquences
A
B
C
D
valeur 1 valeur 2 .......
Frquences
Statistiques descriptives
60/159 Biostatistiques - Boisvieux, Golmard, Mallet & Morice 2001 - 2002
7.2.3 Cas dune variable quantitative continue. Notion
dHISTOGRAMME
Dans le cas de variables continues, on va choisir de reprsenter les donnes graphiquement dune
faon qui soit proche de la reprsentation dune densit de probabilit dune variable alatoire con-
tinue. Pour cela on dcoupe lensemble du domaine des valeurs possibles de la variable tudie en
un nombre choisi dintervalles contigus dont on choisit galement les bornes. Afin dobtenir une
reprsentation proche dune densit de probabilit, on dcide de reprsenter indirectement la fr-
quence des valeurs observes comprises entre deux bornes conscutives par la surface dun rectan-
gle dont la base sera prcisment cet intervalle. Autrement dit la hauteur de ce rectangle sera le
rapport de la frquence exprimentale de ces valeurs et de la diffrence entre ces bornes (diffrence
galement appele largeur de la classe).
Les bornes sont choisies arbitrairement ; nanmoins, pour que lhistogramme ait un sens il est n-
cessaire que la taille de chaque classe constituant un intervalle comprenne un nombre suffisam-
ment grand de valeurs observes, de telle faon que la surface dun rectangle lmentaire puisse
tre interprte comme approchant la probabilit pour que la variable prenne une valeur comprise
dans lintervalle du rectangle. Si la taille de lchantillon crot, la surface de chaque rectangle tend
vers la probabilit que la variable ait une valeur incluse dans lintervalle correspondant. De plus,
si la taille n de lchantillon est grande, on peut alors sans inconvnient construire un plus grand
nombre de classes, cest--dire construire par exemple deux fois plus de rectangles, chacun ayant
un support deux fois plus petit. En rptant cette opration, n croissant, on peut comprendre que
lhistogramme tend (dune faon que nous ne prciserons pas ici) vers la densit de probabilit de
la loi qui a gnr lchantillon.
0,2
0,4
0,6
0,8
1,0
1,2
Statistiques descriptives
2001 - 2002 Biostatistiques - Boisvieux, Golmard, Mallet & Morice 61/159
7.3 Reprsentation simplifie dune srie
dexpriences
On a dfini certains indicateurs pour reprsenter, de faon plus rsume que ci-dessus, un chan-
tillon de valeurs issues dune variable alatoire.
7.3.1 Indicateurs de localisation des valeurs
Mode
Le mode dun chantillon est sa valeur la plus frquente. Si la variable est qualitative, par
valeur il faut entendre modalit. Si la variable est continue, par valeur il faut entendre
petit intervalle de valeurs , et la dfinition du mode perd alors de sa rigueur.
Les autres indicateurs prsents ci-dessous ne concernent que les variables quantitatives.
Mdiane
Cest la valeur qui partage lchantillon en deux groupes de mme effectif ; pour la calcu-
ler, il faut commencer par ordonner les valeurs (les ranger par ordre croissant par exemple)
Exemple : soit la srie 12 3 24 1 5 8 7
on lordonne : 1 3 5 7 8 12 24
7 est la mdiane de la srie
Moyenne exprimentale
Cest lindicateur de localisation le plus frquemment utilis. La moyenne exprimentale
dun chantillon de n valeurs x
1
, ..., x
n
est dfinie comme la moyenne arithmtique de ces
valeurs ; on la note souvent :
7.3.2 Indicateurs de dispersion des valeurs
Variance exprimentale
La variance exprimentale dun chantillon {x
i
} i = 1, ..., n est donne par
Attention : on divise par n -1 et non par n - ceci pour que la variance exprimentale soit
un bon estimateur de la variance thorique de la loi (nous reverrons ce point dans la suite).
Une autre expression de s
2
, quivalente, est indique dans le rsum de ce chapitre.
Ecart-type exprimental
Lcart-type exprimental, not s, est dfini par .
x
x
1
n
--- x
i
i 1 =
n

=
s
2 1
n 1
------------ x
i
x ( )
2
i 1 =
n

=
s s
2
=
Statistiques descriptives
62/159 Biostatistiques - Boisvieux, Golmard, Mallet & Morice 2001 - 2002
7.4 Reformulation de la moyenne et de la
variance exprimentales
7.4.1 Reformulation de la moyenne exprimentale
Prenons le cas dune variable quantitative discrte.
Les donnes sont notes x
1
, ..., x
n
.
Les k valeurs possibles de la variable sont notes val
1
,val
2
, ...., val
k
.
Exemple dun jet de d : val
1
= 1, ..., val
6
= 6
Chaque donne x
i
concide avec une certaine valeur val
j
Par exemple pour le jet de d, on peut avoir
jet n1 ; x
1
= 1 = val
1
jet n2 ; x
2
= 1 = val
1
jet n3 ; x
3
= 4 = val
4
jet n4 ; x
4
= 3 = val
3
jet n5 ; x
5
= 6 = val
6
jet n6 ; x
6
= 1 = val
1
jet n7 ; x
7
= 2 = val
2
jet n8 ; x
8
= 5 = val
5
jet n9 ; x
9
= 6 = val
6
Alors :
o n
j
est le nombre de fois o une observation concide avec val
j
Dans notre exemple du jet de d, on a : n
1
= 3, n
2
= 1, n
3
= 1, n
4
= 1, n
5
= 1, n
6
= 2
Finalement
Mais est une approximation de P(face marque = val
j
)
Ainsi est une estimation exprimentale - une apprciation - de :
cest--dire une apprciation de lesprance mathmatique de la variable.
On raccorde ainsi une moyenne exprimentale une grandeur descriptive du phnomne tudi,
x
i
i 1 =
n

n
j
val
j
j 1 =
k

=
x
1
n
--- x
i
i 1 =
n

n
j
n
----val
j
j 1 =
k

= =
n
j
n
----
x
val
j
P valeur de la variable val
j
= ( )
j

Statistiques descriptives
2001 - 2002 Biostatistiques - Boisvieux, Golmard, Mallet & Morice 63/159
une grandeur dite thorique ou vraie.
On peut dire ceci : la rptition des expriences vise estimer P(valeur de la variable = certain
niveau). La moyenne exprimentale permet destimer quelque chose de plus grossier, une combi-
naison de toutes ces probabilits, prcisment lesprance mathmatique
Cest la raison pour laquelle dans la suite on utilisera galement la terminologie MOYENNE
VRAIE ou MOYENNE THEORIQUE de la variable pour parler de lesprance mathmatique.
Retenons :
ESPERANCE MATHEMATIQUE,
MOYENNE VRAIE,
MOYENNE THEORIQUE
sont SYNONYMES. Ce sont des grandeurs thoriques.
Remarque
La mme analyse peut tre faite - mais lexpression est un peu plus dlicate - dans le cas
dune variable quantitative continue. La moyenne exprimentale approxime l encore les-
prance mathmatique.
7.4.2 Reformulation de la variance exprimentale
De la mme faon on peut obtenir le rsultat suivant : s
2
est une approximation de la grandeur
Cette expression, introduite dans le chapitre 5 sous le nom de variance sera souvent dnomme
dans la suite VARIANCE VRAIE ou VARIANCE THEORIQUE de la variable.
Dans le cas dune variable continue, la variance exprimentale s
2
approxime :
CES NOTIONS DE MOYENNE ET VARIANCE VRAIES, DE MOYENNE ET VARIANCE
EXPERIMENTALES SONT ESSENTIELLES ; NOUS ENGAGEONS LE LECTEUR A BIEN
LES COMPRENDRE AVANT DE POURSUIVRE.
7.5 Cas particulier dune variable deux
modalits - Proportion
On est trs souvent amen considrer des variables deux modalits, cest--dire des expriences
val
j
P valeur de la variable val
j
= ( )
j

2
val
j
( )
2
P valeur de la variable val
j
= ( )
j

2
x ( )
2
f x ( ) x d

=
Statistiques descriptives
64/159 Biostatistiques - Boisvieux, Golmard, Mallet & Morice 2001 - 2002
alatoires deux vnements.
Exemples :
maladie : maladie prsente - maladie absente
signe clinique : prsent - absent
traitement : individu trait - individu non trait
Or on peut transformer une telle variable en variable quantitative, sans restriction de gnralit, par
un artifice de codage :
une des modalits est code avec la valeur numrique 0 ;
lautre modalit est code avec la valeur numrique 1.
Une telle variable sappelle variable de Bernoulli.
Notons X cette variable.
Elle est compltement dcrite par la donne de P(valeur de la variable = 1) car
P(valeur de la variable = 1) + P(valeur de la variable = 0) = 1.
On utilise la notation conventionnelle suivante : P(valeur de la variable = 1) SE NOTE p.
7.5.1 Expression de la moyenne vraie de X
Utilisant lexpression gnrale de la moyenne vraie, et remarquant que val
1
= 0, val
2
=1, on
obtient :
Ainsi, = p = P(valeur de la variable = 1) = probabilit de la modalit code 1 = PROPORTION
VRAIE des individus prsentant la modalit 1.
7.5.2 Expression de la variance vraie de X
7.5.3 Interprtation de la moyenne exprimentale
Ainsi, concide avec la frquence exprimentale de la modalit code 1. Cette frquence sera no-
te p
0
et sappelle de faon naturelle PROPORTION OBSERVEE dindividus prsentant la mo-
dalit 1.
val
j
P valeur de la variable val
j
= ( )
j

0 1 p ( ) 1 p + p = = =

2
val
j
( )
2
P valeur de la variable val
j
= ( )
j

0 p ( )
2
1 p ( ) 1 p ( )
2
p + p 1 p ( ) = = =
x
1
n
--- x
i
i

1
n
--- 0 0 1 0 1 1 + + + + + + [ ]
nombre de fois o X 1 =
n
----------------------------------------------------------- = = =
x
Statistiques descriptives
2001 - 2002 Biostatistiques - Boisvieux, Golmard, Mallet & Morice 65/159
Exemple
Dans le cas de ltude dun signe clinique, en codant 1 la prsence du signe clinique,
(donc p
0
) sera la frquence exprimentale de la prsence du signe ou encore le pourcentage
des individus prsentant le signe ( un facteur 100 prs).
En rsum
si X est une variable de Bernoulli,
sa moyenne vraie = p
sa variance vraie = p(1 - p)
UNE PROPORTION OBSERVEE EST UNE MOYENNE EXPERIMENTALE.
7.6 Conclusion : la variable alatoire
moyenne exprimentale
On a jusquici associ une valeur de moyenne exprimentale une srie de n ralisations dune
variable alatoire quantitative X. Mais chaque exprience consistant recueillir n ralisations de
la variable X permet de calculer une valeur, diffrente chaque exprience, de moyenne expri-
mentale. Autrement dit, la moyenne exprimentale doit tre vue comme une nouvelle variable
alatoire ; on la notera . Dans certains cas, afin de rappeler que cette variable dpend de n, on
notera la variable construite partir de n ralisations de X. On utilisera la terminologie
suivante :
on dira que (ou si ncessaire) est la VARIABLE ALEATOIRE MOYENNE EXPERIMEN-
TALE DEDUITE DE LA VARIABLE ALEATOIRE X, FONDEE SUR n REPETITIONS
ou, de faon quivalente que (ou si ncessaire) est la VARIABLE ALEATOIRE MOYEN-
NE EXPERIMENTALE ASSOCIEE A LA VARIABLE ALEATOIRE X, FONDEE SUR n RE-
PETITIONS
Remarque
Dans le cas o X est une variable de Bernoulli, sera not p
0n
(et simplement p
0
). Il sagit
dune proportion observe dont on connat dj pratiquement la distribution puisque
np
0n
~ B(n, p) (voir section 6.1.2 page 47).
x
X
X
n
X X
n
X X
n
X
n
X
Statistiques descriptives
66/159 Biostatistiques - Boisvieux, Golmard, Mallet & Morice 2001 - 2002
Rsum du chapitre
1. Une variable alatoire est une variable observable au cours dune exprience et dont la va-
leur peut varier dune exprience lautre de faon non prvisible.
2. Reprsentation dune variable
3. Moyennes (variables quantitatives + variables de Bernoulli)
4. Variances (variables quantitatives)
5. Variables centre et centre rduite associes une variable X
Si X est une variable alatoire de moyenne et de variance
2
,
la variable (X - ) est dite variable centre associe X,
la variable est dite variable centre rduite associe X.
rpartition dun
chantillon
reprsentation de la population
variable qualitative rpartition exprimentale rpartition vraie
variable quantitative
discrte
histogramme en btons rpartition vraie
variable quantitative
continue
histogramme densit de probabilit
moyenne exprimentale moyenne vraie
variable discrte
variable continue
variable de Bernoulli
variances exprimentales variances vraies
variable discrte
variable continue
x
1
n
-- - x
i
i 1 =
n

= val
j
P variable val
j
= ( )
j 1 =
k

=
x
1
n
-- - x
i
i 1 =
n

=
xf x ( ) x d

=
x est note p
0
P variable 1 = ( ) est note p =
s
2 n
n 1
------------
1
n
--- x
i
2
i 1 =
n

x
2
=
2
val
j
( )
2
j 1 =
k

P variable val
j
= ( ) =
s
2 n
n 1
------------
1
n
--- x
i
2
i 1 =
n

x
2
=

2
x ( )
2
f x ( ) x d

=
X

-------------
Fluctuations de la moyenne exprimentale : la variable alatoire moyenne exprimentale
2001 - 2002 Biostatistiques - Boisvieux, Golmard, Mallet & Morice 67/159
Chapitre 8
Fluctuations de la moyenne
exprimentale : la variable
alatoire moyenne
exprimentale
On conserve le contexte dtude du chapitre prcdent, cest--dire lexamen de la variabilit dune
grandeur (variable alatoire) dans une population dindividus ou units statistiques. Mais on sin-
tresse ici la variable alatoire moyenne exprimentale .
8.1 Premire proprit de la moyenne
exprimentale
8.1.1 Un exemple
Prenons nouveau le cas dune variable discrte pouvant prendre les deux valeurs 0 et 1 [cest--
dire variable associe prsence-absence ou oui-non]. Supposons que lon ait des raisons de penser
que P(X = 0) = P(X = 1) = 1/2. On a vu quune telle variable a pour moyenne vraie 1/2, pour va-
riance vraie 1/4.
On peut, par le calcul, pronostiquer le rsultat dune rptition dexpriences. En particulier, cal-
culer la rpartition de la variable moyenne exprimentale calcule sur un chantillon de deux
individus , note , ici deux lancers de pice.
On isole cette variable. Quelles valeurs peut-elle prendre, avec quelles probabilits ?
X
2
Fluctuations de la moyenne exprimentale : la variable alatoire moyenne exprimentale
68/159 Biostatistiques - Boisvieux, Golmard, Mallet & Morice 2001 - 2002
Ainsi,
Alors :

Ainsi la variance vraie de la moyenne exprimentale est plus faible que la variance vraie de la va-
riable dorigine (la moiti ici). La moyenne vraie reste inchange. Et ainsi vont les choses si la taille
des chantillons (ici 2) qui constituent les units statistiques augmente. La dispersion de diminue
au fur et mesure que se trouve calcule sur la base dun chantillon de taille croissante. Le
comment de cette situation peut tre rsum ainsi : les valeurs de la moyenne exprimentale
deviennent de plus en plus probables dans un voisinage de la moyenne vraie car le nombre de si-
tuations pouvant donner une valeur exprimentale proche de la moyenne vraie augmente dans ce
voisinage. Cela est d au fait que la moyenne vraie est au milieu des valeurs possibles. On le
voit sur lexemple ci-dessus o la moyenne vraie est obtenue dans les deux cas (0, 1) et (1, 0). Cest
encore plus perceptible sur lexemple dun d. Pour que la moyenne exprimentale calcule sur
deux jets de d soit 6, il faut obtenir le rsultat (6, 6) ; pour quelle soit 3, il faut un total de 6, cest-
-dire (5, 1), (4, 2), (3, 3), (2, 4), (1, 5), soit un vnement 5 fois plus probable.
Il est possible de quantifier tout cela. On peut gnraliser ce qui a t obtenu avec deux jets de pi-
ces et on obtient, quelle que soit la distribution de la variable tudie - quelle soit continue ou
discrte - les rsultats fondamentaux suivants.
8.1.2 Gnralisation
i. La moyenne vraie de la moyenne exprimentale calcule sur un chantillon de taille n con-
cide avec la moyenne vraie de la variable tudie, ce que lon peut rsumer par :
ii. La variance vraie de la moyenne exprimentale calcule sur un chantillon de taille n est ga-
le la variance vraie de la variable DIVISEE PAR n, ce que lon peut rsumer par :
jet 1 :
rsultats
Proba
jet 2 :
rsultats
Proba
Proba
jet1, jet2
0 1/2 0 1/2 1/4 1/2(0+0) = 0
0 1/2 1 1/2 1/4 1/2(0+1) = 1/2
1 1/2 0 1/2 1/4 1/2(1+0) = 1/2
1 1/2 1 1/2 1/4 1/2(1+1) = 1
X
2
P X
2
0 = ( )
1
4
--- = P X
2
1
2
--- =
( ,
j \
1
4
---
1
4
--- +
1
2
-- - = = P X
2
1 = ( )
1
4
-- - = , ,
moyenne vraie de X
2
0
1
4
---
1
2
---
1
2
--- 1
1
4
--- + +
1
2
--- moyenne vraie de X = = =
variance vraie de X
2
0
1
2
---
( ,
j \
2
1
4
---
1
2
---
1
2
-- -
( ,
j \
2
1
2
--- 1
1
2
---
( ,
j \
2
1
4
--- + +
1
8
---
1
2
---
1
4
--- = = =
X
X
X
n
( ) X ( ) =
Fluctuations de la moyenne exprimentale : la variable alatoire moyenne exprimentale
2001 - 2002 Biostatistiques - Boisvieux, Golmard, Mallet & Morice 69/159
8.2 Seconde proprit de la moyenne
exprimentale : le thorme central limite
On souhaiterait comparer, par curiosit, les distributions de plusieurs moyennes exprimentales,
correspondant diverses variables alatoires. Par exemple la taille, la glycmie. Ces distributions
sont diffrentes, ne serait-ce qu cause des diffrences entre moyennes et variances vraies. Pour
sabstraire de ces premires diffrences, considrons la variable centre rduite associe, soit pour
chaque variable considre :
Maintenant toutes ces variables ont en commun leur moyenne vraie (0) et leur variance (1). Il se
passe quelque chose dextraordinaire : lorsque n est suffisamment grand, elles finissent par avoir
en commun leur distribution, leur densit de probabilit.
Cela signifie que les distributions de toutes ces variables (moyennes exprimentales centres r-
duites issues de variables alatoires diffrentes) finissent par concider, lorsque n est suffisam-
ment grand, avec une distribution particulire unique. Cette distribution sappelle LOI
NORMALE, et puisque sa moyenne vraie est nulle et sa variance vraie est 1, on lappelle LOI
NORMALE CENTREE REDUITE ou encore distribution de Gauss ou de Laplace-Gauss (1800).
On la notera schmatiquement N(0, 1) o 0 rappelle la valeur de la moyenne vraie, 1 la valeur de
la variance vraie.
Donc la proprit ci-dessus - connue sous le nom de thorme central limite - snonce :
THEOREME CENTRAL LIMITE
Soit X une variable alatoire quantitative desprance mathmatique , de variance vraie
2
. Soit
la variable alatoire moyenne exprimentale associe X construite sur n rptitions.
do la relation entre carts-types :

2
X
n
( )
1
n
-- -
2
X ( ) =
X
n
( )
1
n
------- X ( ) =
X
n
X
n
( )
X
n
( )
-------------------------- soit
X
n
X ( )
X ( )
n
------------
------------------------
X
n
Fluctuations de la moyenne exprimentale : la variable alatoire moyenne exprimentale
70/159 Biostatistiques - Boisvieux, Golmard, Mallet & Morice 2001 - 2002
Il faut bien mesurer la porte de cette proprit. Quel que soit le phnomne tudi - apprci par
la variable alatoire que lon tudie - il suffit de connatre la moyenne et la variance de la variable
pour dduire la distribution (la densit de probabilit) - cest--dire lexpression la plus acheve
des proprits de variabilit - de la moyenne exprimentale calcule sur un chantillon de taille suf-
fisante. Nous reviendrons plus loin sur cette notion vague taille suffisante . Or cest peu de con-
natre moyenne, variance (ou cart-type) seulement - ex. : pour le poids la naissance = 3 kg,
= 1,2 kg.
8.3 Etude de la distribution normale (rappel)
La distribution limite que lon a mise en vidence dpeint une variable alatoire de moyenne vraie
0, de variance vraie 1, que lon a appele distribution normale centre rduite ou N(0, 1).
Cest une fonction dont lquation est et lallure est reprsente sur la figure 5.
Ses principales caractristiques morphologiques sont les suivantes :
elle est symtrique,
elle prsente deux points dinflexion en x = 1 et x = -1
Par ailleurs, pour faciliter les calculs de probabilit relatifs cette variable, des tables ont t cons-
truites qui donnent le lien entre et u

, o ces valeurs ont le sens suivant (voir figure 5) :


En particulier, pour = 0,05, la valeur u

lue dans la table est 1,96, do u


0,05
= 1,96
On peut voir facilement que toute probabilit sobtient partir dune telle table, quel-
les que soient les valeurs de a et b.
La distribution limite de la variable alatoire est la distribution
normale centre rduite note N(0,1).
X
n

n
-------
---------------
f x ( )
1
2
----------e
x
2
2
----
=
P X u

; +u

[ ] ( ) =
P X a b [ , ] ( )
Fluctuations de la moyenne exprimentale : la variable alatoire moyenne exprimentale
2001 - 2002 Biostatistiques - Boisvieux, Golmard, Mallet & Morice 71/159
Figure 5 : loi normale centre rduite
Remarque
Sur la base de cette loi centre rduite, on dfinit toute une famille de lois de la faon
suivante :
Si X est distribue selon une loi normale centre rduite (notation X ~ N (0, 1)),
alors la variable Y = X + , dont la moyenne vraie est et la variance vraie
2
, est distri-
bue selon une loi normale de moyenne et de variance
2
.
On crit Y ~ N (,
2
)
A linverse, si on dit que X ~ N (,
2
)
cela veut dire que (variable centre rduite associe).
Exemple
La figure 6. prsente laspect de deux distributions normales lune N(0, 1), lautre
N(2,9 , 4).
Figure 6 : exemple de lois normales
Rsum et prcisions (thorme central limite)
Si n est suffisamment grand, X ayant pour moyenne vraie , pour variance vraie
2
, alors :
X

------------- N 0 1 , ( )
X
n

n
-------
--------------- N 0 1 , ( ) ( peu prs)
Fluctuations de la moyenne exprimentale : la variable alatoire moyenne exprimentale
72/159 Biostatistiques - Boisvieux, Golmard, Mallet & Morice 2001 - 2002
ou, de faon quivalente,
o la notation ~ se lit : est distribu comme ou suit une distribution .
a. Cette proprit est exacte quel que soit n si X elle-mme est gaussienne (i.e. est dis-
tribue normalement).
b. si X nest pas gaussienne :
si X est continue, la condition de validit usuelle est n 30
si X est une variable de Bernoulli (valeurs 0 et 1), la condition usuelle de validit
est
En outre dans ce cas, = p,
2
= p (1 - p) si bien que lon aura :
ou, de faon quivalente,
8.4 Application du thorme central limite.
Intervalle de Pari (I. P.)
8.4.1 Dfinition de lintervalle de pari (I. P.) dune moyenne
exprimentale
On considre une variable alatoire de moyenne vraie et de variance vraie
2
.
On sait que pour n grand (n 30, ou np et n(1 - p) 5) :
la variable est approximativement distribue selon N (0, 1).
On se pose le problme suivant. On sapprte raliser une srie dexpriences, cest--dire me-
surer la variable X sur un chantillon de n individus. Peut-on construire un intervalle [a, b] tel que
la probabilit pour que la moyenne exprimentale que lon sapprte calculer appartienne cet
intervalle, ait un niveau donn ? Il sagit donc de construire un intervalle qui contienne avec une
probabilit fixe la valeur exprimentale que lon va obtenir.
X
n
N

2
n
------ ,
( ,
j \
( peu prs)
np 5 et
n 1 p ( ) 5

p
0n
p
p 1 p ( )
n
--------------------
------------------------ N 0 1 , ( ) ( peu prs)
p
0n
N p
p 1 p ( )
n
-------------------- ,
( ,
j \
( peu prs)
u
X
n

n
-------
--------------- =
Fluctuations de la moyenne exprimentale : la variable alatoire moyenne exprimentale
2001 - 2002 Biostatistiques - Boisvieux, Golmard, Mallet & Morice 73/159
Il sagit donc de trouver deux valeurs a et b telles que .
Exemple :
Un tel intervalle [a, b] sappelle INTERVALLE DE PARI (I. P.) de niveau 1 - , ou encore in-
tervalle de pari au risque .
La figure 7 illustre le problme pos.
Figure 7 : le problme de lintervalle de pari
Ce problme admet plusieurs solutions : on choisit gnralement un intervalle symtrique autour
de .
Rsolution :
La valeur inconnue doit vrifier :
Si le thorme central limite sapplique, lexpression ci-dessus suit une loi N(0, 1) ; notons-la u.
Alors doit vrifier . Cest le u

de la table.
Finalement : = u

et
P a X
n
b ( ) valeur donne 1 = =
P a X
n
b ( ) 0 95 , =
a

n
------- et b

n
------- + = =
P

n
------- X
n


n
------- +
( ,
j \
1 =
P

n
------- X
n


n
-------
( ,
j \
1 =
P
X
n

n
-------
---------------
( ,
, (
, (
, (
j \
1 =
P u ( ) 1 =
P u

n
------- X
n
u

n
------- +
( ,
j \
1 =
Fluctuations de la moyenne exprimentale : la variable alatoire moyenne exprimentale
74/159 Biostatistiques - Boisvieux, Golmard, Mallet & Morice 2001 - 2002
Exemple : = 0,05 u

= 1,96
Les conditions de validit de cette construction sont celles du thorme central limite, cest--dire
n 30 pour les variables continues non normales et np, n(1 - p) 5 pour les variables de Bernoul-
li.
Cas dune variable de Bernoulli : est note p,
2
= p (1 - p). Donc
Linterprtation de lintervalle de pari est fondamentale. Si cet intervalle est bien calcul, on est
sr, avec une probabilit 1 - , dobtenir une valeur de la moyenne exprimentale comprise dans
cet intervalle. En pariant que la valeur va tomber dans cet intervalle, on se trompera dans 5 pour
cent des expriences.
Exemple :
On a des raisons de penser que la frquence dune maladie dans la population est p = 0,2. Linter-
valle de pari de la moyenne exprimentale (proportion observe) calcule sur 64 individus au ni-
veau 0,95 est :
Il y a 95 chances sur 100 pour que la proportion observe tombe dans cet intervalle.
8.4.2 Les facteurs de dpendance de la longueur de
lintervalle de pari (IP)
La longueur de lIP est
la longueur dpend de
La longueur de est suprieure la longueur de si
Exemple
= 0,05 u
0,05
= 1,96
= 0,01 u
0,01
= 2,57
Intervalle de Pari (I. P.) de la moyenne exprimentale dune variable de moyenne vraie
, de variance vraie
2
construite sur un chantillon de taille n
IP
1
u

n
------- ; u

n
------- + =
IP
0 95 ,
1 96

n
------- , ; 1 96

n
------- , + =
IP
0 95 ,
p 1 96
p 1 p ( )
n
-------------------- , ; p 1 96
p 1 p ( )
n
-------------------- , + =
IP
0 95 ,
0 2 ,
1 96 , 0 2 1 0 2 , ( ) ,
64
--------------------------------------------- ; 0 2 ,
1 96 , 0 2 1 0 2 , ( ) ,
64
--------------------------------------------- + 0 10 ; 0 30 , , [ ] = =
2u

n
-------
IP
1 '
IP
1
' <
Fluctuations de la moyenne exprimentale : la variable alatoire moyenne exprimentale
2001 - 2002 Biostatistiques - Boisvieux, Golmard, Mallet & Morice 75/159
la longueur dpend de n
La longueur de dcrot avec n. Cest le reflet du fait connu selon lequel les fluctuations
dchantillonnage sestompent avec n
Exemple
Dans le cas ci-dessus, si on remplace n = 64 par n = 6400, on obtient
Remarque
Pour rduire dans un rapport 2 la longueur de lIP, il faut un chantillon 4 fois plus
grand (2
2
).
8.4.3 Lintervalle de pari dune variable alatoire
Ce que lon a dit pour une moyenne exprimentale peut senvisager pour une variable X quelcon-
que dont on connat la distribution.
LIP de niveau 1 - est lintervalle [a, b] tel que .
Exemple :
X ~ N(0, 1)
Une valeur numrique retenir :
pour une variable alatoire normale centre rduite IP
0,95
= [-1,96 ; 1,96]
IP
1
IP
0 95 ,
0 19 ; 0 21 , , [ ] =
P a X b ( ) 1 =
IP
1
u

; u

[ ] =
Fluctuations de la moyenne exprimentale : la variable alatoire moyenne exprimentale
76/159 Biostatistiques - Boisvieux, Golmard, Mallet & Morice 2001 - 2002
Rsum du chapitre
1. Proprits de la moyenne exprimentale dune variable alatoire X, moyenne calcule sur
n units statistiques :
2. Thorme central limite
Si X a pour moyenne vraie , pour variance vraie
2
, est, lorsque n est suffisamment grand
(n 30, ou np et n(1 - p) 5), peu prs distribue comme une variable normale de moyenne
vraie et de variance vraie , ce que lon crit :
3. Intervalle de pari (I. P.)
Lorsque les conditions ci-dessus sont satisfaites, lintervalle
a la proprit suivante :
Cet intervalle sappelle intervalle de pari (I. P.) de niveau 1-, ou intervalle de pari au risque
.
moyenne vraie de = moyenne vraie de X
variance vraie de =
X
n
X
n
X
n
variance vraie de X
n
----------------------------------------------
X
n

2
n
X
n
N

2
n
------ ,
( ,
j \
ou
X
n

n
-------
--------------- N 0 1 , ( )
IP
1
u

n
------- ; u

n
------- + =
P X
n
IP
1
( ) 1 =
Le premier problme dinduction statistique : les tests dhypothses. Principes
2001 - 2002 Biostatistiques - Boisvieux, Golmard, Mallet & Morice 77/159
Chapitre 9
Le premier problme
dinduction statistique : les
tests dhypothses. Principes
Les tests dhypothses sont fonds sur les intervalles de pari.
Ce chapitre traite du principe des tests ; des prcisions concernant leur usage sont indiques au cha-
pitre 13.
9.1 Un exemple concret (emprunt
Schwartz)
Une varit de souris prsente des cancers spontans avec un taux (une frquence ou proportion
dans la population) constant bien connu, 20 %. On se demande si un traitement donn modifie ce
taux (en plus ou en moins), cest--dire est actif. Pour rpondre cette question on procde une
exprience sur 100 souris ; il sagira, au vu du pourcentage observ p
0
danimaux cancreux, de
dire si le traitement est actif. Il nest pas possible de rpondre au sens strict cette question.
Supposons que le traitement soit sans effet ; alors chaque souris traite aura toujours 20 chances
sur 100 de devenir cancreuse. Mais le pourcentage de souris cancreuses, calcul sur un chan-
tillon de 100 souris sera soumis aux fluctuations dchantillonnage que lon a tudies. Le pour-
centage exprimental (moyenne exprimentale) pourra prendre a priori, cest--dire avant
exprience, plusieurs valeurs, mme si les valeurs voisines de 0,2 sont les plus probables. Des va-
leurs de 0 ou 100 % pourraient mme tre observes. Ainsi mme si le pourcentage observ est trs
diffrent de 20 %, il est possible que le traitement soit sans effet.
Supposons maintenant que le traitement soit actif ; la probabilit de cancer pour chaque souris (ou
la proportion vraie de souris cancreuses dans une population fictive de souris traites) est , dif-
frente de 0,2. Encore cause des fluctuations dchantillonnage, on pourra trs bien, peut tre de
faon peu probable, obtenir une frquence observe gale 20 %. Ainsi mme si le pourcentage
p'
Le premier problme dinduction statistique : les tests dhypothses. Principes
78/159 Biostatistiques - Boisvieux, Golmard, Mallet & Morice 2001 - 2002
observ est 20 %, il est possible que le traitement soit actif.
Pourtant ne pas rpondre serait renoncer considrer tous les problmes lis la variabilit, cest-
-dire tous les problmes biologiques. Alors on rpondra, mais en acceptant un risque der-
reur. Rpondre correspond la dmarche que chacun adopterait ; par exemple, dclarer le traite-
ment actif si le taux exprimental de cancers aprs traitement scarte nettement de 20 %. Cest
le sens que lon peut donner ce nettement qui est le fondement du principe des tests.
Dans le cas tudi, on aurait tendance sy prendre de la faon suivante. Deux hypothses sont en
prsence :
le traitement est inactif,
le traitement est actif.
La premire hypothse est plus fine que la seconde car elle porte en elle une interprtation
numrique : le pourcentage vrai de souris cancreuses parmi les souris traites est 0,2 - lautre hy-
pothse indiquant seulement que ce pourcentage est diffrent de 0,2 ; ce qui est plus vague. Sup-
posons alors vraie lhypothse la plus fine. Il devient possible de faire des dductions : sachant ce
qui se passe au niveau de la population des souris traites on peut en dduire ce qui se passera au
niveau dun chantillon. En particulier, on sait construire les intervalles de pari centrs de niveau
1 - pour la frquence observe.
Par exemple, prenant = 0,05, on obtient IP
0,95
= [0,12 ; 0,28]
Cela signifie, rappelons-le, que si p = 0,2 (frquence suppos vraie), 95 % des valeurs des moyen-
nes exprimentales calcules sur 100 individus appartiendront lintervalle [0,12 ; 0,28].
On adopte alors la stratgie suivante : si la valeur exprimentale de la frquence de souris canc-
reuses parmi les 100 traites appartient cet intervalle, on considre que cette valeur est compatible
avec les fluctuations dchantillonnage et lactivit du traitement nest pas prouve. Si la valeur
exprimentale nappartient pas cet intervalle, le traitement sera considr comme actif. Dans ce
dernier cas le raisonnement est le suivant. Cet vnement (la frquence exprimentale est lext-
rieur de lintervalle de pari) avait moins de 5 chances sur 100 de se produire et pourtant il sest
produit ; donc je ne crois plus lhypothse qui ma permis de dduire ces 5 % de chances.
Remarque : reformulation des calculs
Notons p
0
la proportion observe de souris traites dveloppant un cancer, sur les n souris traites.
Le rsultat du test sera de conclure ou non lactivit du traitement selon que
cest--dire :
On ne peut donc rpondre avec certitude la question pose.
p
0
ou IP
1

p
0
ou p
h
u

p
h
1 p
h
( )
n
------------------------- ; p
h
u

p
h
1 p
h
( )
n
------------------------- +
Le premier problme dinduction statistique : les tests dhypothses. Principes
2001 - 2002 Biostatistiques - Boisvieux, Golmard, Mallet & Morice 79/159
o p
h
est la proportion hypothtique (0,2 dans lexemple) et u

la borne de lintervalle de pari au


risque de p
0
.
On suppose ici que les conditions du thorme central limite sont satisfaites. On conclut donc selon
que
ou encore selon que
On reconnat dans la dernire expression lintervalle de pari dune variable alatoire
N(0, 1), intervalle indpendant de lexprience projete.
Cest comme cela que lon abordera gnralement les tests ; on cherchera construire une variable
alatoire dont on connaisse, si lhypothse fine est vraie, la distribution, pour pouvoir construire un
intervalle de pari ; ici il sagirait de la variable alatoire z dduite de la variable alatoire moyenne
exprimentale selon :
avec p
h
= 0,2 (transcription de lhypothse).
Une telle variable alatoire sappelle usuellement paramtre du test et est note conventionnel-
lement u ou t ou z. Ici on sait que z ~ N(0, 1) et lon construit lintervalle de pari de niveau 1 -
pour z. Par exemple avec = 0,05 , IP
0,95
= [-1,96 ; 1,96].
Puis on ralise lexprience ce qui permet dobtenir p
0
donc une valeur exprimentale de z, note
z
c
comme z
calcule
; on pourrait alors sexprimer comme ceci (une terminologie plus prcise sera
indique plus loin) :
si on ne peut dire que le traitement est actif
si le traitement est actif.
Nous allons, la lumire de cet exemple, numrer les tapes de mise en uvre dun test et revenir
sur diffrents aspects (sens de par exemple) avant de donner dautres exemples de tests usuels
p
0
p
h
ou u

p
h
1 p
h
( )
n
------------------------- ; u

p
h
1 p
h
( )
n
-------------------------
p
0
p
h

p
h
1 p
h
( )
n
-------------------------
----------------------------- ou u

; u

[ ]
IP
1
z
p
0
p
h

p
h
1 p
h
( )
n
-------------------------
----------------------------- =
z
c
IP
0 95 ,

z
c
IP
0 95 ,

Le premier problme dinduction statistique : les tests dhypothses. Principes


80/159 Biostatistiques - Boisvieux, Golmard, Mallet & Morice 2001 - 2002
9.2 Principe gnral des tests dhypothses
La mise en uvre dun test statistique ncessite plusieurs tapes.
9.2.1 Les tapes de mises en uvre
Etape 1
Avant le recueil des donnes.
Dfinir avec prcision les deux hypothses en prsence H
0
et H
1
. H
0
et H
1
jouent toujours
des rles dissymtriques.
Une des hypothses doit tre prcise, ou fine. Elle engage une galit gnralement ; cest
elle qui sera H
0
et on lappellera hypothse nulle,
H
0
: hypothse nulle
Exemple : la frquence vraie dapparition du cancer chez les souris traites est 0,2, ce qui
se transcrit par p = 0,2 (gnralement p = p
h
).
Le principe des tests est dadmettre cette hypothse H
0
sauf contradiction flagrante entre
ses consquences et les rsultats exprimentaux.
Lautre hypothse est toujours plus vague ; elle regroupe toutes les hypothses, hormis
H
0
. Cest H
1
et on lappellera hypothse alternative,
H
1
: hypothse alternative
Exemple : la frquence vraie dapparition du cancer chez les souris traites est diffrente
de 0,2, qui se transcrit par p 0,2 (gnralement p p
h
).
Remarque : la formulation de ces hypothses ncessite gnralement une traduction et une
simplification du problme mdical sous-jacent.
Etape 2
Avant le recueil des donnes.
On suppose que H
0
est vraie et on cherche dfinir une variable alatoire (ou paramtre)
dont on connait alors la distribution. En dautres termes, on cherche construire une fonc-
tion des donnes venir dont on connait la distribution si H
0
est vraie. Soit z cette variable
alatoire.
Exemple : z
p
0
p
h

p
h
1 p
h
( )
n
-------------------------
----------------------------- = N 0 1 , ( )
Le premier problme dinduction statistique : les tests dhypothses. Principes
2001 - 2002 Biostatistiques - Boisvieux, Golmard, Mallet & Morice 81/159
Si possible, vrifier les conditions de validit.
Etape 3
Avant le recueil des donnes.
Choisir un seuil. Typiquement = 0,05 (une quasi obligation en pratique)
Construire un intervalle de pari (pour le paramtre z) de niveau 1 - , not . Rappe-
lons quil sagit dun intervalle tel que si H
0
est vraie, alors
Exemple : pour z ci-dessus = [-1,96 ; 1,96]
Dfinition : lextrieur de lintervalle de pari sappelle rgion critique du test au
seuil .
Etape 4
Avant le recueil des donnes.
Dfinir la rgle de dcision. Les donnes vont permettre de calculer une valeur de z, que
lon note z
c
.
Exemple :
Alors dcider que :
si z
c
appartient la rgion critique, remettre en cause H
0
,
la rejeter, et conclure H
1
est vraie, ou dire : au risque , H
0
est rejete .
si z
c
nappartient pas la rgion critique, mais lintervalle de pari , dire que
lon ne conclut pas, ou dire que lon ne rejette pas lhypothse nulle H
0
.
Etape 5
Recueil des donnes
Raliser lexprience. On recueille les donnes x
1
, ..., x
n
; calculer z
c
et conclure.
Si non fait ltape 2, vrifier les conditions de validit.
Etape 6
Interprtation des rsultats
Cette tape concerne linterprtation des rsultats en des termes compatibles avec le pro-
blme mdical initialement soulev, et concerne en particulier le problme de la causalit.
Ce point sera dtaill au chapitre 13.
Exemple : dans le cas des souris, et en cas de conclusion au rejet de lhypothse nulle, la
question serait de savoir si ce rejet exprime vritablement une activit du traitement.
IP
1
P z IP
1
( ) 1 =
IP
1
IP
1
z
c
p
rellement observ
p
h

p
h
1 p
h
( )
n
-------------------------
------------------------------------------------ =
IP
1
Le premier problme dinduction statistique : les tests dhypothses. Principes
82/159 Biostatistiques - Boisvieux, Golmard, Mallet & Morice 2001 - 2002
9.2.2 Justification de la rgle de dcision. Choix de
9.2.2.1 Interprtation de
On a dj vu une interprtation de avec lexemple des souris. De faon gnrale, est la proba-
bilit pour que la valeur exprimentale - ou calcule - z
c
appartienne la rgion critique si H
0
est
vraie. Si cet vnement se ralise, on rejette H
0
. Cela ne se justifie que si est petit car alors on
dit : voil un vnement qui avait 100 % chances de se raliser (5 % par exemple) - donc peu de
chances - et qui pourtant sest ralis : les rsultats ne sont pas conformes lhypothse doit
tre petit.
Une autre interprtation de montre encore mieux que doit tre petit. A nouveau, lorsque H
0
est
vraie, la probabilit dobtenir un rsultat z
c
dans la rgion critique est . Mais alors on dit H
1
est
vraie . Donc
= probabilit de conclure H
1
alors que H
0
est vraie
Cest un risque derreur quil convient de situer dans des valeurs acceptables (petites).
Cette valeur sappelle RISQUE DE PREMIERE ESPECE.
Cela veut dire que sur un grand nombre dexpriences, en admettant , on conclura tort dans
100 % des cas (5 % des cas par exemple). Pourquoi alors ne pas choisir un microscopique ?
9.2.2.2 Effet dun changement de valeur de
Les intervalles de pari croissent lorsque leur niveau augmente, cest--dire lorsque diminue.
Donc, toutes choses gales par ailleurs, la rgion critique diminue lorsque dcrot. Donc on re-
jette moins frquemment H
0
.
A vouloir commettre moins derreurs, on conclut plus rarement.
On sexpose donc un autre risque : celui de ne pas conclure alors quil le faudrait car H
0
est faus-
se. A la limite, si on se fixe = 0, on ne conclut jamais, H
0
nest jamais rejete.
Prendre une dcision, cest accepter un risque.
[
] [
]
[ ]
= 0,1
= 0,05
= 0,01
IP
IP
IP
Le premier problme dinduction statistique : les tests dhypothses. Principes
2001 - 2002 Biostatistiques - Boisvieux, Golmard, Mallet & Morice 83/159
Pour finir avec ce problme de il faut retenir :
La valeur de doit tre fixe a priori : jamais en fonction des donnes
Pire que cela, on choisit la valeur = 0,05 qui est un compromis entre le risque de conclure
tort et la facult de conclure, compromis adopt par lensemble de la communaut scienti-
fique.
9.2.3 Justification des conclusions du test. Puissance dun test
On comprend maintenant la partie de la rgle de dcision conduisant au rejet de H
0
lorsque la va-
leur calcule du paramtre nappartient pas lintervalle de pari. On a par ailleurs indiqu (voir
ltape 4 de mise en uvre des tests) que lorsque la valeur calcule du paramtre appartient lin-
tervalle de pari, cest--dire lorsque les rsultats exprimentaux ne sont pas contradictoires avec
lhypothse nulle, on sexprime avec beaucoup de prcautions oratoires puisquon demande de
dire : on ne conclut pas ou on ne rejette pas lhypothse nulle . Pourquoi ne pas affirmer plus
directement lhypothse nulle est vraie ?
Premier lment
En faisant cela, on adopte une dmarche qui sapparente la dmarche scientifique qui con-
siste admettre une thorie jusqu la preuve de son chec. Lorsque lon dit admettre
on ne signifie pas que la thorie est vraie mais quelle rend compte pour linstant - jusqu
plus ample inform - des expriences.
Exemples
la mcanique gnrale admise jusqu la thorie de la relativit
la mcanique cleste
Second lment
Supposons que lon mette en parallle les deux tests suivants :
Les paramtres calculs, soit
seront extrmement voisins, donc les conclusions pratiquement toujours les mmes.
H
0
: p = 0,2 H
0
: p = 0,200001
H
1
: p 0,2 H
1
: p 0,200001
0,2 0,200001
z
c
p
rellement observ
p
h

p
h
1 p
h
( )
n
-------------------------
------------------------------------------------ =
Le premier problme dinduction statistique : les tests dhypothses. Principes
84/159 Biostatistiques - Boisvieux, Golmard, Mallet & Morice 2001 - 2002
Considrons alors une exprience au cours de laquelle pour les deux valeurs
calcules. Peut-on conclure la fois p = 0,2 et p = 0,200001 ? Pourtant on peut remarquer
quil ny a pas de vice de fond au niveau de la formulation des hypothses car il existe bien
une valeur vraie, cest--dire quil y a vraiment une hypothse vraie du type p = quelque
chose.
On retient : les tests ne sont pas faits pour dmontrer H
0
, mais pour la rejeter.
Cela ne veut pas dire que lon est toujours content de rejeter H
0
.
Exemples
cas des souris traites. L on aimerait probablement rejeter H
0
, cest--dire conclure
lactivit du traitement.
cas dun test dhomognit. On vous livre un nouveau lot de souris ou des souris dun
autre levage. Vous voulez continuer vos recherches. La premire chose faire est de
tester lhypothse selon laquelle ces nouvelles souris sont similaires aux prcdentes
vis--vis du taux de cancer, H
0
: p = 0,2. Mais l vous esprez bien ne pas rejeter
H
0
. Cest cette condition que vous pouvez continuer.
PUISSANCE DUN TEST
Revenons la conclusion lactivit du traitement nest pas dmontre . Sous entendu
compte tenu de lexprience effectue. Cela na de sens de sexprimer comme cela que sil
est pensable quune autre exprience, plus complte par exemple, puisse montrer cette ef-
ficacit si elle existe.
Cest le cas, en effet. Laptitude dun test rejeter lhypothse nulle alors quelle est fausse
est limite. Prcisment :
On appelle PUISSANCE DUN TEST la probabilit de rejeter lhypothse nulle alors
quelle est fausse.
La valeur complmentaire 1 de cette puissance, cest--dire la probabilit de ne pas rejeter
lhypothse nulle alors que lhypothse alternative est vraie, sappelle le RISQUE DE
DEUXIEME ESPECE et se note conventionnellement .
Le calcul de la puissance dun test est une opration complexe. La difficult tient essentiel-
lement au fait que lhypothse alternative est vague. Pour contourner cette difficult et ap-
prcier plus troitement cette notion de puissance, considrons le cas dune hypothse
alternative fine. Par exemple, reprenant lexemple des souris, supposons que lhypothse
H
1
soit p = 0,3, lhypothse H
0
restant inchange, cest--dire p = 0,2. Dans ces condi-
tions, il est possible de calculer la distribution de la proportion observe, non plus seule-
ment sous lhypothse nulle, mais galement sous lhypothse alternative. On obtient :
sous lhypothse nulle (p = 0,2) :
sous lhypothse alternative (p = 0,3) :
z
c
IP
0 95 ,

p
0
N 0 2 ,
0 2 1 0 2 , ( ) ,
n
----------------------------- ,
( ,
j \

p
0
N 0 3 ,
0 3 1 0 3 , ( ) ,
n
----------------------------- ,
( ,
j \

Le premier problme dinduction statistique : les tests dhypothses. Principes


2001 - 2002 Biostatistiques - Boisvieux, Golmard, Mallet & Morice 85/159
Figure 8 : risque de deuxime espce dun test
La figure 8 prsente les deux distributions correspondantes, pour une certaine valeur de n.
Supposons alors juste lhypothse H
1
; la valeur exprimentale p
0
sera issue de la distribu-
tion de droite, et lon conclura tort au non rejet de H
0
avec une probabilit gale laire
grise, puisque cette aire est la probabilit pour que la valeur exprimentale appartienne
lintervalle de pari associ au test, sachant que cette valeur exprimentale est gouverne par
la distribution associe H
1
. Ainsi la valeur de cette aire grise exprime le risque de deuxi-
me espce , son complmentaire 1 la puissance du test.
Supposons pour fixer les ides que la valeur de cette aire soit 0,4. Cela signifie que si les
hypothses sont p = 0,2 et p = 0,3, on aura 6 chances sur dix seulement de rejeter lhy-
pothse p = 0,2 lorsque p sera gal 0,3. Autrement dit, 4 fois sur dix, on sera incapable
de dtecter que p vaut 0,3 et non 0,2.
Figure 9 : risque de deuxime espce dun test
Par ailleurs, on peroit que plus les hypothses H
0
et H
1
sont contrastes (par exemple les
hypothses p = 0,2, p = 0,4 sont plus contrastes que les hypothses p = 0,2, p = 0,3), plus
les distributions de p
0
sous ces deux hypothses sont loignes , et plus la puissance est
grande. Cest la raison pour laquelle on dit souvent que la notion de puissance est proche
de la notion de pouvoir discriminant entre hypothses.
Le premier problme dinduction statistique : les tests dhypothses. Principes
86/159 Biostatistiques - Boisvieux, Golmard, Mallet & Morice 2001 - 2002
La figure 9 reproduit les conditions de la figure 8, mais avec une valeur de n accrue. Autre-
ment dit le mme test est mis en uvre, mais sur un nombre dunits statistiques suprieur.
On constate sur cette figure que le risque de deuxime espce est trs faible. Ce rsultat est
gnral :
TOUTES CHOSES EGALES PAR AILLEURS, LA PUISSANCE DUN TEST AUG-
MENTE AVEC LA TAILLE DE LECHANTILLON
Remarque
Les calculs de puissance bauchs ci-dessus, joints au rsultat prcdent, permettent de r-
pondre des questions du type :
combien de sujets est-il ncessaire dinclure dans un essai pour avoir de bonnes chan-
ces (9 chances sur dix par exemple) de mettre en vidence une diffrence entre pro-
portions vraies dau moins 0,1 ?
si je dispose de 100 sujets, quelle diffrence minimum entre proportions vraies suis-je
capable de dtecter avec une probabilit de 0,9 ?
Les dveloppements ci-dessus montrent que lorsque vous navez pas rejet lhypothse
nulle, vous pouvez toujours dire que cest un manque de puissance du test puisque H
0
est
sans doute fausse (pensons p = 0,2 exactement). On peut donc dire quavec un plus grand
nombre dindividus vous auriez rejet H
0
. Cela justifie lexpression lactivit du traite-
ment nest pas dmontre .
Cependant il faut tre raliste : reprenons lexemple des souris traites ou non traites.
Vous avez ralis votre exprience sur un chantillon de 1000 souris. Rsultat du test : non
rejet de H
0
cest--dire lactivit nest toujours pas dmontre. Il nest pas raisonnable dans
ces conditions dvoquer un manque de puissance du test ; ce rsultat suggre plutt une
trs faible activit du traitement, si elle existe.
9.2.4 Amlioration de linterprtation du rejet de H
0
9.2.4.1 Notion de degr de signification
Supposons que lon ralise un test au risque ou seuil = 0,05.
Considrons deux expriences conduisant au rejet de H
0
, pour lesquelles on a obtenu des valeurs
calcules du paramtre z
1c
et z
2c
reprsentes ci-dessous.
On aurait envie de rejeter plus fortement H
0
dans le second cas que dans le premier. En effet, con-
sidrons des intervalles de pari pour z, de niveau croissant partir de 0,95.
Le premier problme dinduction statistique : les tests dhypothses. Principes
2001 - 2002 Biostatistiques - Boisvieux, Golmard, Mallet & Morice 87/159
On observe que z
1c
est lextrieur des intervalles de pari jusquau niveau 0,97, que z
2c
est lex-
trieur des intervalles de pari jusquau niveau 0,999. Cela signifie que, en ce qui concerne la pre-
mire exprience, H
0
aurait t rejete mme si on avait limit le risque derreur 1 - 0,97 = 0,03
(soit 3 %), et que, en ce qui concerne la seconde, H
0
aurait t rejete mme si on avait limit le
risque derreur 1 - 0,999 = 0,001 (soit 1). Cest ce pseudo risque derreur que lon appelle de-
gr de signification et qui mesure la force avec laquelle on rejette H
0
.
Ce degr de signification est not p : plus il est petit, plus confortable est le rejet.
Si lon veut une dfinition plus prcise :
Dfinition
Lorsque H
0
est rejete, on appelle degr de signification dun test le risque associ au plus grand
intervalle de pari qui ne contient pas le paramtre calcul z
c
.
Calcul pratique du degr de signification
On cherche dans la table la valeur de p pour laquelle u
p
= z
c
, u
p
tant du type u

Exemple: z
c
= 2,43.
On trouve dans la table u
0,02
= 2,32 et u
0,01
= 2,57
alors
La valeur exacte ne se trouve pas dans la table : on dira p < 0,02. Le plus grand intervalle de pari
ne contenant pas z
c
est de niveau > 0,98, ou au risque < 0,02.
La plupart des rsultats de tests sexpriment avec ce degr de signification :
On ralise le test (avec un risque = 0,05)
Si H
0
est rejete, on calcule ou on value le degr de signification p
Si H
0
nest pas rejete, on ne calcule pas p.
9.2.4.2 Orientation du rejet
Le rejet de H
0
correspond gnralement lune des deux situations :
rejet car z
c
est trop petit (infrieur la borne infrieure de lintervalle de pari)
ou car z
c
est trop grand (suprieur la borne suprieure de lintervalle de pari)
[
] [
]
[ ]
IP
0,95
] [
IP
0,97
IP
0,99
IP
0,999
z
1c
z
2c
p 0 01 ; 0 02 , , [ ]
Le premier problme dinduction statistique : les tests dhypothses. Principes
88/159 Biostatistiques - Boisvieux, Golmard, Mallet & Morice 2001 - 2002
Dans le cadre de lexemple prcdent, chacune de ces situations correspond gnralement des
commentaires radicalement diffrents. Par exemple :
z
c
est trop petit le traitement est efficace
z
c
trop grand le traitement est nuisible
Le premier problme dinduction statistique : les tests dhypothses. Principes
2001 - 2002 Biostatistiques - Boisvieux, Golmard, Mallet & Morice 89/159
Rsum du chapitre
A. Etapes de mise en uvre des tests :
1. Examiner le problme mdical, aboutir une formulation sous forme dune question
simple mettant en jeu deux hypothses H
0
(prcise, dite hypothse nulle) et H
1
(contraire
de H
0
, dite hypothse alternative). Enoncer ces hypothses.
2. Construire un paramtre dpendant des donnes venir dont on connaisse la distribution
si H
0
est juste.
3. Choisir le seuil ; = 0,05
4. Mettre en place la rgle de dcision sur la base dun intervalle de pari au risque .
5. Faire lexprience, les calculs et conclure sur le plan statistique. En particulier indiquer
le degr de signification du test en cas de rejet de lhypothse nulle.
6. Se livrer une interprtation mdicale des rsultats du test (ce point sera revu au chapitre
13).
Vrifier les conditions de validit ltape 2 ou ltape 5.
B. Mettre en uvre un test cest accepter deux risques derreur :
le risque de premire espce, , chiffrant la probabilit de rejeter H
0
alors quelle est
vraie,
le risque de deuxime espce, , chiffrant la probabilit de ne pas rejeter H
0
alors quelle
est fausse.
La valeur 1- sappelle la puissance du test et mesure laptitude du test dtecter un cart en-
tre la ralit et lhypothse nulle. Cette puissance augmente avec la taille des chantillons sur
lesquels a t mis en uvre le test.
Quelques tests usuels
2001 - 2002 Biostatistiques - Boisvieux, Golmard, Mallet & Morice 91/159
Chapitre 10
Quelques tests usuels
10.1 Test dgalit dune proportion vraie
une valeur donne (ou test de comparaison
dune proportion observe une valeur
donne)
10.1.1 Mise en place du test
Exemple : les souris du chapitre prcdent
1. Les hypothses en prsence
H
0
(hypothse nulle) : la proportion vraie (dans la population des souris traites) est gale
p
h
(proportion hypothtique ou suppose quon se donne pour le test).
H
1
(hypothse alternative) : la proportion vraie est diffrente de p
h
.
Notations :
H
0
: p = p
h
H
1
: p p
h
2. Dfinition du paramtre
o p
0
reprsente la variable alatoire proportion exprimentale.
Sous H
0
, z est peu prs distribue selon N(0, 1)
[conditions de validit : np
h
5 et n(1 - p
h
) 5]
3. Choix dun seuil de signification
z
p
0
p
h

p
h
1 p
h
( )
n
-------------------------
----------------------------- =
Quelques tests usuels
92/159 Biostatistiques - Boisvieux, Golmard, Mallet & Morice 2001 - 2002
Construction de lintervalle de pari de niveau 1 - :
Exemple : = 0,05 IP
0,95
= [-1,96 ; 1,96] (lu dans la table de la distribution normale)
4. Mise en place de la procdure de dcision
Lorsque les donnes seront disponibles on obtiendra une valeur du paramtre z, soit z
c
.
Si on rejette H
0
et on dit : au risque lhypothse dgalit de la proportion vraie
et de la valeur donne est fausse ; ou, au risque , la proportion vraie est diffrente de la valeur
donne.
Si on ne rejette pas H
0
ou on ne conclut pas .
5. Recueil des donnes. Conclusion
Rappelons les conditions de validit: np
h
5 et n(1 - p
h
) 5
10.1.2 Autre interprtation du paramtre z
c
Regardons la forme du paramtre z
c
. On conclut (cest--dire on rejette H
0
) si
cest--dire si soit si :
cest--dire si la proportion observe p
0
est suffisamment diffrente de p
h
. Voil pourquoi on dit
que lon compare p
0
et p
h
. Cest pourquoi on dit aussi, lorsque H
0
est rejete :
Trs important : une mme diffrence |p
0
- p
h
| peut tre ou non significative selon la valeur de n.
Si lon vous demande : p
0
= 0,25 et 0,2, sont-elles significativement diffrentes, ne rpondez-pas ;
demandez : quelle est la taille de lchantillon sur lequel p
0
a t calcul, quel risque ?
La proportion observe est significativement diffrente de la valeur donne, au
risque (0,05), ou encore : la diffrence entre p
0
et p
h
est significative. Ce qui
indique une diffrence entre la valeur donne et la proportion vraie p.
Lorsque H
0
nest pas rejete, on dit : la proportion observe nest pas significati-
vement diffrente de la valeur donne.
IP
1
z
c
IP
1

z
c
IP
1

z
c
u

; u

[ ]
z
c
u

>
p
0
p
h
u

p
h
1 p
h
( )
n
------------------------- >
Quelques tests usuels
2001 - 2002 Biostatistiques - Boisvieux, Golmard, Mallet & Morice 93/159
10.2 Test dgalit dune moyenne vraie une
valeur donne (ou test de comparaison dune
moyenne observe une valeur donne)
Ce cas concerne les variables quantitatives continues.
Exemple : la moyenne vraie de la taille des individus dans une sous-population concide-t-elle
avec la moyenne vraie de la taille des individus dans la population gnrale, cette taille moyenne
tant connue par ailleurs.
Il convient l de distinguer deux cas
le cas des grands chantillons (n 30)
le cas des petits chantillons
10.2.1 Cas des grands chantillons
1. Les hypothses en prsence :
H
0
: la moyenne vraie concide avec la valeur donne
h
: =
h
H
1
:
h
2. Construction du paramtre
z est peu prs distribu selon N(0, 1). Cela rsulte du thorme central limite, ceci prs que
s
2
est utilis la place de
2
. On admettra que z est tout de mme distribu selon une distri-
bution normale.
3. Choix du seuil ; = 0,05
Construction de lintervalle de pari centr
; u
0,05
= 1,96
4. Dfinition de la rgle de dcision
La rgle de dcision est tout fait similaire au cas des proportions.
Si , rejet de H
0
. On dit alors : au risque la moyenne vraie diffre de la valeur
donne ou, pour les mmes raisons que pour les proportions : la moyenne exprimentale ob-
serve est significativement diffrente, au risque , de la valeur donne ; ou encore : la
z
x
h

s
2
n
----
-------------- =
IP
1
IP
1
u

; u

[ ] =
z
c
IP
1

Quelques tests usuels


94/159 Biostatistiques - Boisvieux, Golmard, Mallet & Morice 2001 - 2002
moyenne observe et la valeur donne sont significativement diffrentes, au risque .
Si , on ne conclut pas. La moyenne observe nest pas significativement diffrente
de la valeur donne.
10.2.2 Cas des petits chantillons (n < 30)
1. Les hypothses restent les mmes
h
, et
h
2. Construction du paramtre
L encore, deux cas se prsentent :
i. la variable que lon sapprte observer, X, a une distribution quelconque : alors on ne
sait pas franchir cette tape.
ii. la variable est normale (gaussienne), alors la densit de probabilit de la variable
peut se calculer ; cette densit sappelle loi de Student. En ralit cette densit reste d-
pendante de la taille de lchantillon sur lequel on sapprte raliser lexprience, soit
n, si bien que lon est amen - pour faire face toutes les situations exprimentales -
considrer une famille de distributions indexes par une valeur entire que lon appelle
le nombre de degrs de libert de la loi de Student.
On dit de la variable t ci-dessus quelle suit une LOI DE STUDENT A (n-1) DEGRES
DE LIBERTE.
3. Choix de . Construction de lintervalle de pari
Comme dans le cas de la loi normale, des tables ont t construites qui permettent dobtenir
les intervalles de pari de niveau 1-. Ces intervalles de pari sont symtriques par rapport
zro, cest--dire de la forme [-t

; t

]. Pour se rappeler la dpendance de t

vis--vis du
nombre de degrs de libert, on note la valeur t

selon t

(n-1).
Exemples :
n = 10 9 ddl IP
0,95
= [-2,26 ; 2,26]
n = 15 14 ddl IP
0,95
= [-2,14 ; 2,14]
n = 20 19 ddl IP
0,95
= [-2,09 ; 2,09]
Remarque : ddl est une abrviation de degrs de libert .
4. Rgle de dcision : comme dhabitude selon que t
c
appartient ou non
5. Recueil des donnes. Conclusion
Remarque : lorsquon ralise ce test on dit que lon utilise un test de Student. Ce test est utilisable
z
c
IP
1

t
x
h

s
2
n
----
-------------- =
IP
1
IP
1
Quelques tests usuels
2001 - 2002 Biostatistiques - Boisvieux, Golmard, Mallet & Morice 95/159
mme pour les grands chantillons mais alors t

est trs peu diffrent de u

10.3 Test dgalit de deux proportions vraies


(ou test de comparaison de deux proportions
observes)
Reprenons lexemple des souris mais en supposant maintenant que lon ne connat plus la frquen-
ce vraie de cancer chez les souris non traites (le 0,2 dalors). On se pose toujours la mme question
relative lactivit du traitement. On est amen reformuler lgrement le problme et identifier
labsence dactivit du traitement lgalit des proportions vraies de souris cancreuses dans deux
populations, lune traite lautre non traite, et lactivit une diffrence entre ces deux pourcen-
tages. On notera A et B les deux populations, p
A
et p
B
les frquences vraies de souris cancreuses
dans ces deux populations, n
A
et n
B
les tailles des chantillons sur lesquels on calculera p
0A
et
p
0B
, les frquences exprimentales correspondantes. Mettons en place le test.
1. Les hypothses en prsence
H
0
hypothse nulle : les frquences vraies concident p
A
= p
B
H
1
hypothse alternative : les frquences vraies sont diffrentes p
A
p
B
2. Construction dun paramtre dont on connaisse la loi sous lhypothse nulle (i.e. si H
0
est
vraie)
Cest une tape un peu dlicate (le lecteur peu curieux peut passer rapidement sur ces dve-
loppements). Essayons de nous ramener un cas connu : comparaison dun pourcentage ob-
serv une valeur donne, problme associ aux hypothses suivantes :
H
0
: p = p
h
H
1
: p p
h
On y parvient en reformulant les hypothses
H
0
: p
A
- p
B
= 0
H
1
: p
A
- p
B
0
Il sagit donc de comparer 0 la diffrence p
A
- p
B
.
Auparavant on formait le paramtre
qui peut sinterprter comme
Alors on va former
p
0
p
h

p
h
1 p
h
( )
n
-------------------------
-----------------------------
% exprimental valeur thorique
cart-type du % exprimental
-----------------------------------------------------------------------------------
diffrence des % exprimentaux valeur thorique
cart-type des diffrences des % exprimentaux
--------------------------------------------------------------------------------------------------------------------------
Quelques tests usuels
96/159 Biostatistiques - Boisvieux, Golmard, Mallet & Morice 2001 - 2002
soit
La difficult est de former lexpression de lcart type des diffrences des % exprimentaux.
Remarquons dabord que les variables alatoires p
0A
et p
0B
sont indpendantes ; cette ind-
pendance rsulte du fait que ce nest pas parce que lon a trouv une souris cancreuse dans
la population des souris traites que lon a plus ou moins de chances de trouver une souris can-
creuse ou non dans la population non traite.
Alors : var(p
0A
- p
0B
) = var(p
0A
) + var(-p
0B
) = var(p
0A
) + var(p
0B
) (voir chapitre 5)
Par ailleurs, sous lhypothse nulle, les moyennes vraies de p
0A
et p
0B
concident avec une
valeur p - inconnue. Do :
si n
A
et n
B
sont les tailles des chantillons sur lesquels p
0A
et p
0B
sont calcules.
Donc :
Maintenant, p reste inconnu ; il sagit de la valeur vraie commune des pourcentages. Le
mieux pour lestimer est de mlanger les deux populations - elles contiennent sous H
0
le
mme pourcentage de souris cancreuses - et dire :
soit :
Finalement on adopte le paramtre suivant :
avec
Sous lhypothse nulle z est peu prs distribue selon N(0, 1).
Conditions de validit :
3. Choix dun seuil de signification ( = 0,05).
Construction de lintervalle de pari lu dans une table.
ex. : IP
0,95
= [-1,96 ; 1,96]
4. Mise en place de la procdure de dcision
p
0A
p
0B

cart-type des diffrences des % exprimentaux


------------------------------------------------------------------------------------------------------------------
var p
0A
( )
p 1 p ( )
n
A
----------------- = et var p
0B
( )
p 1 p ( )
n
B
-------------------- =
var p
0A
p
0B
( )
p 1 p ( )
n
A
-----------------
p 1 p ( )
n
B
-------------------- + =
p proche de p

nombre de souris cancreuses dans les deux chantillons


nombre total de souris
--------------------------------------------------------------------------------------------------------------------------------------- =
p

n
A
p
0A
n
B
p
0B
+
n
A
n
B
+
------------------------------------ =
z
p
0A
p
0B

1 p

( )
n
A
-----------------
p

1 p

( )
n
B
-------------------- +
------------------------------------------------- =
p

n
A
p
0A
n
B
p
0B
+
n
A
n
B
+
------------------------------------ =
n
A
p

5 n
A
1 p

( ) 5 ,
n
B
p

5 n
B
1 p

( ) 5 ,

IP
1
Quelques tests usuels
2001 - 2002 Biostatistiques - Boisvieux, Golmard, Mallet & Morice 97/159
Si z
c
, dont on connatra la valeur une fois lexprience ralise
IP
0,95
on ne conclut pas
IP
0,95
on rejette H
0
: une proportion est alors plus grande que lautre.
5. Ralisation de lexprience, calcul de z
c
, conclusion.
10.4 Test dgalit de deux moyennes vraies
(ou test de comparaison de deux moyennes
observes)
Exemple : la moyenne vraie de la taille des individus dans une sous-population A concide-t-elle
avec la moyenne vraie de la taille des individus dans une autre sous-population B, ces moyennes
vraies ntant pas connues. On va raliser une exprience mettant en jeu deux chantillons issus
des deux populations, lissue de laquelle on disposera de deux sries de valeurs de taille (les nom-
bres de valeurs observes sont nots respectivement n
A
et n
B
).
L encore il convient de distinguer deux cas.
10.4.1 Cas des grands chantillons (n
A
et n
B
30)
Il sagit dun problme trs proche du prcdent
1. Les hypothses en prsence
H
0
hypothse nulle : les moyennes vraies dans les deux populations concident
A
=
B
H
1
hypothse alternative :
A

B
2. Construction du paramtre : cette construction suit les mmes lignes que prcdemment et on
obtient
o
z
x
A
x
B

s
A
2
n
A
-----
s
B
2
n
B
----- +
----------------------- =
x
A
1
n
A
----- x
iA
i 1 =
n
A

= et s
A
2 1
n
A
1
-------------- x
iA
x
A
( )
2
i 1 =
n
A

=
Quelques tests usuels
98/159 Biostatistiques - Boisvieux, Golmard, Mallet & Morice 2001 - 2002
les x
iA
et x
iB
tant les valeurs de tailles observes dans les chantillons des populations A et
B respectivement.
Alors z est peu prs distribue selon N(0, 1).
3. Choix dun seuil de signification (0,05)
Construction de lintervalle de pari (IP
0,95
)
4. Rgle de dcision
5. Mise en uvre de lexprience ; conclusion.
10.4.2 Cas des petits chantillons (n
A
ou n
B
< 30)
1. Les hypothses en prsence restent les mmes. Seul change le paramtre car le thorme cen-
tral limite ne sapplique plus. Pour pouvoir continuer faire quelque chose, il faut supposer :
que les caractres tudis - les variables alatoires tudies - sont distribus
normalement ;
que les variances des variables sont gales.
2. On montre qualors, sous lhypothse nulle, la loi du paramtre suivant est connue :
o s
2
est une approximation de la variance suppose commune des variables tudies.
Prcisment, on montre quil convient de calculer s
2
selon :
Dans ces conditions, t est nouveau une variable de Student (voir la section 10.2.2 consacre
la comparaison dune moyenne une valeur thorique), cette fois-ci (n
A
+ n
B
- 2) degrs
de libert.
3. Choix de : = 0,05
Construction de lintervalle de pari IP
0,95
lu dans une table
ex. : n
A
= 8, n
B
= 13, n
A
+ n
B
- 2 = 19 IP
0,95
= [-2,09 ; 2,09]
4. Procdure de dcision habituelle.
x
B
1
n
B
----- x
iB
i 1 =
n
B

= et s
B
2 1
n
B
1
-------------- x
iB
x
B
( )
2
i 1 =
n
B

=
IP
1
t
x
A
x
B

s
2
n
A
-----
s
2
n
B
----- +
----------------------- =
s
2
n
A
1 ( )s
A
2
n
B
1 ( )s
B
2
+
n
A
1 ( ) n
B
1 ( ) +
--------------------------------------------------------- =
Quelques tests usuels
2001 - 2002 Biostatistiques - Boisvieux, Golmard, Mallet & Morice 99/159
5. Ralisation de lexprience. Dcision.
10.5 Test de comparaison de deux moyennes.
Cas des sries apparies
Jusqu prsent on a suppos que les tirages (la constitution) des chantillons des populations A
et B taient indpendants. Il arrive que cette condition ne soit pas vrifie, que les individus des
deux chantillons soient lis. Ceci se produit dans les exemples suivants :
pour comparer le niveau de svrit de deux examinateurs, on fait corriger 100 copies par cha-
cun deux, cest--dire chacun corrigeant chacune de ces cent copies, et il sagit de comparer
les notes moyennes.
pour comparer deux mthodes de dosage de la glycmie on dose 100 prlvements de sang
par chacune de ces deux mthodes et lon souhaite comparer les valeurs moyennes vraies.
La procdure indique plus haut ne convient plus. A un moment de la mise en place des tests on
avait calculer la variance de la diffrence des moyennes exprimentales. On avait dit quelle con-
cide avec la somme des variances de chacune des moyennes. Ici, cest faux ; on peut sen convain-
cre facilement. Supposez quun correcteur accorde systmatiquement un point de plus que son
collgue toutes les copies. Alors, quoi quil arrive, la diffrence des moyennes exprimentales
sera 1, donc cette diffrence nest pas soumise aux fluctuations dchantillonnage ; sa variance est
nulle, donc na rien voir avec les variances de chacune des moyennes qui, elles - ces variances -
refltent les diffrences de qualit entre les copies.
On montre que le bon abord du problme est de travailler sur les diffrences obtenues (diffrence
des notes, diffrence des glycmies par individu) et de mettre lpreuve la nullit de la moyenne
de ces diffrences. Finalement cest plus simple car cela revient au problme de la comparaison
dune moyenne (moyenne des diffrences) zro. Voil un test que lon connat.
On note d la variable alatoire diffrence entre rsultats pour un mme sujet.
Les tapes de mise en uvre du test sont les suivantes :
1. H
0
: la moyenne vraie de d est nulle, soit = 0.
H
1
: la moyenne vraie de d est non nulle, soit 0.
2. Construction du paramtre
i. Cas des grands chantillons n 30
o s
2
est la variance exprimentale des diffrences, soit
n est le nombre de paires
z
d
s
2
n
----
--------- =
s
2 1
n 1
----------- - d
i
d ( )
2
i 1 =
n

=
Quelques tests usuels
100/159 Biostatistiques - Boisvieux, Golmard, Mallet & Morice 2001 - 2002
et est la moyenne exprimentale des diffrences.
On montre que z est peu prs distribue selon N(0, 1).
ii. Cas des petits chantillons n < 30
Si les diffrences sont distribues normalement, z est une variable de Student (n - 1)
degrs de libert.
Les tapes se succdent alors de faon ordinaire.
Remarque
Si les notes attribues par chacun des correcteurs varient gnralement dans le mme sens - cest-
-dire une copie mieux note quune autre par le premier examinateur le sera galement par le
second - alors la valeur absolue de z calcule sur la base de lappariement est suprieure la valeur
absolue que lon aurait obtenue en oubliant lappariement. Ainsi, toutes choses gales par
ailleurs, on conclura plus frquemment au rejet de lhypothse nulle : le test ainsi mis en place est
plus puissant. On a exploit plus dinformation. On a gomm une source de fluctuations, celle lie
la disparit de la qualit des copies. Si cet effet de variation dans le mme sens nest pas rel (ex.:
lorsque lun note la copie x, lautre la note 20 - x) le problme dans son ensemble na plus beau-
coup de sens.
d
Quelques tests usuels
2001 - 2002 Biostatistiques - Boisvieux, Golmard, Mallet & Morice 101/159
Rsum du chapitre
1. Comparaison dune proportion observe une valeur donne
; validit np
h
5 et n(1 - p
h
) 5
2. Comparaison dune moyenne observe une valeur donne
; validit n 30
; validit : normalit
3. Comparaison de deux proportions observes
validit :
4. Comparaison de deux moyennes observes
; validit n
A
et n
B
30
validit : normalit, variances gales
5. Comparaison de deux moyennes sur sries apparies
on travaille sur la diffrence des variables, d
; validit n 30
; validit la variable d est normale
z
p
0
p
h

p
h
1 p
h
( )
n
-------------------------
----------------------------- = N 0 1 , ( )
z
x
h

s
2
n
----
-------------- = N 0 1 , ( )
t
x
h

s
2
n
----
-------------- = Student n 1 ( )
z
p
0A
p
0B

1 p

( )
n
A
-----------------
p

1 p

( )
n
B
-------------------- +
------------------------------------------------- = N 0 1 , ( ) ; p

n
A
p
0A
n
B
p
0B
+
n
A
n
B
+
------------------------------------ =
n
A
p

5 n
A
1 p

( ) 5 n
B
p

5 n
B
1 p

( ) 5 , , ,
z
x
A
x
B

s
A
2
n
A
-----
s
B
2
n
B
----- +
----------------------- = N 0 1 , ( )
t
x
A
x
B

s
2
n
A
-----
s
2
n
B
----- +
----------------------- = Student n
A
n
B
2 + ( ) ; s
2
n
A
1 ( )s
A
2
n
B
1 ( )s
B
2
+
n
A
1 ( ) n
B
1 ( ) +
--------------------------------------------------------- =
z
d
s
2
n
----
--------- = N 0 1 , ( )
t
d
s
2
n
----
--------- = Student n 1 ( )
Tests concernant des variables qualitatives
2001 - 2002 Biostatistiques - Boisvieux, Golmard, Mallet & Morice 103/159
Chapitre 11
Tests concernant des variables
qualitatives
Introduction
On a jusqu prsent compltement nglig les variables qualitatives plus de deux moda-
lits. On a en effet toujours parl de moyenne, et cette notion nexiste pas pour les variables
qualitatives, sauf pour celles deux modalits grce un artifice de codage. Il ny a pas
dinstrument permettant de rsumer la distribution dune variable qualitative ; il faut con-
sidrer la distribution dans son ensemble, cest--dire lensemble des probabilits pour que
telle ou telle modalit se ralise. Pourtant des problmes de choix dhypothses se posent
galement dans le cas de telles variables ou tels caractres (ex : la rpartition [distribution]
de la couleur des cheveux est-elle la mme chez les habitants de tel dpartement et de tel
autre ?). Si la rpartition du caractre est connue dans une des deux populations, on aura
comparer une rpartition observe une rpartition donne. Si les deux rpartitions sont
inconnues, on aura comparer deux rpartitions observes . Ces problmes sont respec-
tivement les homologues des tests de comparaison dune moyenne une valeur donne, de
comparaison de deux moyennes. Il existe des tests adapts chacun de ces cas.
11.1 Comparaison dune rpartition observe
une rpartition donne ou test du
2

dajustement
Supposons que lon souhaite savoir si la rpartition de la couleur des cheveux dans la population
des habitants du dpartement A concide avec la rpartition de la couleur des cheveux dans la po-
pulation franaise, cette dernire rpartition tant suppose donne. Supposons quil y ait k cou-
leurs rpertories. On est alors amen considrer une variable qualitative k modalits. Notons
p
i
la probabilit de survenue de lvnement la i
me
modalit est observe .
Exemple :
p
1
= probabilit quun individu tir au hasard dans le dpartement A ait les cheveux blonds
p
2
= probabilit quun individu tir au hasard dans le dpartement A ait les cheveux bruns
Tests concernant des variables qualitatives
104/159 Biostatistiques - Boisvieux, Golmard, Mallet & Morice 2001 - 2002
etc...
Notons par ailleurs p
hi
la proportion vraie de la modalit i dans la population franaise.
On sapprte raliser une exprience sur n individus lissue de laquelle on disposera dun en-
semble de O
i
(O
i
= nombre dindividus prsentant la modalit i du caractre tudi, parmi les in-
dividus de lchantillon).
11.1.1 Les tapes de mise en uvre
1. Les hypothses en prsence
Deux hypothses sont en prsence :
i. la rpartition vraie de la variable dans la population tudie concide avec la rpartition
donne (hypothse nulle H
0
)
ii. les rpartitions diffrent (hypothse alternative H
1
)
Avec les notations prcdemment introduites, cela scrit :
H
0
: hypothse nulle : p
i
= p
hi
pour tous les i de 1 k.
H
1
: hypothse alternative : p
i
p
hi
pour au moins une modalit, cest--dire pour au moins
un i.
2. Construction du paramtre
On a dj mis en place ce test dans le cas dune variable (0 - 1) cest--dire dune variable
deux modalits. Dans ce cas, les hypothses en prsence taient bien du type ci-dessus cest-
-dire
H
0
: p = p
h1
et 1 - p = p
h2
= 1 - p
h1
ce qui scrit avec nouvelles notations :
p
1
= p
h1
et p
2
= 1 - p
h1
Mais on navait retenu que la condition p = p
h1
(en fait p = p
h
) car dans ce cas les deux con-
ditions ci-dessus sont redondantes.
Le paramtre retenu tait :
Calculons son carr
z
p
0
p
h1

p
h1
1 p
h1
( )
n
------------------------------
---------------------------------- =
z
2
n p
0
p
h1
( )
2
p
h1
1 p
h1
( )
------------------------------
n p
0
p
h1
( )
2
p
h1
------------------------------
n p
0
p
h1
( )
2
1 p
h1

------------------------------ + = =
z
2
np
0
np
h1
( )
2
np
h1
---------------------------------
n 1 p
0
( ) n 1 p
h1
( ) ( )
2
n 1 p
h1
( )
------------------------------------------------------------- +
np
0
np
h1
( )
2
np
h1
---------------------------------
n 1 p
0
( ) np
h2
( )
2
np
h2
----------------------------------------------- + = =
Tests concernant des variables qualitatives
2001 - 2002 Biostatistiques - Boisvieux, Golmard, Mallet & Morice 105/159
Or np
0
= nombre dindividus observs prsentant la valeur 1 cest--dire la modalit 1 de la
variable ; or sous H
0
la probabilit de cette modalit est p
h1
. On sattend donc observer np
h1
individus prsentant cette valeur. Ce nombre dindividus attendu sappellera effectif calcul
de la premire modalit et sera not C
1
.
De la mme faon, n(1 - p
0
) = nombre dindividus observs prsentant la valeur 0 cest--dire
la modalit 2 de la variable ; or sous H
0
la probabilit de cette modalit est p
h2
= 1 - p
h1
. On
sattend donc observer np
h2
individus prsentant cette valeur. Ce nombre dindividus atten-
du sappellera effectif calcul de la seconde modalit et sera not C
2
.
Do
o les O
i
reprsentent les effectifs observs dans les diffrentes modalits, les C
i
reprsentent
les effectifs np
hi
dits ou prvus ou CALCULES dans les diffrentes modalits.
GENERALISATION
Lorsque les variables considres ont plus de deux modalits, on gnralise le calcul ci-dessus
et on retient le paramtre suivant :
o la somme stend toutes les k modalits de la variable.
On rappelle que les O
i
sont les effectifs observs, et que les C
i
valent np
hi
.
On remarque que K
2
chiffre lcart entre ce qui est prvu thoriquement et ce qui est obtenu ;
cet cart se fonde naturellement sur les diffrences O
i
- np
hi
car np
hi
est le nombre attendu
dindividus prsentant la modalit i.
Exemple : si p
hi
= 0,4, sur 100 individus on en attend 40 prsentant la modalit i. Cest le
nombre que lon aurait si la distribution dchantillonnage concidait avec la distribution tho-
rique.
Par ailleurs on a pu montrer (rsultat d Pearson) que sous H
0
(et si tous les C
i
5) ce pa-
ramtre a une distribution qui ne dpend que du nombre de modalits, k. Cette distribution
porte le nom de DISTRIBUTION DE
2
.
Si bien que lon peut former - grce encore une table - un intervalle de pari de niveau donn
relatif cette variable.
RETENONS :
CONDITIONS DE VALIDITE : TOUS LES C
i
DOIVENT ETRE AU MOINS EGAUX A 5
3. Intervalle de pari tant choisi (0,05), construction de lintervalle de pari
La variable
2
a lallure prsente figure 10. On remarque quil serait stupide de choisir lin-
tervalle de pari centr dessin sur cette figure car alors des valeurs numriques voisines de
z
2
O
1
C
1
( )
2
C
1
--------------------------
O
2
C
2
( )
2
C
2
-------------------------- + =
K
2
O
i
C
i
( )
2
C
i
------------------------
i 1 =
k

=
IP
1
Tests concernant des variables qualitatives
106/159 Biostatistiques - Boisvieux, Golmard, Mallet & Morice 2001 - 2002
zro pour K
c
2
seraient dans la rgion critique du test ; or des valeurs proches de zro sont plu-
tt compatibles avec H
0
do le choix suivant (voir figure 11) :
Cest cette valeur, note qui est lisible directement dans une table.
Remarque : Notez que lintervalle nest pas symtrique.
Figure 10 : distribution de
2
Figure 11 : distribution de
2
Usage de la table
Cette table comporte - comme celle du t de Student - une entre entire appele nombre de
degrs de libert. Pour rappeler cette dpendance, la borne de lintervalle de pari se note
souvent o d est le nombre de degrs de libert. On montre que pour le test envisag ici
nombre de degrs de libert = nombre de modalits - 1
IP
1
0 ;

2
[ ] =

2
d ( )
Tests concernant des variables qualitatives
2001 - 2002 Biostatistiques - Boisvieux, Golmard, Mallet & Morice 107/159
Exemple : (5 ddl, si 6 modalits) = 11,07
La suite de la mise en place de ce test est usuelle.
4. Rgle de dcision
Si on ne conclut pas
Si H
0
est rejete. Cela signifie que lon conclut que la rpartition du caractre tudi
(par exemple la couleur des cheveux dans le dpartement A) ne concide pas - ou ne sajuste
pas - avec la rpartition donne (par exemple la rpartition de la couleur des cheveux dans la
population franaise). On admet, en formulant cette conclusion, un risque derreur gal .
5. Recueil des donnes et conclusion
Exemple numrique : le tableau ci-dessous prsente une application numrique de lexemple
considr.
Les conditions de validit sont vrifies (C
i
5).
On obtient ici :
On sait que K
2
est distribu selon un
2
(3-1) degrs de libert ; on lit dans la table :
(2 d.d.l.) = 5,99.
Ainsi, la valeur calcule nappartient pas lintervalle de pari : on conclut que la rpartition
du caractre ne concide pas avec la rpartition donne.
11.1.2 Cas particulier : variable deux modalits
On a vu que le paramtre du test K
2
gnralise lexpression du carr du paramtre z utilis pour
couleur des cheveux
blonds bruns roux total
effectifs observs
(O
i
)
25 9 3
37
(n)
effectifs calculs
(C
i
= np
hi
)
14,8 11,1 11,1 37
rpartition donne
(p
hi
)
0,4 0,3 0,3 1

0 05 ,
2
K
c
2

K
c
2

2
>
K
c
2 25 14 8 , ( )
2
14 8 ,
------------------------------
9 11 1 , ( )
2
11 1 ,
---------------------------
3 11 1 , ( )
2
11 1 ,
--------------------------- + + 13 3 , = =

0 05 ,
2
Tests concernant des variables qualitatives
108/159 Biostatistiques - Boisvieux, Golmard, Mallet & Morice 2001 - 2002
la comparaison dune proportion observe une valeur donne. Dans le cas dune variable deux
modalits (k = 2), ces deux paramtres concident : K
2
= z
2
.
En outre, et sinon il y aurait incohrence, on peut vrifier lgalit suivante :
Exemple : pour = 0,05 (1 d.d.l.) = 3,84 = (1,96)
2
Ainsi, pour comparer une rpartition observe une rpartition donne, dans le cas dune variable
deux modalits, on dispose de 2 tests quivalents, lun fond sur la distribution normale, lautre
fond sur la distribution du
2
1 d.d.l. (qui est en fait la distribution du carr de N(0, 1)).
On peut utiliser lun ou lautre de ces tests indiffremment.
Exemple : Reprenons lexemple du chapitre 9
Une race de souris prsente un taux de cancers spontans de 0,2. Sur 100 souris traites on observe
34 cancers soit p
0
= 0,34. La diffrence est elle significative ?
test de comparaison :
test du
2
:
Remarque : On parle souvent de ce test sous la terminologie test du
2
dajustement pour ex-
primer quil met lpreuve lajustement - la compatibilit - entre une rpartition exprimentale et
une rpartition donne.
cancer
absence de
cancer
rpartition thorique 0,2 0,8
effectif calcul 20 80
effectif observ 34 66
100
(effectif total)

2
1 ddl ( ) u

2
=

0 05 ,
2
z
c
0 34 , 0 2 ,
0 2 , 0 8 ,
100
----------------------
-------------------------- 3 5 , = =
K
c
2 34 20 ( )
2
20
-------------------------
66 80 ( )
2
80
------------------------- + 12 25 , 3 5 , ( )
2
= = =
Tests concernant des variables qualitatives
2001 - 2002 Biostatistiques - Boisvieux, Golmard, Mallet & Morice 109/159
11.2 Comparaison de deux rpartitions
observes ou test du
2
dhomognit
On reprend lexemple prcdent concernant la rpartition de la couleur des cheveux mais sans plus
supposer que lune de ces rpartitions est connue ; il sagit par exemple des rpartitions de ce ca-
ractre dans deux dpartements. On souhaite donc comparer deux rpartitions observes. Pour ce-
la, on sapprte raliser une exprience mettant en jeu deux chantillons, un chantillon de n
1
individus issu de la population des habitants du dpartement 1, et un chantillon de n
2
individus
issu de la population des habitants du dpartement 2. A lissue de cette exprience on disposera
dun ensemble deffectifs observs, nots de la faon suivante :
O
1i
est le nombre dindividus du premier chantillon prsentant la modalit i de la variable.
O
2i
est le nombre dindividus du second chantillon prsentant la modalit i de la variable.
Le test se met en place de la faon suivante :
1. Les hypothses en prsence
H
0
: les rpartitions vraies de la variable sont identiques dans les deux populations
H
1
: les rpartitions vraies sont diffrentes
Ces hypothses se schmatisent par :
H
0
: p
1i
= p
2i
pour toutes les modalits i.
H
1
: p
1i
p
2i
pour au moins une modalit i.
2. Construction du paramtre
Cest encore ici le point dlicat. La solution ressemble dans son approche celle du problme
de la comparaison de deux pourcentages. Cl du principe : on mlange les deux populations
pour calculer une pseudo-rpartition thorique. On se retrouve alors pratiquement dans la si-
tuation du paragraphe prcdent. Cela se verra mieux sur un exemple. On va faire, pour des
raisons de simplicit de calcul, une petite entorse notre faon de procder, et directement
valuer le paramtre dont on connat la loi.
i. On construit ce que lon appelle un tableau de contingence qui contient les rsultats ex-
primentaux.
On a procd une exprience portant sur 37 individus issus de la population 1 et 40 in-
dividus issus de la population 2. Les rsultats sont les suivants :
Tests concernant des variables qualitatives
110/159 Biostatistiques - Boisvieux, Golmard, Mallet & Morice 2001 - 2002
Tableau 1 : effectifs observs (O
1i
et O
2i
)
ii. On construit une pseudo-rpartition de rfrence, en mlangeant les rsultats exprimen-
taux, cest--dire en oubliant leur origine (population 1 ou population 2).
On obtient les rsultats suivants, en termes deffectifs (premire ligne), puis en termes
de frquences (deuxime ligne).
Tableau 2 : rpartition de rfrence
Ces trois frquences, 0,49, 0,34, 0,17, vont jouer maintenant le rle des probabilits hy-
pothtiques p
hi
de la section 11.1. Pour la commodit de lcriture, on les note respecti-
vement p
1
, p
2
, p
3
.
iii. On forme le tableau des effectifs calculs.
Si lhypothse nulle est juste, cest--dire si les rpartitions de la couleur des cheveux
concident dans les deux dpartements, on sattend trouver des effectifs calculs com-
me suit :
effectif attendu pour la modalit i (modalit 1 = blond, modalit 2 = brun, modalit 3 =
roux) dans lchantillon j (j = 1 ou 2) : n
j
multipli par p
i
Par exemple le nombre attendu dindividus bruns dans lchantillon de la premire po-
pulation est : 37 0,34 = 12,6.
En effectuant systmatiquement ces calculs, on obtient le tableau des EFFECTIFS
CALCULES.
Tableau 3 : effectifs calculs (C
1i
et C
2i
)
iv. On calcule finalement le paramtre du test
blonds bruns roux nombre total
chantillon 1 25 9 3
37 = n
1
chantillon 2 13 17 10
40 = n
2
blonds bruns roux nombre total
mlange 38 26 13 77
frquences 38/77 = 0,49 26/77 = 0,34 13/77 = 0,17
blonds bruns roux
chantillon 1
18,1 (n
1
p
1
) 12,6 (n
1
p
2
) 6,3 (n
1
p
3
)
chantillon 2
19,6 (n
2
p
1
) 13,6 (n
2
p
2
) 6,8 (n
2
p
3
)
Tests concernant des variables qualitatives
2001 - 2002 Biostatistiques - Boisvieux, Golmard, Mallet & Morice 111/159
On montre que le paramtre adapt ce test est :
o k demeure le nombre de modalits de la variable.
On a souvent recours une expression plus compacte de lexpression ci-dessus et on
crit :
MAIS ICI LA SOMMATION SETEND A TOUTES LES CASES DES TABLEAUX,
numrotes grce lindice j .
Exemple : dans lexemple trait il sagira donc de calculer une somme de 6 termes.
On montre que, si H
0
est vraie, K
2
est distribu comme un
2
(3 - 1) (2 - 1) degrs de
libert [3 est le nombre de modalits, et 2 le nombre de rpartitions]
La VALIDITE de ce rsultat suppose que tous les effectifs calculs C
j
soient au moins
gaux 5.
GENERALISATION
Les calculs ci-dessus se gnralisent un nombre quelconque de modalits k, un nombre
quelconque de populations m.
Le paramtre K
2
calculer a alors la forme ci-dessus, o la somme comprend km termes.
La distribution de K
2
, sous H
0
est alors un
2
(k - 1) (m - 1) degrs de libert.
Les conditions de validit du test sont : C
j
5, 1 j km
3. La suite des tapes de mise en uvre est classique.
La valeur exprimentale de K
2
, soit K
c
2
, sera compare la valeur :
si on ne conclut pas. Il nest pas dmontr que les deux rpartitions vraies dif-
frent.
si on conclut que les deux rpartitions observes diffrent significativement.
Suite de lexemple : on obtient :
soit :
Or : (2 d.d.l.) = 5,99 rejet de H
0
. Les rpartitions observes de la couleur des cheveux
diffrent significativement dans les deux populations.
Remarque 1 : Ce test sappelle aussi test du
2
dhomognit de plusieurs rpartitions.
K
2
O
1i
C
1i
( )
2
C
1i
-----------------------------
i 1 =
k

O
2i
C
2i
( )
2
C
2i
-----------------------------
i 1 =
k

+ =
K
2
O
j
C
j
( )
2
C
j
------------------------
j 1 =
nombre de cases du tableau

0 05 ,
2
K
c
2

0 05 ,
2

K
c
2

0 05 ,
2
>
K
c
2 25 18 1 , ( )
2
18 1 ,
------------------------------
9 12 6 , ( )
2
12 6 ,
---------------------------
3 6 3 , ( )
2
6 3 ,
------------------------
13 19 6 , ( )
2
19 6 ,
------------------------------
17 13 6 , ( )
2
13 6 ,
------------------------------
10 6 8 , ( )
2
6 8 ,
--------------------------- + + + + + =
K
c
2
9 96 , =

0 05 ,
2
Tests concernant des variables qualitatives
112/159 Biostatistiques - Boisvieux, Golmard, Mallet & Morice 2001 - 2002
Remarque 2 : Cas particulier de deux variables deux modalits : dans le cas o lon con-
sidre deux variables deux modalits, cest--dire dans le cas o le tableau de contingence
est deux lignes et deux colonnes, on observe que le problme se rduit un problme de
comparaison de deux proportions observes. On montre que, dans ce cas, la valeur de K
2
concide avec le carr de la valeur de z, z tant le paramtre form pour comparer directement
ces proportions (voir chapitre 10).
11.3 Test dindpendance entre deux
variables qualitatives
Reprenons lexemple prcdent et supposons que les populations 1 et 2, plutt que de correspondre
des individus habitant le dpartement 1 et le dpartement 2, soient en fait :
population 1 : population des individus ayant les yeux bleus
population 2 : population des individus ayant les yeux verts
La question que lon aurait rsolue dans le paragraphe prcdent aurait t :
la rpartition de la couleur des cheveux diffre-t-elle dans les populations dindividus aux yeux
bleus ou verts. Ou encore, la rpartition de la couleur des cheveux diffre-t-elle selon la couleur
des yeux ? Autrement dit : la variable couleur des cheveux dpend-elle statistiquement de la varia-
ble couleur des yeux ?
Maintenant supposons que lon veuille rpondre cette question. Plutt que de prendre un chan-
tillon de la population des individus aux yeux bleus et un autre chantillon issu de la population
des individus aux yeux verts, autant prendre un chantillon de la population gnrale (cest--dire
quelle que soit la couleur de ses yeux) et observer conjointement la couleur des cheveux et la cou-
leur des yeux. Vues comme cela, les deux variables jouent bien des rles symtriques et le probl-
me est donc de mettre lpreuve leur indpendance.
1. Les hypothses en prsence.
On formule naturellement deux hypothses :
Hypothse H
0
les deux variables tudies (couleur des cheveux, couleur des yeux) sont indpendan-
tes. Sous cette hypothse, le fait davoir observ chez un individu la couleur de ses
cheveux (respectivement la couleur de ses yeux) napporte aucune information sur la
couleur de ses yeux (respectivement la couleur de ses cheveux).
On pourra se reporter au chapitre 5 dans lequel ont t commentes ces notions din-
dpendance.
On notera que, comme dans tous les cas rencontrs jusquici, cette hypothse est une
hypothse fine qui engage un ensemble dgalits.
Tests concernant des variables qualitatives
2001 - 2002 Biostatistiques - Boisvieux, Golmard, Mallet & Morice 113/159
En effet, on sait que lindpendance sexprime par :
P(la modalit de la couleur des cheveux est l et la modalit de la couleur des yeux est
c) = P(la modalit de la couleur des cheveux est l) P(la modalit de la couleur des
yeux est c), et ceci pour tous les choix possibles de l et c.
Remarque : on pourra vrifier que parmi les (nombre de modalits de la couleur des
cheveux nombre de modalits de la couleur des yeux) qui en rsultent, certaines ga-
lits sont redondantes, et que (nombre de modalits de la couleur des cheveux - l)
(nombre de modalits de la couleur des yeux - 1) suffisent exprimer les mmes con-
ditions.
Hypothse H
1
les deux variables tudies ne sont pas indpendantes.
Cette hypothse exprime le contraire de H
0
.
2. Le paramtre du test
Le paramtre est encore K
2
, et sexprime exactement comme prcdemment, cest--dire :
Ici le nombre de cases du tableau de contingence est gal au produit du nombre de modalits
de la premire variable et du nombre de modalits de la seconde variable.
Les effectifs calculs sobtiennent exactement comme dans le cas du paragraphe prcdent,
ainsi quon peut le voir sur lexemple numrique ci-dessous.
Un exemple numrique
Le tableau ci-dessous montre un exemple de tableau de contingence (Schwartz, 3e dition,
p79) ; cet exemple est similaire aux prcdents, si ce nest que lon a considr un plus grand
nombre de modalits pour la variable couleur des cheveux, et que la nouvelle variable intro-
duite (couleur des yeux) comporte trois modalits. Ces modalits remplacent les chantillons
considrs dans la section 11.2 page 109. Ainsi, la modalit bleu par exemple peut tre
lue : chantillon issu de la population des individus aux yeux bleus . La taille de cet chan-
tillon nest cependant plus matrise.
TRES IMPORTANT (des erreurs sont souvent commises)
HYPOTHESE NULLE : LES DEUX VARIABLES SONT INDEPENDANTES
HYPOTHESE ALTERNATIVE : LES DEUX VARIABLES SONT LIEES
K
2
O
j
C
j
( )
2
C
j
------------------------
j 1 =
nombre de cases du tableau

=
Tests concernant des variables qualitatives
114/159 Biostatistiques - Boisvieux, Golmard, Mallet & Morice 2001 - 2002
Les effectifs calculs sobtiennent comme prcdemment. Ainsi, leffectif calcul relatif au
couple blonds, marrons sera : 45/12433/124124 = 11,9.
REMARQUES
i. Pour allger les calculs, on peut remarquer que leffectif calcul relatif la cellule loca-
lise ligne l, colonne c est gal au rapport
du produit du total de la ligne l et du total de la colonne c,
et du total gnral.
ii. La somme des effectifs calculs, soit en ligne, soit en colonne, concide avec les mmes
sommes de nature exprimentale. Cette remarque permet une vrification partielle des
calculs.
iii. Dans la prsentation des calculs, on a procd au mlange des rsultats sans plus tenir
compte de la couleur des yeux (ce qui conduit sommer les lignes du tableau). On peut
de faon quivalente mlanger les rsultats exprimentaux sans plus tenir compte de la
couleur des cheveux, ce qui conduira sommer les colonnes du tableau de contingence
pour obtenir la rpartition de rfrence. On pourra vrifier que les rsultats du calcul sont
strictement les mmes, ce que lon attend compte tenu du rle symtrique jou par les
deux variables tudies.
Couleur
des yeux
Couleur des cheveux frquence
blonds bruns roux noirs total
bleus 25 9 7 3 44 44/124
gris 13 17 7 10 47 47/124
marrons 7 13 5 8 33 33/124
total 45 39 19 21 124
frquence 45/124 39/124 19/124 21/124 124/124
SOUS LHYPOTHESE NULLE DINDEPENDANCE entre les deux variables, K
2

EST DISTRIBUE SELON un
2
:
(nombre de modalits de la premire variable - 1) (nombre de modalits de la seconde
variable - 1)
DEGRES DE LIBERTE.
Tests concernant des variables qualitatives
2001 - 2002 Biostatistiques - Boisvieux, Golmard, Mallet & Morice 115/159
3. La suite des tapes est habituelle
En particulier, la rgle de dcision stablit comme suit :
si la valeur calcule de K
2
, note K
c
2
, est infrieure (ddl), on ne rejette pas lhypo-
thse dindpendance des deux variables.
si la valeur calcule K
c
2
est suprieure (ddl), on rejette lhypothse dindpendance
des deux variables. On dira alors que les deux variables sont lies, au risque .
Exemple :
Dans lexemple ci-dessus, la valeur de K
c
2
, rsultant de la sommation de 12 termes, est 15,1.
Le nombre de degrs de libert est : (4 - 1)(3 - 1) = 6, la valeur de associe tant 12,6
(lue dans une table). On rejette donc ici lhypothse dindpendance : couleur des cheveux et
couleur des yeux sont lies, ou encore sont dpendantes. Voyons une illustration de cette d-
pendance. Sur la base des donnes exprimentales on a :
P(yeux bleus) = 44/124 = 0,35
P(yeux bleus / cheveux blonds) = 25/45 = 0,56
La connaissance de la couleur des cheveux (ici la modalit blond ) modifie la rpartition
de la couleur des yeux (ici la frquence de la modalit bleu qui volue de 0,35 0,56). Le
test indique que cette modification est significative. En ralit la valeur de K
c
2
ci-dessus chif-
fre dans leur ensemble les diffrences entre P(A / B) et P(A), cest--dire les carts de
P(A et B) par rapport au produit P(A)P(B), o A est un vnement relatif la couleur des
yeux et B un vnement relatif la couleur des cheveux.
Les CONDITIONS DE VALIDITE sont encore : C
j
5.

0 05 ,
2
Tests concernant des variables qualitatives
116/159 Biostatistiques - Boisvieux, Golmard, Mallet & Morice 2001 - 2002
Rsum du chapitre
Tests du
2
. Effectifs observs O
j
, effectifs calculs C
j
.
Conditions de validit gnrales : C
j
5
Paramtre gnral :
Comparaison dune rpartition observe une rpartition donne (ajustement)
H
0
: La rpartition vraie sajuste la rpartition donne
H
1
: La rpartition vraie ne sajuste pas la rpartition donne
Nombre de cases = nombre de modalits
K
2
~
2
(nombre de modalits -1)
Comparaison de plusieurs rpartitions observes (homognit)
H
0
: Les rpartitions concident
H
1
: Les rpartitions diffrent
Nombre de cases = nombre de modalits nombre de rpartitions
K
2
~
2
((nombre de modalits -1) (nombre de rpartitions -1))
Test dindpendance de deux variables qualitatives
H
0
: Les deux variables sont indpendantes
H
1
: Les deux variables sont lies
K
2
~
2
((nb de modalits de 1
re
variable - 1) (nb de modalits de 2
me
variable - 1))
Dans les deux derniers cas, si l est le nombre de lignes, c le nombre de colonnes du tableau de con-
tingence, le nombre de degrs de libert des
2
est (l - 1)(c - 1).
K
2
O
j
C
j
( )
2
C
j
------------------------
j 1 =
nombre de cases du tableau

=
Liaison entre deux variables continues : notion de corrlation
2001 - 2002 Biostatistiques - Boisvieux, Golmard, Mallet & Morice 117/159
Chapitre 12
Liaison entre deux variables
continues : notion de
corrlation
12.1 Introduction
Nous avons rappel dans le chapitre prcdent la notion fondamentale dindpendance entre deux
variables qualitatives et vu la faon dont cette indpendance pouvait tre mise lpreuve lors
dune exprience. Dans le chapitre 10, les tests mis en uvre faisaient intervenir une variable quan-
titative continue et une variable qualitative encore juges dans leurs interdpendances. Il se trouve
quil existe une autre classe de problmes mettant en jeu encore deux variables alatoires, mais cet-
te fois-ci, deux variables continues. Considrons, par exemple, deux variables alatoires, linsuffi-
sance rnale (avec deux valeurs ou modalits prsence-absence) et linsuffisance hpatique (avec
les deux mmes modalits). Supposons que lon connaisse un indicateur de la fonction rnale (ou
de certains de ses aspects), la clairance la cratinine par exemple et un indicateur de la fonction
hpatique (ou de certains de ses aspects) la bilirubinmie et que le diagnostic dinsuffisance rnale
soit port lorsque la clairance est infrieure un seuil, celui dinsuffisance hpatique lorsque la bi-
lirubinmie est suprieure un autre seuil. On sait rsoudre (voir chapitre 11) la question de savoir
si les variables insuffisance rnale et insuffisance hpatique sont indpendantes ou lies. Toutefois,
compte tenu des prcisions donnes sur lorigine des diagnostics dinsuffisance rnale et dinsuf-
fisance hpatique, on est tent de reformuler le problme pos en ces termes : y a-t-il un lien entre
les variables alatoires clairance la cratinine et bilirubinmie ? Un niveau lev de lune est-il
annonciateur dun niveau lev de lautre ? Ou encore : la connaissance du niveau de lune mo-
difie-t-elle lide que lon se fait du niveau de lautre, non encore observe ? Cette dernire formu-
lation est trs proche de la formulation utilise pour discuter de lindpendance entre vnements :
la connaissance du fait quun vnement sest ralis (maintenant un niveau de clairance connu)
modifie-t-elle la plausibilit dun autre vnement (maintenant la bilirubinmie) ?
Les situations dans lesquelles on se pose naturellement la question de savoir si deux variables con-
tinues sont lies sont extrmement frquentes. Voil quelques exemples :
Liaison entre deux variables continues : notion de corrlation
118/159 Biostatistiques - Boisvieux, Golmard, Mallet & Morice 2001 - 2002
la consommation de cigarettes (quotidienne ou cumule) et la capacit respiratoire sont-elles
lies ?
la gastrinmie et la quantit de cellules ECL sont-elles lies ?
les valeurs de glycmie obtenues selon deux mthodes de dosage sur les mmes chantillons
sanguins sont-elles lies [ici, il faut lesprer].
12.2 Abord du problme
Considrons deux variables alatoires continues X (cratininmie) et Y (bilirubinmie). Imagi-
nons que nous ayons ralis une exprience consistant en lobservation conjointe du niveau de ces
deux variables sur un ensemble (chantillon) de n sujets. On dispose ainsi dun ensemble de cou-
ples de valeurs x
i
, y
i
. La reprsentation naturelle - sinon la meilleure - de ces rsultats est donne
dans la figure ci-dessous ; chaque couple de valeurs obtenu chez chaque individu est reprsent par
un point de coordonnes (cratininmie-bilirubinmie).
On lit sur un tel dessin, au moins grossirement, le domaine des valeurs possibles de X, le domaine
des valeurs possibles de Y.
Intressons nous un nouvel individu ; ne mesurons chez lui que la valeur de la cratininmie, x
0
.
Que peut-on dire alors, sur la base de cette connaissance et sur la base de lexprience ci-dessus
concernant le domaine des valeurs possibles de Y pour ce mme individu ? On peut proposer la
rponse gomtrique ou visuelle indique sur la figure ci-dessous.
x
x
x
x
x
x
x
x
x
x
x
x
x
x
x
x
x
x
x
x
x
x
x
x
x
x
x
x
x
x
x
x
x
x
x
domaine des
valeurs de X
domaine des
valeurs de Y
x (cratininmie)
y (bilirubinmie)
x
x
x
x
x
x
x
x
x
x
x
x
x
x
x
x
x
x
x
x
x
x
x
x
x
x
x
x
x
x
x
x
x
x
x
domaine des
valeurs de Y
sachant x
0
x (cratininmie)
y (bilirubinmie)
x
0
Liaison entre deux variables continues : notion de corrlation
2001 - 2002 Biostatistiques - Boisvieux, Golmard, Mallet & Morice 119/159
Le nouveau domaine possible - sachant x
0
- est trs voisin du domaine initial ; ceci se reproduit
pour toute valeur de x
0
. Il est alors clair que dans cet exemple, la connaissance de X napporte pas
dinformation sur celle de Y. On a ici une situation visuelle dun cas o les deux variables X et Y
sont indpendantes. On pourrait renverser le rle de X et Y, la conclusion serait la mme.
Considrons maintenant le cas o les rsultats exprimentaux produisent la reprsentation de la fi-
gure ci-dessous.
Dans ce cas, au contraire, on voit clairement que la connaissance de x
0
(respectivement y
1
) modi-
fie le domaine des valeurs possibles, donc attendues de Y (respectivement X) ; les deux variables
X et Y sont lies.
La modification ici concerne aussi bien lamplitude du domaine que sa localisation en termes de
valeurs.
Lapprciation visuelle de la dpendance correspond lapprciation de lpaisseur de len-
semble des points. Plus les points exprimentaux ont tendance se rpartir sur une courbe - non
horizontale ni verticale - plutt qu remplir une partie du plan, plus les variables sont lies.
Peut-on trouver un indicateur numrique de la force dune telle liaison ? Au sens strict, la rponse
est non.
Quelques situations de dpendance - cest--dire de liaison - sont reprsentes sur les figures ci-
x
x
x
x
x
x
x x
x
x
x
x
x
x
x
x
x
x
x
x
x x
x
x
x
x
x
x
x
x
x
x
x
x
domaine de
Y sachant x
0
x
y
domaine
de Y
x
0
x
x
x
x
x
x
x x
x
x
x
x
x
x
x
x
x
x
x
x
x x
x
x
x
x
x
x
x
x
x
x
x
x
x
y
domaine de
X sachant y
1
domaine de X
y
1
Liaison entre deux variables continues : notion de corrlation
120/159 Biostatistiques - Boisvieux, Golmard, Mallet & Morice 2001 - 2002
dessous.
On ne sait pas, en toute gnralit, rsumer en un seul nombre exprimant la liaison entre deux va-
riables continues les rsultats dune exprience.
On ne connat quun indicateur gnral prenant en compte non pas le degr de proximit une
courbe quelconque mais le degr de proximit une droite : cest le coefficient de corrlation [li-
naire].
Il faut voir cependant que dans la plupart des situations relles au cours desquelles on sintresse
lexamen de la liaison entre deux variables, la possibilit dinterprtation des rsultats est large-
ment fonction du caractre monotone, sinon rectiligne, de la dpendance ; que dire en termes din-
terprtation dune dpendance figure schmatiquement sur la figure ci-dessous ?
12.3 Un indicateur de covariation : le
coefficient de corrlation
Cherchons alors quantifier un phnomne de covariation, cest--dire un phnomne de variation
couple entre X et Y.
On impose naturellement lindicateur recherch une invariance par translation : les phnomnes
productifs de X et Y demeurent fondamentalement inaltrs sils produisent X + a, Y + b. Ainsi
lindicateur se fondera-t-il sur les valeurs et . Par ailleurs, on souhaite que lindicateur
ne dpende pas des units exprimant X et Y ; alors on travaillera sur
x
x
x
x
x
x
x
x
x
x
x
x
x
x
x
x
x
x
x
x
x
x
x
x
x
x
x
xx
x
x
x
x
x
x x
x
x
x
x
x
x
x
x
x
x
x
x
x
x
x
x
x
x
x
x
x
x
x
x
x
x
x
x
x
x
x
x
x
x
x
x
x
x x
x
x
x
x
x
x
x
x
x
x
x
x
x
x
x
x
x
x
x
x
x
x
x
x
x
x
x
x
x
x
x
x
x
x
x
x
x
x
x
x
x
x
x
x
x x
x
x
x
x
x
x
x
x
x
x x
y
y
y
x
x
i
x y
i
y
Liaison entre deux variables continues : notion de corrlation
2001 - 2002 Biostatistiques - Boisvieux, Golmard, Mallet & Morice 121/159
Maintenant si Y et Y prsentent un caractre de covariation, cest que de faon frquente, sinon sys-
tmatique
soit les variables varient dans le mme sens, cest--dire lorsque x
i
est grand (i.e. x
ri
positif
par exemple), y
i
lest galement (i.e. y
ri
positif), que lorsque x
i
est petit (x
ri
< 0) y
i
lest ga-
lement (y
ri
< 0) ; dans ce cas, le produit x
ri
y
ri
est positif.
soit les variables varient en sens contraire : lorsque x
i
est grand, y
i
est petit, lorsque x
i
est pe-
tit, y
i
est grand ; dans ce cas le produit x
ri
y
ri
est frquemment ngatif.
Compte tenu de lanalyse prcdente, on choisit pour indicateur de la covariation ou corrlation le
nombre :
Ainsi
si r est grand, cest le signe dune covariation dans le mme sens de X et Y ;
si r est petit (cest--dire grand en valeur absolue et ngatif), cest le signe dune covariation
de X et Y en sens contraire ;
si r est voisin de zro, cest le signe dune absence de covariation.
Retenons, exprim sur la base des observations exprimentales :
Le numrateur de cette expression est appel la covariance exprimentale des deux variables X et
Y, note cov(X, Y), dont on montre quelle sexprime aussi sous la forme
Les figures ci-dessous prsentent diverses situations relativement au coefficient de corrlation ex-
primental.
x
ri
x
i
x
s
X
------------ = et y
ri
y
i
y
s
Y
------------ =
r
1
n 1
----------- - x
ri
y
ri
i

=
r
1
n 1
----------- - x
i
x ( ) y
i
y ( )
i

s
X
s
Y
------------------------------------------------------- =
cov X Y , ( )
n
n 1
------------
1
n
--- x
i
y
i
i

xy
( ,
j \
=
Liaison entre deux variables continues : notion de corrlation
122/159 Biostatistiques - Boisvieux, Golmard, Mallet & Morice 2001 - 2002
Proprits numriques fondamentales de r :
r a toujours une valeur comprise entre -1 et 1 ;
r prend la valeur -1 (respectivement 1) si et seulement si pour une certaine valeur de a et b
on a pour tout i y
i
= ax
i
+ b avec a ngatif (respectivement a > 0).
Remarques :
plus r est grand en valeur absolue, plus les variables sont dites corrles,
la valeur absolue de r dcrot,
lorsque sestompe le caractre rectiligne du nuage des observations exprimentales,
lorsque spaissit ledit nuage,
une valeur absolue trs faible du coefficient de corrlation ne permet pas de conclure lin-
dpendance de deux variables. Deux variables indpendantes prsenteront en revanche un
coefficient de corrlation exprimental trs faible en valeur absolue.
r>0, grand r<0, |r| grand
r voisin de zro
xx
x x
x
x
x
x
x
x
x
x
x
x
x
x
x
x
x
x
x
x
x
x
x
x
x
x
x
x
x
x
x
x
x
x
x
x
y
x
y
x x
y y
x
x
x
x
x
x
x
x
x
x
xx
x
x
x
x
x
x
x
x
x
x
x
x
x
x
x
x
x
x
x
x
x
x
x x
x
x
y
x
y
x x
y y
x
x
x
x
x
x
x
x
x
x
x
x
x
x
x
x
x
x
x
x
x
x
x
x
x
x
x
x
x
x
x
x
x
x
x
x
x
x
y
x
y
x x
y y
Liaison entre deux variables continues : notion de corrlation
2001 - 2002 Biostatistiques - Boisvieux, Golmard, Mallet & Morice 123/159
Quelques exemples sont prsents ci-dessous pour fixer les ides.
r 0,9 r 0,7
r 0,7 r 0,6
r 0,5 r 0,5
x
x
x x
x
x
x
x
x
x
x
x
x
x
x
x
x
x
x
x
x
x
x
x
x
x
x
x
x
x
x
x
x
x
x
x
x
x
x
x x
x
x
x
x
x
x
x
x
x
x
x
x
x
x
x
x
x
x
x
x
x
x
x
x
x
x
x
x
x
x
x
x
x
x
x
x x
x
x
x
x
x
x
x
x
x
x
x
x
x
x
x
x
x
x
x
x
x
x
x
x
x
x
x
x
x
x
x
x
x
x
x
x x
x
x
x
x
x
x
x
x
x
x
x
x
x
x
x
x
x
x
x
x
x
x
x
x
x
x
x
x
x
x
x
x
x
x
x
x x
x
x
x
x
x
x
x
x
x
x
x
x
x
x
x
x
x
x
x
x
x
x
x
x
x
x
x
x
x
x
x
x
x
x
x
x
x
x
x
x
x
x
x
x
x
x
x
x x
x
x
x
x
x
x
x
x
x
x
x
x
x
x x
x
x
x
x
x
x
x
x
x
x
x
x
x
x
x
x
x
x
x
x
x
x
x
x
x
x
x
x
x
x
x
x
x
x
x
x x
x
x
x
x
x
x
x
x
x
x
x
x
x
x
x
x
x
x
x
x
x
x
x
x
x
x
x
x
x
x
x
x
x
x
x
x
x
x
x
x
Liaison entre deux variables continues : notion de corrlation
124/159 Biostatistiques - Boisvieux, Golmard, Mallet & Morice 2001 - 2002
Remarque complmentaire
Le coefficient de corrlation linaire est, au mme titre que toute statistique, soumis aux fluctua-
tions dchantillonnage. La question se pose alors de savoir que faire de cet indicateur en termes
dinfrences. Par exemple, avant de conclure que les deux variables sont corrles, peut-on se ga-
rantir du risque de lobservation dun coefficient de corrlation nul sur une plus grande srie
dobservations ? On se retrouve dans le contexte des tests dhypothses avec ici une difficult sup-
plmentaire qui tient au fait que lon na pas quitt le niveau exprimental, le niveau intuitif. Il con-
vient de trouver une contrepartie vraie ce coefficient de corrlation exprimental r.
12.4 Le coefficient de corrlation vrai
Cherchons substituer de la faon la plus naturelle possible des grandeurs vraies aux grandeurs
exprimentales constitutives de r. On note lapparition au dnominateur de s
X
et s
Y
auxquelles on
substitue naturellement
X
et
Y
, les carts types vrais de X et Y. Au numrateur on remarque
auxquels on substitue E(X) et E(Y) les moyennes vraies de X et Y. Reste au numrateur une
moyenne exprimentale (lisons n la place de n-1) ; on lui substitue une moyenne vraie : moyenne
vraie du produit [X - E(X)][Y - E(Y)], soit E{[X - E(X)][Y - E(Y)]}.
Cette moyenne vraie dpendant de X et Y la fois sappelle covariance vraie de X et Y.
Finalement, on obtient la contrepartie vraie note :
Remarque : propos des notions desprance, de covariance vraie, de coefficient de corrlation
vrai, voir le chapitre 5.
r 0 r 0
x
x
x
x
x
x
x
x
x
x
x
x x
x
x
x
x
x
x
x
x
x
x
x
x
x
x
x
x
x
x
x
x
x
x
x x
x
x
x
x
x
x
x
x
x
x
x
x
x
x
x
x
x
x
x
x
x
x
x
x
x
x
x
x
x
x
x
x
x
x
x
x
x
x
x
x
x
x
x
x
x
x
x
x
x
x
xx
x
x
x
x
x
x
x
x
x x
x
x
x
x
x
x
x
x
x
x
x
x
x
x
x et y
X Y , ( )
E X E X ( ) [ ] Y E Y ( ) [ ]

Y
---------------------------------------------------------------- =
Liaison entre deux variables continues : notion de corrlation
2001 - 2002 Biostatistiques - Boisvieux, Golmard, Mallet & Morice 125/159
12.5 Mise lpreuve de la nullit du
coefficient de corrlation vrai
Des calculs thoriques complexes, et imposant un certain nombre de restrictions, qui, dpassant le
cadre de ce cours ne seront pas mentionns, permettent de calculer la distribution de r sous
lhypothse - retenue comme hypothse nulle - de nullit du coefficient de corrlation vrai . Il
sagit dune famille de distributions indexes par un entier appel nombre de degrs de libert. La
mise en uvre du test est alors conventionnelle :
H
0
: = 0 [les variables ne sont pas corrles],
H
1
: 0 [les variables sont corrles]
Paramtres du test : coefficient de corrlation exprimental
sous H
0
, r suit une distribution connue, dite du coefficient de corrlation n-2 degrs de li-
bert o n est le nombre de couples (xi, yi) exprimentaux. Lintervalle de pari pour r est de
la forme
tant lue dans une table.
Conditions de validit
Les conditions de validit sont complexes et expriment que toute combinaison linaire des va-
riables X et Y est distribue selon une loi normale. Autrement dit, toute variable aX + bY o
a et b sont deux nombres quelconques doit tre normale.
Pour la commodit de lexpression, on noncera les conditions de validit sous le nologisme
distribution de (X, Y) binormale .
la suite de la mise en uvre est standard.
Quelques exemples numriques
Au risque 5 %:
n = 10, IP
0,95
= [-0,632 ; 0,632], ddl = 8
n = 20, IP
0,95
= [-0,444 ; 0,444], ddl = 18
n = 50, IP
0,95
= [-0,280 ; 0,280], ddl = 48
Ainsi, par exemple, pour pouvoir conclure la corrlation, lorsque lon dispose de 20 observations
(20 couples (x
i
, y
i
)), le coefficient de corrlation exprimental doit tre suprieur 0,444, ou inf-
rieur -0,444.
r
1
n 1
------------ x
i
x ( ) y
i
y ( )
i

s
X
s
Y
------------------------------------------------------- =
IP
1
corr

n 2 ( ) ; corr

n 2 ( ) [ ] corr

n 2 ( ) , =
Liaison entre deux variables continues : notion de corrlation
126/159 Biostatistiques - Boisvieux, Golmard, Mallet & Morice 2001 - 2002
Rsum du chapitre
1. La corrlation entre deux variables alatoires quantitatives X et Y se mesure laide du coef-
ficient de corrlation vrai :
Proprits :

Si X, Y indpendantes, alors (X, Y) = 0


2. Disposant dun chantillon de n couples (x
i
, y
i
) on dfinit le coefficient de corrlation
exprimental :
Proprit :
3. Il existe un test de nullit du coefficient de corrlation vrai dont le paramtre est r.
4. Indpendance et corrlation sont des notions diffrentes ; deux variables dont le coefficient
de corrlation vrai est nul peuvent tre lies.
X Y , ( )
E X E X ( ) [ ] Y E Y ( ) [ ]

Y
---------------------------------------------------------------- =
X Y , ( ) 1 ; 1 [ ]
r
1
n 1
----------- - x
i
x ( ) y
i
y ( )
i

s
X
s
Y
-------------------------------------------------------
n
n 1
------------
1
n
--- x
i
y
i
i

xy
( ,
j \
s
X
s
Y
------------------------------------------------- = =
r 1 ; 1 [ ]
A propos des tests dhypothses
2001 - 2002 Biostatistiques - Boisvieux, Golmard, Mallet & Morice 127/159
Chapitre 13
A propos des tests
dhypothses
13.1 Rappels et prcisions
1. LES TESTS PRENNENT EN COMPTE DES HYPOTHESES SYNTHETIQUES
On a vu que les tests reposent sur lnonc de deux hypothses exclusives. Il y a parfois beau-
coup de chemin parcourir entre la formulation dun problme mdical et sa formulation en
termes statistiques. Reprenons lexemple des souris du chapitre 9. Le problme fondamental
est celui de lactivit du traitement. Cette activit peut avoir bien dautres manifestations que
la modification de la frquence dapparition des cancers. On peut penser un effet portant sur
lge de survenue de la maladie, portant sur la vitesse de dveloppement des tumeurs etc
On ne peut rpondre simultanment toutes ces questions, par lintermdiaire dun test du
moins : les tests ne permettent de rpondre qu des questions simples.
2. ON NE CHOISIT PAS LE SEUIL DE SIGNIFICATION
Que dirait-on dun mdecin annonant : jaime le risque alors jai choisi un risque de 0,4 et
le traitement que je propose est efficace (ou actif) ce risque ?
= 0,05 est conventionnel
3. ON NE DIT PRATIQUEMENT JAMAIS : LEXACTITUDE DE LHYPOTHESE NULLE
EST DEMONTREE
4. ON NENCHAINE PAS LES TESTS DE FAON INCONSIDEREE
En effet, les risques de conclusion tort augmentent alors.
Par exemple, supposons que lon veuille tester lgalit une valeur donne de deux propor-
tions (ex : succs dune intervention chirurgicale dans deux services hospitaliers, le pourcen-
tage de succs sur la France tant par ailleurs connu (donnes de lanne prcdente par
exemple)). Que se passe-t-il si lon effectue deux tests successifs dont les hypothses nulles
A propos des tests dhypothses
128/159 Biostatistiques - Boisvieux, Golmard, Mallet & Morice 2001 - 2002
sont :
service 1 : p
1
= p
h
; puis service 2 : p
2
= p
h
.
Le risque de premire espce global de la procdure exprime la probabilit de dire au moins
une fois (soit au cours du premier test soit au cours du second) H
1
alors que H
0
est vraie les
deux fois :
P(conclure H
1
au moins une fois si H
0
est vraie) = 1 - P(ne rejeter H
0
aucune des deux fois si
H
0
est vraie)
Or P(ne pas rejeter H
0
si H
0
est vraie) = 1 -
Donc P(ne rejeter H
0
aucune des deux fois si H
0
est vraie) = (1 - )
2
do un risque total = 1 - (1 - )
2
Exemple
Si = 0,05, le risque global est environ 0,10.
Cette situation saggrave si le nombre de tests saccrot. Ainsi, dans le cas de
3 services le risque global est 0,14
10 services le risque global est 0,40
100 services le risque global est 0,994
Cela signifie par exemple que dans le cas o 10 services sont comparer une rfrence il y
a 4 chances sur 10 pour quau moins une frquence exprimentale scarte de faon signifi-
cative de la valeur de rfrence, alors quen ralit tous les rsultats sont homognes. Si lon
prend la frquence exprimentale la plus diffrente de la valeur de rfrence, le test permettra
de conclure, tort, avec une probabilit suprieure 0,4.
En fait, lorsque lon dsire faire des comparaisons multiples, des tests spcifiques doivent tre
utiliss de faon que les conclusions puissent tre tires avec un risque derreur global de
5 %.
5. IL EST DANGEREUX ET ERRONE DE CHOISIR LES HYPOTHESES AU VU DES
DONNEES
Lorsque lon opre de cette faon, on a en ralit ralis plus ou moins consciemment un nom-
bre indtermin de tests que lon a jugs non concluants.
LA STRATEGIE DANALYSE DES DONNEES DOIT ETRE FIXEE CLAI-
REMENT AVANT LA REALISATION DE LEXPERIENCE
A propos des tests dhypothses
2001 - 2002 Biostatistiques - Boisvieux, Golmard, Mallet & Morice 129/159
13.2 Jugement dinterprtation - La causalit
Lorsquun test permet de conclure, le premier jugement que lon tire est un jugement de signifi-
cation (au sens de diffrences significatives).
Peut-on se livrer des interprtations plus fines, sexprimer en termes de causalit ? Il sagit l du
jugement dinterprtation. La question est ici de savoir si cest la prsence ou labsence dun ca-
ractre qui cause - est lorigine de - ces diffrences ? Cest un problme de bon sens fondamen-
talement mais qui suppose galement un abord spcifique.
Caractre contrl ; caractre alatoire
On dit dun caractre quil est contrl lorsque sa dtermination nous appartient.
Exemple : on sintresse leffet dun traitement sur la survenue dun type de cancer chez
des souris. Le caractre absence ou prsence du traitement peut tre contrl.
Dans le cas contraire, on dit que le caractre est alatoire.
Exemple : couleur des cheveux, couleur des yeux.
Lorsquon envisage un problme de liaison entre deux variables (cela recouvre tous les pro-
blmes que lon a rencontrs) un au plus des caractres peut tre contrl.
Dmarche exprimentale
Lorsque lexprience se conduit avec un facteur contrl, on dit que lon suit une dmar-
che exprimentale. Dans ce cas, au cours de la constitution de lchantillon qui permettra
de mettre en uvre les tests, on reste libre dun caractre (par exemple la x
me
souris sera
ou ne sera pas traite).
Dmarche dobservation
Lorsque lexprience se conduit sur la base de deux facteurs alatoires, on dit que lon suit
une dmarche dobservation.
PRINCIPE FONDAMENTAL
La discussion de la causalit ne se conoit pas sans contrle dun des deux caractres tu-
dis.
Autrement dit, on ne peut affirmer la causalit hors dune dmarche exprimentale.
Seule cette dmarche, en effet, permet dassurer que les individus constituant lchantillon
sont comparables (homognes) sauf pour ce qui concerne le caractre contrl. Encore
faut-il assurer cette homognit par tirage au sort. On parle aussi de randomisation.
Quelques exemples.
i. On veut comparer les pourcentages de complications laccouchement dans deux maternits,
lune (1) dote de moyens chirurgicaux les plus modernes, lautre (2) dote dun plateau tech-
nique plus modeste. On effectue une tude dobservation au cours de laquelle on obtient des
pourcentages exprimentaux de 80 % (100 accouchements) et 30 % (150 accouchements). La
diffrence est significative au risque 5 %. Les frquences vraies de complications sont diff-
rentes au seuil 5 %. Cest incontestable. On ne saurait pourtant en conclure que pour diminuer
A propos des tests dhypothses
130/159 Biostatistiques - Boisvieux, Golmard, Mallet & Morice 2001 - 2002
les risques de complication il suffit de rduire le plateau technique ! Les recrutements sont trs
probablement diffrents dans ces deux maternits, les grossesses risque se rencontrant plus
frquemment dans la maternit (1). Si lon veut mettre lpreuve cette causalit, il faut adop-
ter une dmarche exprimentale randomise, cest--dire affecter par tirage au sort chaque
femme dun chantillon lune ou lautre maternit et refaire lanalyse.
ii. Les essais thrapeutiques
Dans le cas de la comparaison de deux traitements, ou de la mise en vidence de leffet dun
traitement, cest--dire dans le contexte des essais thrapeutiques, des prcautions et une m-
thodologie particulires doivent tre appliques en ce qui concerne le droulement de lexp-
rience. En particulier, il ne faut pas mconnatre leffet dit effet placebo ( je plairai en latin)
rsultant de ladministration dun traitement inactif (le placebo) un malade. Cet effet est
complexe analyser mais il faut autant que possible en tenir compte dans lapprciation de
leffet dun traitement. Cest la raison pour laquelle en rgle gnrale, pour mettre en vidence
leffet dun traitement, on constituera deux groupes de patients, lun recevant le traitement,
lautre un placebo administr dans les mmes conditions.
Le groupe recevant le placebo se nomme groupe tmoin.
En outre, le malade ne devra pas savoir sil reoit le traitement ou le placebo : on parle de pro-
cdure dinsu ou daveugle . Lattribution du traitement ou du placebo pourra tre effec-
tue galement linsu du mdecin ; on parlera alors dessai en double insu ou double
aveugle .
Les essais thrapeutiques comparatifs ayant pour objet la comparaison de deux traitements re-
lativement voisins seront raliss dans les mmes conditions. Dans de tels essais, lun des trai-
tements est le meilleur traitement connu au dbut de lessai (traitement de rfrence), lautre
le traitement nouveau, exprimental. On appellera encore groupe tmoin lensemble des pa-
tients recevant le traitement de rfrence.
Exemple : comparaison dun traitement anticoagulant et dun traitement anticoagulant + an-
tiagrgant plaquettaire chez les malades porteurs dune fibrillation auriculaire.
Les types dessais voqus ci-dessus sont dits essais thrapeutiques vise explicative.
Il existe par ailleurs des essais dits pragmatiques dont lobjectif est de comparer des traite-
ments ventuellement trs diffrents ; dans ces essais la procdure daveugle na gnrale-
ment plus de sens, mais le caractre de rpartition au hasard des patients dans les deux groupes
de traitement doit tre maintenu.
Exemple : comparaison dun traitement chirurgical et dun traitement mdical dans une cer-
taine maladie.
Pour en savoir plus, voir, dans la bibliographie donne en fin de polycopi, louvrage
Lessai thrapeutique chez lhomme .
Le second problme dinduction statistique : lestimation - Intervalle de confiance
2001 - 2002 Biostatistiques - Boisvieux, Golmard, Mallet & Morice 131/159
Chapitre 14
Le second problme
dinduction statistique :
lestimation - Intervalle de
confiance
14.1 Introduction
Le problme de lestimation statistique est le suivant : on cherche connatre les valeurs de certai-
nes grandeurs grce des observations ralises sur un chantillon. Trs souvent, ces grandeurs
sont des moyennes. On a vu que la moyenne joue un rle fondamental - comme rsum de la
variabilit - dans ltude des variables quantitatives. Egalement un grand nombre de problmes
statistiques consistent en la dtermination de la moyenne vraie, sur la base dobservations ralises
sur un chantillon. Cependant, on peut aussi chercher connatre dautres valeurs, comme par
exemple les variances (exemple c. ci-dessous).
Exemples :
a. quelle est la frquence de survenue de tel type de cancer chez les souris ?
b. quelle est la glycmie de ce patient ? dans ce cas on identifie (cest un modle, pas la ralit
inattaquable) la moyenne vraie des dosages la vraie valeur de la glycmie.
c. quelle est la variance de la glycmie mesure chez ce patient ?
Il est bien sr impossible de rpondre ces questions au sens strict. De la mme faon quil tait
impossible de trancher avec certitude entre deux hypothses.
On apporte gnralement deux types de rponses ces questions :
1. On produit une valeur qui nous semble tre la meilleure possible : on parle alors destimation
ponctuelle.
2. On produit un intervalle de valeurs possibles, compatibles avec les observations. Cest la no-
Le second problme dinduction statistique : lestimation - Intervalle de confiance
132/159 Biostatistiques - Boisvieux, Golmard, Mallet & Morice 2001 - 2002
tion dintervalle de confiance.
14.2 Estimation ponctuelle
14.2.1 Dfinition
A partir des donnes exprimentales, on construit une nouvelle variable dont la valeur se
rapproche de celle de la grandeur quon cherche connatre. Cette nouvelle variable est lesti-
mateur de la grandeur. On notera la grandeur estimer et T ou T() son estimateur.
14.2.2 Proprits
Les estimateurs sont des fonctions des chantillons : ce sont donc des variables alatoires qui pos-
sdent une densit de probabilit, et le plus souvent, une moyenne (esprance mathmatique) et une
variance. Ces deux grandeurs permettent de comparer, dans une certaine mesure, les estimateurs
entre eux.
Figure 12 : densit de probabilit de 3 estimateurs T
1
, T
2
et T
3
La figure 12 reprsente les densits de probabilit de 3 estimateurs T
1
, T
2
et T
3
dune moyenne .
14.2.2.1 Biais
On voit sur la figure 12 que T
1
et T
2
sont centrs autour de , tandis que T
3
a pour moyenne
infrieure . Cette notion est dfinie plus prcisment de la manire suivante :
Le biais dun estimateur, not B(T), est la diffrence moyenne entre sa valeur et celle de la quantit
quil estime. On a :
'
Le second problme dinduction statistique : lestimation - Intervalle de confiance
2001 - 2002 Biostatistiques - Boisvieux, Golmard, Mallet & Morice 133/159
B(T) = E(T - ) = E(T) -
Ici, on a : B(T
1
) = E(T
1
- ) = E(T
1
) - = 0
de mme : B(T
2
) = 0
mais :
On dit que T
1
et T
2
sont des estimateurs sans biais de , et que T
3
est un estimateur biais de .
14.2.2.2 Variance
La variance dun estimateur est dfinie de la manire usuelle :
var(T) = E[T - E(T)]
2
Si deux estimateurs sont sans biais, le meilleur est celui qui a la variance la plus petite : en effet,
ses valeurs sont en moyenne plus proches de la quantit estime.
Par exemple, sur la figure ci-dessus, on voit que var(T
1
) < var(T
2
). On peut donc conclure que T
1
est un meilleur estimateur de que T
2
.
Quand des estimateurs sont biaiss, en revanche, leur comparaison nest pas aussi simple : un es-
timateur peu biais, mais de variance trs faible, pourrait mme, en pratique, tre prfr un es-
timateur sans biais, mais de variance grande.
14.2.2.3 Erreur quadratique moyenne
Lerreur quadratique moyenne est une grandeur permettant de comparer des estimateurs entre eux,
quils soient biaiss ou sans biais. Elle est dfinie de la manire suivante :
EQM(T) = E[(T - )
2
]
On dmontre facilement quon peut relier lerreur quadratique moyenne, lesprance et la variance
dun estimateur par lexpression suivante :
EQM(T) = var(T) + [E(T) - ]
2
= var(T) + B(T)
2
En particulier, lerreur quadratique moyenne des estimateurs sans biais est gale leur variance.
14.2.3 Exemple
On a souvent utilis, dans ce cours, les quantits , moyenne exprimentale, et s
2
, variance exp-
rimentale. La variable alatoire moyenne exprimentale, note , a t tudie au chapitre 7. De
la mme manire, on peut considrer la variable alatoire variance exprimentale S
n
2
, dfinie par :
o est la variable alatoire moyenne exprimentale de X
2
.
On va calculer E(S
n
2
). On rappelle que si U est une variable alatoire, sa moyenne exprimentale
B T
3
( ) E T
3
( ) E T
3
( ) ' 0 < = = =
x
X
n
S
n
2 n
n 1
----------- - X
2
( )
n
X
n
2
[ ] =
X
2
( )
n
Le second problme dinduction statistique : lestimation - Intervalle de confiance
134/159 Biostatistiques - Boisvieux, Golmard, Mallet & Morice 2001 - 2002
a les proprits suivantes :
On a par ailleurs :
var(U) = E(U
2
) - [E(U)]
2
et donc E(U
2
) = var(U) + [E(U)]
2
(3).
On peut maintenant calculer E(S
n
2
). Soit X une variable alatoire desprance E(X) = et de va-
riance var(X) =
2
. On a :
Mais daprs (1) et (3),
et daprs (3), (2) et (1),
et finalement : .
S
n
2
est donc un estimateur sans biais de
2
.
14.3 Intervalle de confiance
Bien que des intervalles de confiance soient dfinissables pour toute quantit estime, leur dter-
mination est le plus souvent difficile. Nous nous limiterons donc dans ce cours la dfinition des
intervalles de confiance des moyennes vraies.
14.3.1 Exemple dune proportion
Lide directrice est la suivante : on souhaite associer une valeur exprimentale p
0
un intervalle
appel INTERVALLE DE CONFIANCE qui ait de bonnes chances de contenir la valeur vraie
de la proportion. Que signifie de bonnes chances ? Si lon effectue un grand nombre de fois
lexprience - chaque exprience produisant un pourcentage observ p
0
- on construit autant din-
tervalles de confiance. On voudrait quun grand nombre de ces intervalles contienne la valeur vraie
p. Par exemple que 95 % des intervalles en gros contiennent p. On parlera alors dintervalle de
confiance DE NIVEAU 0,95 ou dintervalle de confiance AU RISQUE 0,05. On considrera g-
nralement des intervalles de confiance de niveau 1-. La valeur sera alors le risque - ou la
probabilit - pour quun intervalle de confiance ne contienne pas la proportion vraie p.
DE FACON GENERALE, LINTERVALLE DE CONFIANCE AU RISQUE DUNE VA-
LEUR QUE LON CHERCHE A ESTIMER EST UN INTERVALLE QUI CONTIENT AVEC
UNE PROBABILITE 1 - LA VALEUR CHERCHEE ; IL SAGIT DUN INTERVALLE QUE
E U
n
( ) E U ( ) (1) et var U
n
( )
1
n
---var U ( ) (2) = =
E S
n
2
( )
n
n 1
----------- - E X
2
( )
n
( ) E X
n
2
( ) [ ] =
E X
2
( )
n
( ) E X
2
( )
2

2
+ = =
E X
n
2
( ) var X
n
( ) E X
n
( ) [ ]
2
+

2
n
------
2
+ = =
E S
n
2
( )
n
n 1
------------
2

2
2
n
------
2
+
2
= =
Le second problme dinduction statistique : lestimation - Intervalle de confiance
2001 - 2002 Biostatistiques - Boisvieux, Golmard, Mallet & Morice 135/159
LON DEVRA ETRE EN MESURE DE CONSTRUIRE A LISSUE DUNE EXPERIENCE
PORTANT SUR UN ECHANTILLON.
Comment construire de tels intervalles ? Cest facile graphiquement.
Figure 13
Figure 14
Le second problme dinduction statistique : lestimation - Intervalle de confiance
136/159 Biostatistiques - Boisvieux, Golmard, Mallet & Morice 2001 - 2002
Considrons la figure 13. On a port en abscisses une chelle 0-1 de mesure de proportions vraies,
en ordonnes une chelle de mesure de proportions observes. Donnons nous une valeur de pro-
portion vraie ; on sait associer cette valeur un intervalle de pari de niveau 0,95 de la proportion
exprimentale que lon est susceptible dobtenir au cours dune exprimentation conduite sur n in-
dividus. Cet intervalle de pari peut tre reprsent sur lchelle verticale. Si lon opre cette repr-
sentation pour toutes les valeurs possibles dune proportion vraie, on obtient un domaine limit par
les deux courbes reprsentes sur la figure.
Considrons alors un problme mettant en jeu une proportion vraie, p. Supposons que nous fas-
sions un ensemble dexpriences, chaque exprience portant sur n individus tant productive
dune valeur de proportion exprimentale p
0
. On peut associer chacune de ces expriences un
point de coordonnes (p, p
0
) sur la figure 13. Compte tenu de la construction prcdente, on peut
affirmer que ces points appartiendront 95 fois sur cent (cest--dire dans 95 % des expriences) au
domaine limit par les deux courbes, et ceci quelle que soit la valeur de p.
Maintenant supposons quune exprience unique ait t ralise, produisant une valeur de propor-
tion, p
0
. Le problme est, sur la base de cette valeur, de dfinir un intervalle ayant de bonnes chan-
ces de contenir la valeur inconnue de la proportion vraie. La solution, immdiate, est fournie par
la figure 14. Il suffit de trancher le domaine limit par les deux courbes DANS LAUTRE SENS.
Cet intervalle contiendra 95 fois sur cent la vritable valeur de la proportion.
Ainsi, si on adopte cette stratgie de construction, on aura pour chaque valeur observe p
0
un in-
tervalle qui contiendra p avec la probabilit 0,95.
Le problme est rsolu. Maintenant, ce qui est simple sur un dessin est compliqu en termes de cal-
cul et il existe des tables dintervalles de confiance et des formules toutes faites permettant de for-
mer des intervalles de confiance approchs.
14.3.2 Intervalle de confiance approch dune proportion
vraie
On montre quune bonne approximation de lintervalle de confiance de niveau 1 - de p, fond
sur la valeur exprimentale p
0
, p
0
tant calcule sur n individus, est donne par lintervalle ci-
dessous :
Notons p
min
et p
max
les bornes de cet intervalle.
Cette approximation nest juge satisfaisante que sous les CONDITIONS DE VALIDITE
suivantes : np
min
5, n(1-p
max
) 5
LORSQUE LES CONDITIONS DE VALIDITE NE SONT PAS REMPLIES, IL FAUT AVOIR
RECOURS AUX TABLES.
Exemple : n = 100, = 0,05, p
0
= 0,12
IC
1
p
0
u

p
0
1 p
0
( )
n
------------------------- ; p
0
u

p
0
1 p
0
( )
n
------------------------- + =
IC
0 95 ,
0 12 , 1 96
0 12 , 0 88 ,
100
---------------------------- , ; 0 12 , 1 96
0 12 , 0 88 ,
100
---------------------------- , + 0 06 ; 0 18 , , [ ] = =
Le second problme dinduction statistique : lestimation - Intervalle de confiance
2001 - 2002 Biostatistiques - Boisvieux, Golmard, Mallet & Morice 137/159
conditions de validit
100 0,06 = 6 5.
100 (1 - 0,18) = 82 5.
14.3.3 Intervalle de confiance approch dune moyenne vraie
(variable continue)
De mme, il existe une expression approche pour lintervalle de confiance de niveau 1 - dune
moyenne vraie , intervalle fond sur la valeur exprimentale obtenue aprs une exprience por-
tant sur n individus. Le calcul de cet intervalle suppose en outre le calcul de la variance exprimen-
tale s
2
. Lexpression est la suivante :
Lapproximation ci-dessus nest juge satisfaisante que sous la
CONDITION DE VALIDITE : n 30.
Lorsque cette condition nest pas remplie, on ne sait plus former dintervalle de confiance sauf si
lon peut supposer que la variable primitive X dintrt est normale.
Si la variable tudie est NORMALE, alors, et sans autre condition de validit, un intervalle de
confiance de niveau 1 - a pour expression :
o t

est associ la distribution de Student (n-1) degrs de libert.


Remarque (pour une variable normale encore)
Si la variance vraie de la variable tudie,
2
, est connue, lintervalle de confiance a la forme
suivante :
14.3.4 Applications
Lintervalle de confiance exprime fondamentalement, comme son nom lindique, la confiance que
lon peut attribuer un rsultat exprimental.
IDEALEMENT TOUT PROBLEME DESTIMATION DEVRAIT ETRE PRODUCTIF DUN
INTERVALLE DE CONFIANCE. Ne donner quune estimation ponctuelle masque lincertitude
qui accompagne tout rsultat.
Exemple : supposons qutudiant la frquence dun vnement, on ait obtenu une frquence ob-
serve p
0
gale 0,12.
x
IC
1
x u

s
n
------- ; x u

s
n
------- + =
IC
1
x t

s
n
------- ; x t

s
n
------- + =
IC
1
x u

n
------- ; x u

n
------- + =
Le second problme dinduction statistique : lestimation - Intervalle de confiance
138/159 Biostatistiques - Boisvieux, Golmard, Mallet & Morice 2001 - 2002
Supposons que cette valeur ait t obtenue sur la base de 8 individus (lvnement tudi sest donc
ralis une fois). On peut lire dans une table spcialise que lintervalle de confiance de la frquen-
ce vraie est, au risque 0,05 [0,003 ; 0,527]. Cela signifie que cette valeur observe de 12 % sur si
peu dindividus ne fait quindiquer ceci : la frquence vraie se situe dans le domaine 3 , 52,7 %.
Supposons que cette mme valeur 12 % ait t obtenue sur la base de 100 individus (lvnement
tudi sest ralis 12 fois au cours des 100 essais). Lintervalle de confiance associ est alors pro-
che de [0,06 ; 0,18]. Sur la base de cette valeur 12 %, on est maintenant en mesure daffirmer, ac-
ceptant toujours un risque derreur de 5 pour cent, que la frquence vraie se situe dans le domaine
6 %, 18 %, domaine beaucoup plus troit que le prcdent.
De faon gnrale, la longueur de lintervalle de confiance indique la prcision obtenue. Les deux
exemples qui suivent montrent lusage que lon peut en faire.
14.3.4.1 Prcision dun sondage
Supposons que lon sapprte raliser un sondage pour estimer la prvalence dune maladie,
cest--dire la proportion de la population atteinte par cette maladie la date du sondage. On sou-
haite un rsultat prcis, cest--dire que lon souhaite par exemple que lintervalle de confiance r-
sultant ait une longueur au plus gale 0,04.
On remarque que la longueur de lintervalle de confiance ne dpend que dune seule grandeur con-
trlable, le nombre dindividus. La question est donc : combien dindividus faut-il inclure dans le
sondage ?
Ce problme est simple, puisque la longueur de lintervalle de confiance stablit :
quon arrondit ici
Leffectif de lchantillon devra donc tre au moins 10000 p
0
(1 - p
0
).
Toutefois, cet effectif dpend de p
0
, inconnu avant lexprience. Lusage de ces calculs supposera
donc que lon ait une ide du rsultat attendu, grce un sondage exploratoire par exemple ou grce
une connaissance pralable du phnomne tudi.
De faon gnrale, si lon souhaite obtenir un intervalle de confiance dune proportion de longueur
2i, il est ncessaire dinclure un nombre dindividus au moins gal :
au risque 0,05 (ou au risque )
REMARQUE
Lorsque le sondage est ralis, un intervalle de confiance lui est associ. Dans le langage courant,
les instituts de sondage nomment ces intervalles de confiance des FOURCHETTES.
14.3.4.2 Prcision dune moyenne
Dans le cas o lon sintresse la moyenne vraie dune variable quantitative, on peut effectuer le
mme type de calcul. Pour obtenir un intervalle de confiance de longueur 2i, il faut inclure un nom-
2 1 96 ,
p
0
1 p
0
( )
n
------------------------- 4
p
0
1 p
0
( )
n
-------------------------
4
p
0
1 p
0
( )
i
2
------------------------- u

2
p
0
1 p
0
( )
i
2
-------------------------
Le second problme dinduction statistique : lestimation - Intervalle de confiance
2001 - 2002 Biostatistiques - Boisvieux, Golmard, Mallet & Morice 139/159
bre dindividus au moins gal :
Lexploitation de ce calcul ncessite ici une connaissance, mme approximative, de la variance de
la variable tudie pour se donner a priori s
2
- ou mieux
2
.
Exemple trs important : les problmes de dosage.
Soit doser la glycmie ; on a devant soi un chantillon de sang. Quelle est la concentration en
glucose ? Si on fait plusieurs dosages, on va obtenir plusieurs rsultats. Cela est d, non la varia-
bilit de la glycmie, mais aux erreurs analytiques. On assimile la glycmie vraie la moyenne
vraie de la variable alatoire rsultat du dosage . Supposons que lon connaisse la variance des
rsultats, car on connat bien la technique analytique. Par exemple, = 10 mg.l
-1
. Supposons en
outre que les rsultats exprimentaux soient distribus normalement.
Si on effectue un dosage donnant 90 mg.l
-1
, on a pour intervalle de confiance approch ( tant
connu) :
IC
0,95
= [90 - 2 ; 90 + 2] = [70 ; 110] soit un intervalle de longueur 40.
Si on effectue deux dosages donnant 90 et 96 mg.l
-1
, on a
soit un intervalle damplitude 28,2.
Si lon effectue trois dosages donnant 90, 96 et 93 mg.l
-1
on a
soit un intervalle damplitude 23,0.
Ces calculs objectivent le fait bien connu selon lequel la rptition des dosages permet dattnuer
les consquences des erreurs exprimentales. Certains dosages - certaines mesures (tension
artrielle) - sont rpts avant quune valeur soit indique.
n u

2 s
2
i
2
---- =
IC
0 95 ,
93 2

2
------- ; 93 2

2
------- + 78 9 ; , 107 1 , [ ] = =
IC
0 95 ,
93 2

3
------- ; 93 2

3
------- + 81 5 ; , 104 5 , [ ] = =

Vous aimerez peut-être aussi