Académique Documents
Professionnel Documents
Culture Documents
Biostatistique
PAES - UE4 2010 - 2011
2/175
2010 - 2011
Sommaire
Sommaire
3 9 11 11 12 12 13 14 15 15 15 16 19 19 19 21 21 22 22 22 23 25 25 26 27 27 29 29 29 30 30
Chapitre 1 :
1.1 1.2 1.3
Statistique(s) et Probabilit(s)
Chapitre 2 :
2.1 2.2 2.3 2.4 2.5 2.6 2.6.1 2.6.2
Rappels mathmatiques
Ensembles, lments Oprations sur les ensembles Ensembles finis, dnombrables, non dnombrables Ensembles produits Familles densembles Autres rappels mathmatiques Rappel sur les sommes Rappel sur les intgrales
Chapitre 3 :
3.1 3.2 3.3 3.4 3.5 3.6 3.6.1 3.6.2 3.6.3
Introduction Exprience alatoire, ensemble fondamental et vnements Oprations sur les vnements Rgles du calcul des probabilits Remarque Illustration de quelques ensembles probabiliss Ensemble probabilis fini Ensemble fini quiprobable Ensembles probabiliss infinis
2010 - 2011
3/175
Sommaire 30 31 33
3.6.3.1 3.6.3.2
Chapitre 4 :
4.1 4.2 4.3 4.4 4.5 4.6
33 34 35 36 38 38 41
Probabilit conditionnelle Thorme de la multiplication Diagramme en arbre Thorme de Bayes Indpendance entre vnements Indpendance, inclusion et exclusion de deux vnements
Chapitre 5 :
5.1 5.1.1 5.1.2 5.1.3 5.2 5.2.1 5.2.2 5.2.3 5.2.4 5.3 5.3.1 5.3.1.1 5.3.1.2 5.3.1.3 5.3.2
41 41 42 42 43 43 44 44 45 47 47 47 47 48 49 51 51 52 52 52 55 55 57 57 58 59 61
Introduction Le diagnostic Les informations mdicales Situation exprimentale et estimation Les paramtres de lvaluation Sensibilit et spcificit Valeurs prdictives Comparaison des deux couples de paramtres Choix dun seuil : courbes ROC Estimation des paramtres de lvaluation Un chantillon reprsentatif Les donnes Estimation de la sensibilit et de la spcificit Estimation des valeurs prdictives Deux chantillons reprsentatifs
Chapitre 6 :
6.1 6.2 6.2.1 6.2.2 6.2.3 6.2.4 6.2.5 6.2.6 6.3 6.4 6.5
Variables alatoires
Dfinition dune variable alatoire Variables alatoires finies Reprsentation dune loi de probabilit finie Esprance mathmatique dune variable finie Variance et cart-type dune variable finie Loi de probabilit produit Variables alatoires indpendantes Fonction de rpartition Variables infinies dnombrables (hors programme) Variables alatoires continues Extension de la notion de variable alatoire
4/175
2010 - 2011
Sommaire 63 63 63 63 66 67 67 67 67 70 70 71 71 72 73 73 74 74 75 76 77 77 77 78 78 79 80 80 80 81 81 83 85
Chapitre 7 :
Exemples de distributions
7.1 Lois discrtes 7.1.1 Loi de Bernoulli 7.1.2 Loi binomiale 7.1.3 Loi de Poisson 7.2 Lois continues 7.2.1 Loi normale 7.2.1.1 Dfinition 7.2.1.2 Proprits 7.2.2 Loi du 2 (chi-2) 7.2.2.1 Dfinition 7.2.2.2 Proprits 7.2.3 Loi de Student (hors programme) 7.2.4 Loi exponentielle (hors programme)
Chapitre 8 :
Statistiques descriptives
8.1 Rappels et complments 8.2 Reprsentation complte dune srie dexpriences 8.2.1 Cas dune variable qualitative 8.2.2 Cas dune variable quantitative discrte 8.2.3 Cas dune variable quantitative continue. Notion dHISTOGRAMME 8.3 Reprsentation simplifie dune srie dexpriences 8.3.1 Indicateurs de localisation des valeurs 8.3.2 Indicateurs de dispersion des valeurs 8.4 Reformulation de la moyenne et de la variance observes 8.4.1 Reformulation de la moyenne observe 8.4.2 Reformulation de la variance observe 8.5 Cas particulier dune variable deux modalits - Proportion 8.5.1 Expression de lesprance mathmatique de X 8.5.2 Expression de la variance de X 8.5.3 Interprtation de la moyenne observe 8.6 Conclusion : la variable alatoire moyenne arithmtique Rsum du chapitre
Chapitre 9 :
9.1 9.1.1 9.1.2 9.2 9.3
85 85 86 87 88
Premire proprit de la variable alatoire moyenne arithmtique Un exemple Gnralisation Seconde proprit de la variable alatoire moyenne arithmtique : le thorme central limite Etude de la distribution normale (rappel)
2010 - 2011
5/175
Sommaire 90 90 92 93 94 95 95 96 96 96 96 97 97 97 98 98 101 101 102 102 103 105 105 108 108 110 110 110 111 114 114 115 116 118 119 119 119
9.4 Application du thorme central limite. Intervalle de Pari (I. P.) 9.4.1 Dfinition de lintervalle de pari (I. P.) dune moyenne observe 9.4.2 Les facteurs de dpendance de la longueur de lintervalle de pari (IP) 9.4.3 Lintervalle de pari dune variable alatoire Rsum du chapitre
6/175
2010 - 2011
Sommaire 119 120 121 121 121 123 123 123 124 125 126 126 127 129 129 130 131 133 133 134 138 139 142 146 147
Mise en place du test Autre interprtation du paramtre z Nombre de sujets ncessaires Test dgalit de deux proportions vraies (ou test de comparaison de deux proportions observes) 12.1.2.1 Mise en place du test 12.1.2.2 Nombre de sujets ncessaires 12.2 Tests concernant des variables quantitatives 12.2.1 Tests impliquant une valeur donne 12.2.1.1 Test dgalit dune moyenne vraie une valeur donne (ou test de comparaison dune moyenne observe une valeur donne) 12.2.1.2 Test de symtrie dune variable (X) par rapport une valeur donne (0) : test de Wilcoxon 12.2.2 Tests de comparaison de variables quantitatives 12.2.2.1 Test dgalit de deux moyennes vraies (ou test de comparaison de deux moyennes observes) 12.2.2.2 Test dgalit de deux distributions (ou test de comparaison de deux distributions observes) : test de Mann-Whitney-Wilcoxon 12.2.3 Cas des sries apparies 12.2.3.1 Test de comparaison de deux moyennes observes sur sries apparies 12.2.3.2 Test de symtrie de la distribution des diffrences Rsum du chapitre
2010 - 2011
7/175
Sommaire 159 159 160 161 161 161 162 163 163 164 164 165 165 167 169 170 171 172 173 174 175
Annexe A :
A.1 A.2 A.3 A.4 A.5 A.6
Tables statistiques
TABLE DE LA VARIABLE NORMALE REDUITE Z TABLE DU TEST DE WILCOXON TABLE DU TEST DE MANN-WHITNEY-WILCOXON TABLE DE 2 TABLE DU COEFFICIENT DE CORRELATION TABLE DU t DE STUDENT
8/175
2010 - 2011
Avant-propos
Avant-propos
Ce polycopi contient le cours de biostatistique du PCEM1 de la Facult de Mdecine Pierre et Marie Curie (Paris VI). On pourra trouver des complments dans le livre de A. J. Valleron : A.J. Valleron. UE4 : valuation des mthodes danalyse appliques aux sciences de la vie et de la sant. Elsevier-Masson (collection PassSant)
2010 - 2011
9/175
Avant-propos
10/175
2010 - 2011
Introduction
Introduction
La statistique constitue, en mdecine, loutil permettant de rpondre de nombreuses questions qui se posent en permanence au mdecin : 1. 2. 3. 4. Quelle est la valeur normale dune grandeur biologique, taille, poids, glycmie ? Quelle est la fiabilit dun examen complmentaire ? Quel est le risque de complication dun tat pathologique, et quel est le risque dun traitement ? Le traitement A est-il plus efficace que le traitement B ?
1 La variabilit et lincertain
Toutes ces questions, proprement mdicales, refltent une proprit fondamentale des systmes biologiques qui est leur variabilit. Cette variabilit est la somme dune variabilit exprimentale (lie au protocole de mesure) et dune variabilit proprement biologique. On peut ainsi dcomposer la variabilit dune grandeur mesure en deux grandes composantes :
variabilit totale = variabilit biologique + variabilit mtrologique
La variabilit biologique peut tre elle-mme dcompose en deux termes : dune part la variabilit intra-individuelle, qui fait que la mme grandeur mesure chez un sujet donn peut tre soumise des variations alatoires ; et dautre part la variabilit inter-individuelle qui fait que cette mme grandeur varie dun individu lautre.
variabilit biologique = variabilit intra-individuelle + variabilit inter-individuelle
La variabilit intra-individuelle peut tre observe lors de la mesure de la performance dun athlte qui nest pas capable des mmes performances chaque essai, mais qui se diffrencie des autres athltes (variabilit inter-individuelle). En gnral, la variabilit intra est moindre que la variabilit inter. La variabilit mtrologique peut tre elle aussi dcompose en deux termes : dune part les conditions exprimentales dont les variations entranent un facteur dalas ; et dautre part les erreurs induites par lappareil de mesure utilis.
variabilit mtrologique = variabilit exprimentale + variabilit appareil de mesure
La mesure de la pression artrielle peut grandement varier sur un individu donn suivant les conditions de cette mesure ; il est ainsi recommand de la mesurer aprs un repos dau moins 15 minutes, allong, en mettant le patient dans des conditions de calme maximal. Cette recommandation vise minimiser la variabilit due aux conditions exprimentales. La prcision de lappareil de mesure est une donne intrinsque de lappareil, et est fournie par le constructeur. 11/175
2010 - 2011
Introduction
12/175
2010 - 2011
Introduction
1. Rappel : calculer la drive partielle dune fonction par rapport lune des variables consiste driver en assimilant les autres variables des constantes.
2010 - 2011
13/175
Introduction
Lobjectif de ce cours est de vous fournir les bases indispensables permettant de comprendre les mthodes utilises, dinterprter correctement les rsultats de nouvelles recherches, et dadopter un mode de raisonnement qui soit mme daider la dcision dans lexercice de la mdecine. Plus prcisment nous tudierons successivement : 1. 2. 3. Les bases de calcul de probabilits, qui sont indispensables la comprhension et lutilisation des mthodes statistiques. La statistique descriptive qui permet de reprsenter et de quantifier la variabilit dune ou plusieurs grandeurs observes. La statistique inductive qui inclura les tests statistiques permettant de retenir une hypothse A plutt quune hypothse B partir de donnes exprimentales (comme dans le cas de la comparaison de deux traitements, o lhypothse A est que les deux traitements sont quivalents et lhypothse B est quils sont diffrents). Les applications des mthodes statistiques lpidmiologie, laide la dcision thrapeutique et diagnostique, et les applications aux essais thrapeutiques.
4.
14/175
2010 - 2011
Statistique(s) et Probabilit(s)
1.1 Statistique
Le terme statistique dsigne la fois un ensemble de donnes dobservations, et lactivit qui consiste en leur recueil, leur traitement et leur interprtation. Les termes statistique, ou statistiques (au pluriel) englobent ainsi plusieurs notions distinctes : 1. Dune part le recensement de grandeurs dintrt comme le nombre dhabitants dun pays, le revenu moyen par habitant, le nombre de sropositifs dans la population franaise. Nous voyons que la notion fondamentale qui se dgage de cette numration est celle de Population. Une population est un ensemble dobjets, dtres vivants ou dobjets abstraits (ensemble des mains de 5 cartes distribues au bridge...) de mme nature. La statistique en tant que science sintresse aux proprits des populations naturelles. Plus prcisment elle traite de nombres obtenus en comptant ou en mesurant les proprits dune population. Cette population dobjets doit en outre tre soumise une variabilit, qui est due de trs nombreux facteurs inconnus (pour les populations dobjets biologiques qui nous intressent ces facteurs sont les facteurs gntiques et les facteurs environnementaux). A ces deux acceptions du terme statistiques (au pluriel) il faut ajouter le terme statistique (au singulier) qui dfinit toute grandeur calcule partir dobservations. Ce peut tre la plus grande valeur de la srie statistique dintrt, la diffrence entre la plus grande et la plus petite, la valeur de la moyenne arithmtique de ces valeurs, etc.
2.
3.
2010 - 2011
15/175
Statistique(s) et Probabilit(s)
lation, il faut quil soit convenablement slectionn. On parlera dchantillon reprsentatif si les individus le constituant ont t tirs au sort1 dans la population. Si par exemple on souhaite dterminer les caractristiques moyennes du poids et de la taille des prmaturs masculins on tirera au hasard un certain nombre de sujets parmi les naissances de prmaturs de lanne. Chaque individu, ou unit statistique, appartenant une population est dcrit par un ensemble de caractristiques appeles variables ou caractres. Ces variables peuvent tre quantitatives (numriques) ou qualitatives (non numriques) : quantitatives pouvant tre classes en variables continues (taille, poids) ou discrtes (nombre denfants dans une famille) qualitatives pouvant tre classes en variables catgorielles (couleurs des yeux) ou ordinales (intensit dune douleur classe en nulle, faible, moyenne, importante).
16/175
2010 - 2011
Statistique(s) et Probabilit(s)
taux il va tenter de dgager des proprits gnrales du phnomne observ quil va en gnral reprsenter sous forme dun modle (toutes les lois de la physique et de la chimie sont des modles mathmatiques les plus gnraux possibles des faits exprimentaux) : cest la construction inductive de la thorie. Cette dmarche gnrale va plus loin car le modle permet de prdire des expriences non ralises. Si les prdictions ainsi ralises sont contradictoires avec les rsultats exprimentaux alors on pourra avec certitude rfuter le modle (on dit aussi quon la falsifi) ; dans le cas contraire on garde le modle mais on nest pas certain quil soit vrai . Autrement dit, lissue dun tel test on ne peut avoir de certitude que si on a trouv des lments permettant de rfuter le modle. Nous verrons dans la suite que cette approche se transpose exactement dans la dmarche statistique, en particulier dans le domaine des tests.
2010 - 2011
17/175
Statistique(s) et Probabilit(s)
18/175
2010 - 2011
Rappels mathmatiques
On dfinit un ensemble soit en listant ses lments, soit en donnant la dfinition de ses lments : A = {1, 2, 3} X = {x : x est un entier positif}
2010 - 2011
19/175
Rappels mathmatiques
AB A E Cas particulier : si A B = , on dit que A et B sont disjoints. Runion La runion de A et B, note A B , est lensemble des lments x tels que x A ou x B . Soit : A B = { x : x A ou x B } Le terme ou est employ au sens x A ou B si x appartient A, ou B, ou A et B (car x A et B signifie x A et x B ). AB A E Complmentaire Le complmentaire de A est lensemble des lments de E qui nappartiennent pas A. CA = A = {x : x A} B B
CA
A E Diffrence La diffrence entre A et B, ou complmentaire de B relatif A, est lensemble des lments de A qui nappartiennent pas B. A B = C A B = { x : x B et x A }
C AB
A E B
20/175
2010 - 2011
Rappels mathmatiques
CC A = A C(A B ) = CA CB
CE = , C = E C(A B) = CA CB
2010 - 2011
21/175
Rappels mathmatiques
A = {a, b, c} ; B = {1, 2} A B = { (a, 1), (a, 2), (b, 1), (b, 2), (c, 1), (c, 2) } est le plan cartsien, chaque lment de tant dfini par son abscisse et son ordonne : (a,b) b a
Ai
i
= A 1 A 2 ... A n ...
ai
i=1
= a 1 + a 2 + ... + a n .
22/175
2010 - 2011
Rappels mathmatiques
1. 2.
( ai + bi )
i i
ai + bi
i i i
( kai ) = k ai
Si k est une constante (indpendante de i), elle peut tre sortie de la somme.
f( x)
a f ( x ) dx
b
a Proprits 1. 2. 3.
b
b
a ( f ( x ) + g ( x ) ) dx
b
a f ( x ) dx + a g ( x ) dx
b b
a kf ( x ) dx
b
= k f ( x ) dx
b a
a f ( x ) dx
b
a f ( x ) dx + c f ( x ) dx
c
Fonction primitive Soit f une fonction relle. Laire sous la courbe sur lintervalle ]-, x] varie lorsquon fait varier x de - +. Cette aire est une fonction F de x, appele fonction primitive de f. Elle est dfinie par : x F ( x ) = f ( ) d
Noter lutilisation de la variable dintgration . On peut utiliser nimporte quel nom de variable (il sagit dune variable muette), diffrent de la borne dintgration x. Proprits 1. Si F ( x ) =
f ( ) d , alors f ( x )
x
= dF ( x ) -------------dx
2.
2010 - 2011
23/175
Rappels mathmatiques
24/175
2010 - 2011
2010 - 2011
25/175
2.
3.
26/175
2010 - 2011
Evnements incompatibles Quand deux vnements A et B sont tels que A B = , ils ne peuvent tre raliss simultanment. On dit quils sexcluent mutuellement, ou quils sont incompatibles. Systme complet dvnements On dit que les vnements A 1, A 2, ..., An forment une famille complte si les Ai constituent une partition de E, cest--dire si : 1. 2. les vnements sont deux deux disjoints : ( i j ) ,( A i A j = ) ils couvrent tout lespace : A i = E
i Exemple Reprenons lexemple prcdent du jeu de ds : E = {1, 2, 3, 4, 5, 6}, A = {2, 4, 6}, B = {1, 2, 3, 5}, C = {3}. A B = { 1, 2, 3, 4, 5, 6 } = apparition dun nombre pair ou premier A B = { 2 } = apparition dun nombre pair et premier C C = { 1, 2, 4, 5, 6 } = apparition dun nombre autre que 3 A C = : A et C sexcluent mutuellement.
2010 - 2011
27/175
( A i A j = ), alors Pr ( A 1 A 2 ... ) = Pr ( A 1 ) + Pr ( A 2 ) + ... . Cette quatrime condition est proche de la troisime. Elle ne peut cependant pas sen dduire dans le cas dun ensemble dvnements infini dnombrable. Proprits importantes dduites des quatre conditions prcdentes : 1. Pr ( ) = 0 Soit A un vnement quelconque. A et sont videmment disjoints puisque A = ; donc Pr ( A ) = Pr ( A ) + Pr ( ) . Or A = A ; donc Pr ( A ) = Pr ( A ) . Do Pr ( ) = 0 . Pr ( A ) 1 A et son complmentaire C A sont disjoints, et leur runion forme E, de probabilit 1. Donc Pr ( E ) = 1 = Pr ( A C A ) = Pr ( A ) + Pr ( C A ) . Toute probabilit tant positive ou nulle, on obtient bien Pr ( A ) 1 . Pr ( C A ) = 1 Pr ( A ) A dmontrer en exercice, en notant que E = A C A . Si A B , alors Pr ( A ) Pr ( B ) . A dmontrer en exercice, en notant que B = A C B A .
2.
3. 4.
CB A
A Pr ( C A B ) = Pr ( A ) Pr ( A B ) A dmontrer en exercice, en remarquant que A = B
5.
CA B ( A B ) .
AB
CA B
A Pr ( A B ) = Pr ( A ) + Pr ( B ) Pr ( A B ) A dmontrer en exercice, en remarquant que ( A B ) = B
6.
CA B B .
CA B
A
28/175
2010 - 2011
3.5 Remarque
Alors que Pr ( ) = 0 , il existe des vnements non vides qui peuvent avoir une probabilit nulle. Dans le cas dun ensemble infini non dnombrable, un tel vnement nest pas ncessairement impossible : il est alors dit presque impossible . Exemple Considrons lexprience qui consiste choisir au hasard un point sur une feuille de papier quadrill avec une pointe de compas infiniment fine. La probabilit de lvnement piquer dans un carr donn a une certaine valeur (par exemple celle du rapport de la surface du carr avec celle de la feuille de papier) ; en revanche, si on rduit le carr un point (carr infiniment petit) la probabilit deviendra zro alors que lvnement (piquer dans ce carr si petit quil est devenu un point) nest pas impossible. De mme un vnement de probabilit 1 peut ne pas tre certain. Il est alors qualifi de presque certain .
La probabilit dun vnement quelconque A est la somme des probabilits des ai quil contient : Pr ( A ) = p i Exemple On jette 3 pices de monnaie et on compte le nombre de face obtenu. Lensemble fondamental correspondant cette exprience est E = {0, 1, 2, 3} puisquon peut obtenir comme rsultat de lexprience : 0 fois face (3 fois pile ), 1 fois face (2 fois pile ), 2 fois face , ou 3 fois face . On probabilise cet ensemble fini en donnant une valeur p 0, p 1, p 2 et p 3 aux vnements {0}, {1}, {2} et {3} ; comme par exemple p 0 = 1/8, p 1 = 3/8, p 2 = 3/8 et p 3 = 1/8. Considrons lvnement A tel quon ait au moins 2 fois face , A = {a 2, a 3} : Pr(A) = p 2 + p 3 = 3/8 + 1/8 = 4/8 = 1/2
ai A
2010 - 2011
29/175
Proprit Dans un ensemble fini quiprobable, la probabilit dun vnement A est gale au rapport du nombre de rsultats tel que A est vrai, sur le nombre dvnements de E. Remarque Quand on dit quon tire au hasard , on sous-entend que lensemble probabilis considr est quiprobable. Exemple On tire au hasard une carte dans un jeu de 52 cartes. Quelle est la probabilit de tirer un trfle ? Pr ( tirer un trfle ) = nombre de trfles = 13 = 1 ---------------------------------------------nombre de cartes 52 4 Quelle est la probabilit de tirer un roi ? nombre de rois 41Pr ( tirer un roi ) = ---------------------------------------- = ----- = ----nombre de cartes 52 13 Quelle est la probabilit de tirer un roi de trfle ? 1Pr ( tirer un roi de trfle ) = ----52 Remarque Le cas des ensembles finis quiprobables est le plus simple apprhender. Il faut insister sur le fait que lquiprobabilit nest quun cas particulier des ensembles probabiliss ; ce nest (de loin) pas le plus utile en mdecine.
30/175
2010 - 2011
p i 0 et
pi
i=1
= 1.
La probabilit dun vnement quelconque est alors la somme des pi correspondant ses lments. Exemple 1 A = {a 25, a 31, a 43} Pr(A) = p 25 + p 31 + p 43 Exemple 2 Si on reprend lexprience consistant jeter une pice et compter le nombre de jets jusqu ce quon obtienne un rsultat pile (cest un espace infini dnombrable), on peut construire un espace probabilis en choisissant : 1p 1 = 1, p 2 = 1, ..., p n = ---- , ..., p = 0 --2 4 2n Remarque : Le choix des pi est arbitraire ; en ralit, il est justifi soit par des considrations a priori (dans le cas de lexprience prcdente on suppose que chaque jet constitue une exprience avec Pr(pile) = Pr(face) = 1/2 et que le rsultat dun jet ninflue pas sur le suivant). Il peut tre aussi estim ; cest le problme des statistiques qui, partir de nombreuses ralisations de lexprience, permet dapprocher les valeurs pi (ce point sera revu dans la suite du cours et constitue lobjet de lapproche statistique).
2010 - 2011
31/175
32/175
2010 - 2011
AB Figure 1 : probabilit conditionnelle Cette relation gnrale pour tout espace probabilis sinterprte facilement dans le cas o E est un 33/175
2010 - 2011
espace quiprobable (mais cette relation est vraie pour un espace non-quiprobable !). En notant A le nombre dlments de A : AB BAB Pr ( A B ) = -----------------, Pr ( B ) = ----- , Pr ( A B ) = ----------------E E B Pr(A/ B) traduit le rapport de la surface de A B sur la surface de B dans la figure 1. Toujours dans le cas o E est quiprobable, on a Pr ( A B ) = nombre de ralisations possibles de A et B en mme temps --------------------------------------------------------------------------------------------------------------------------------------------nombre de ralisations de B Cette interprtation de la probabilit conditionnelle, facile apprhender dans le cas dquiprobabilit, est la dfinition gnrale de la probabilit conditionnelle quon doit utiliser telle quelle, sans chercher une interprtation frquentiste dans tous les cas. Exemple On jette une paire de ds bien quilibrs (espace quiprobable). On observe une ralisation de lvnement {somme des ds = 6}. Quelle est la probabilit pour quun des deux ds ait donn le rsultat 2 ? B = {somme des deux ds = 6} A = {au moins un des deux ds donne 2} B = {(2, 4), (4, 2), (1, 5), (5, 1), (3, 3)} Nombre de ralisations de A B = {(2, 4), (4, 2)} = 2 AB Do Pr ( A B ) = ----------------- = 2 , alors que Pr ( A ) = 11 ( vrifier). -----B 5 36
34/175
2010 - 2011
Pr(3me dfectueux / 1er et 2me dfectueux) = 2/8 Pr(1er et 2me et 3me dfectueux) = 4/103/92/8 = 1/30.
0,15 Saint Antoine 1/4 1/2 Piti 0,85 0,20 0,80 1/4 Broussais 0,10 0,90
R signifie russite et E chec. Pr ( R ) = Pr ( R Saint Antoine ) + Pr ( R Piti ) + Pr ( R Broussais ) Pr(R) = 0,151/4 + 0,201/2 + 0,101/4 = 0,1625 La probabilit quun chemin particulier de larbre se ralise est, daprs le thorme de la multiplication, le produit des probabilits de chaque branche du chemin. Les chemins sexcluant mutuellement, la probabilit dtre reu est gale la somme des probabilits dtre reu pour tout chemin aboutissant un tat R (reu).
2010 - 2011
35/175
( i j ) ,( A i A j = ) ;
Ai = E
i=1
Soit B un vnement quelconque A1 B A2 A3 De E = A 1 A 2 ... A n et de B E = B , on tire B = B ( A 1 A 2 ... A n ) . Soit, par distributivit, B = ( B A 1 ) ( B A 2 ) ... ( B A n ) . En remarquant que les B A i sont exclusifs, puisque les Ai le sont, et en appliquant la 3me rgle du calcul des probabilits on obtient la formule dite des probabilits totales : Pr ( B ) = Pr ( B A 1 ) + Pr ( B A 2 ) + ... + Pr ( B A n ) Equation 4 : probabilits totales En appliquant le thorme de la multiplication : Pr ( B ) = Pr ( B A 1 )Pr ( A 1 ) + Pr ( B A 2 )Pr ( A 2 ) + ... + Pr ( B A n )Pr ( A n ) Pr ( B A i )Pr ( A i ) Or, par la forme simple du thorme de Bayes, on a Pr ( A i B ) = ---------------------------------------Pr ( B ) Do le thorme de Bayes : Pr ( B A i )Pr ( A i ) Pr ( A i B ) = --------------------------------------------------------------------------------------------------------------------------------------------------------Pr ( B A 1 )Pr ( A 1 ) + Pr ( B A 2 )Pr ( A 2 ) + ... + Pr ( B A n )Pr ( A n ) Equation 5 : thorme de Bayes
36/175
2010 - 2011
Exemple 1 Reprenons lexemple des rsultats au concours des tudiants de Paris VI. Comme prcdemment, soit R lvnement un tudiant de Paris VI est reu . On a, en notant C 1, C 2, C 3 les 3 anciens CHU Saint Antoine, Piti et Broussais respectivement : Pr(R) = Pr(R/C 1)Pr(C 1) + Pr(R/C 2)Pr(C 2) + Pr(R/C 3)Pr(C 3) [noter que cest la mme chose que la somme des probabilits des chemins de larbre, qui conduisent un succs] Le thorme de Bayes permet de rpondre la question duale. Au lieu de chercher la probabilit dobtenir un tudiant reu sachant quil venait dun CHU donn, on cherche la probabilit quun tudiant ait t inscrit un CHU donn sachant quil a t reu (probabilit des causes). Calculons la probabilit quun tudiant reu soit issu du CHU Piti-Salptrire. Pr ( R C 2 )Pr ( C 2 ) Pr ( C 2 R ) = ------------------------------------------------------------------------------------------------------------------------------------------------Pr ( R C 1 )Pr ( C 1 ) + Pr ( R C 2 )Pr ( C 2 ) + Pr ( R C 3 )Pr ( C 3 ) Avec Pr(C 1) = 0,25 ; Pr(C 2) = 0,50 ; Pr(C 3) = 0,25 ; et Pr(R/C 1) = 0,15 ; Pr(R/C 2) = 0,20 ; Pr(R/C 3) = 0,10. 0, 20 0, 50 Do Pr ( C 2 R ) = ------------------------------------------------------------------------------------------------------ = 0, 61 0, 15 0, 25 + 0, 20 0, 50 + 0, 10 0, 25 Ce qui signifie que, dans ce cas, la probabilit quun tudiant appartienne C 2, sil est reu, est plus grande que si lon ne sait rien (probabilit a priori Pr(C 2) = 0,50). Cette faon de calculer les probabilits des causes connaissant les effets est essentielle en mdecine. En effet, le problme du diagnostic peut tre pos en ces termes. Exemple 2 Considrons, pour illustrer notre propos, le problme du diagnostic dune douleur aigu de labdomen. Il sagit dun patient arrivant aux urgences pour un mal au ventre . Si lon ne sait rien dautre sur le patient (on na pas fait dexamen clinique ou complmentaire), on ne connat que les probabilits davoir tel ou tel diagnostic si on observe une douleur. Soient D 1, D 2 et D 3 les 3 diagnostics principaux (il y en a en fait au moins une douzaine) et exclusifs ; par exemple D 1 = appendicite, D 2 = perforation dulcre, D 3 = autres diagnostics. Soit un signe s 1 pour lequel on connat Pr(s 1/D 1), Pr(s 1/D 2), et Pr(s 1/D 3). Par exemple, s 1 serait prsence dune fivre 38,5C ; Pr(s 1/D 1) = 0,90 ; Pr(s 1/ D 2) = 0,30 ; et Pr(s 1/D 3) = 0,10. Ces probabilits peuvent tre estimes sur une population de patients en dnombrant le nombre de sujets ayant le diagnostic D 1 et prsentant le signe s 1. De mme, on peut connatre Pr(D 1), Pr(D 2) et Pr(D 3). Le problme diagnostique se pose comme celui de choisir par exemple le diagnostic le plus probable connaissant le signe s 1 ; pour ce faire, on calcule Pr(D 1/s 1), Pr(D 2/s 1), Pr(D 3/ s 1) et on retient le diagnostic qui a la plus grande probabilit : cest lapplication de lapproche bayesienne au problme de laide au diagnostic.
2010 - 2011
37/175
38/175
2010 - 2011
2.
2010 - 2011
39/175
40/175
2010 - 2011
5.1.1 Le diagnostic
On peut dfinir un diagnostic comme un concept rsumant ltat dun individu. Le terme de diagnostic est donc beaucoup moins prcis quon pourrait le penser premire vue : on peut en gnral fournir plusieurs diagnostics pour un mme tat physiopathologique, les termes diagnostiques utiliss dpendant de laspect privilgi. Parmi ces aspects, on peut citer : la symptomatologie 41/175
2010 - 2011
En pratique, la prcision du diagnostic dpendra souvent des possibilits thrapeutiques : par exemple, on ne recherchera pas, en gnral, le virus responsable dun syndrome grippal, surtout si on sattend ce que la maladie gurisse spontanment. Dun point de vue statistique, le diagnostic sera souvent considr comme une variable alatoire binaire : le patient souffre ou ne souffre pas de laffection considre, ou, exprim autrement, le diagnostic est vrai ou faux chez ce patient. Les valeurs possibles de la variable seront notes M et M (maladie prsente ou absente), ou D et D (diagnostic vrai ou faux).
Dun point de vue statistique, ces signes peuvent tre reprsents par des variables binaires (prsence ou absence dun nodule sur une image) ou continues (cholestrolmie). Nous considrons ici le seul cas dun signe binaire, prsent (not S) ou absent (not S ). Dans la suite, on considre que la prsence du signe est vocateur de la maladie M. Si linformation est de type continu, on se ramne au cas binaire par lintroduction dun seuil : dun ct du seuil, les valeurs sont dites normales, et le signe binaire est absent ; de lautre ct du seuil, les valeurs sont dites pathologiques, et le signe binaire est prsent.
42/175
2010 - 2011
ce observe correspondante ; ce point sera dvelopp plus loin dans ce chapitre. Remarque : nous utilisons actuellement le mot estimation dans le sens dapproximation de la vraie valeur. Nous donnerons des dfinitions plus rigoureuses dans le chapitre 10 page 95.
2010 - 2011
comme la frquence de la maladie (prvalence), les risques lis la maladie, lexamen, lexistence et les performances dautres examens concurrents...
On peut noter ces paramtres : VPP = Pr ( M S ) VPN = Pr ( M S ) Comme les sensibilit et spcificit, les valeurs prdictives positive et ngative varient en sens inverse, et doivent donc tre considres simultanment. Les valeurs prdictives peuvent sexprimer en fonction du couple sensibilit - spcificit, et de la frquence de la maladie dans la population (cette probabilit Pr(M) sappelle la prvalence de la maladie). Il suffit dutiliser le thorme de Bayes : Pr ( S M )Pr ( M ) VPP = Pr ( M S ) = ----------------------------------------------------------------------------------Pr ( S M )P ( M ) + Pr ( S M )Pr ( M ) Se Pr ( M ) = ------------------------------------------------------------------------------------------Se Pr ( M ) + ( 1 Sp ) ( 1 Pr ( M ) ) Pr ( S M )Pr ( M ) VPN = Pr ( M S ) = ----------------------------------------------------------------------------------Pr ( S M )P ( M ) + Pr ( S M )Pr ( M ) Sp ( 1 Pr ( M ) ) = ------------------------------------------------------------------------------------------( 1 Se ) Pr ( M ) + Sp ( 1 Pr ( M ) )
44/175
2010 - 2011
plmentaires. La raison en est la suivante : la sensibilit dun examen pour une affection repose sur la dfinition de la population des malades , et est donc caractristique de la maladie et du signe. En particulier, elle nest pas susceptible de varier dun centre lautre (dun service hospitalier spcialis une consultation de mdecin gnraliste, par exemple). Le mme raisonnement peut sappliquer la spcificit, si on considre quelle repose aussi sur la dfinition de la maladie. Les valeurs prdictives, au contraire, sont fonctions des proportions respectives de malades et de non-malades dans la population (de la prvalence de la maladie). Or ces proportions sont dpendantes des centres considrs ; les valeurs prdictives des examens varient donc dun centre lautre pour une mme maladie, ce qui explique quelles sont moins utilises comme paramtre dvaluation, mme si elles sont intressantes connatre pour un centre donn.
2010 - 2011
45/175
Cet exemple (tir du livre de A.J. Valleron) montre 3 courbes ROC correspondant 3 examens diffrents. La courbe A est celle obtenue pour lexemple prcdent de la temprature et de la grippe. Le point de la courbe le plus proche du coin suprieur gauche du carr contenant la courbe (ici Se = 0,65, Sp = 0,75, et temprature = 39C)) est celui qui permet dobtenir un bon compromis entre sensibilit et spcificit (le coin suprieur gauche correspond Se = Sp = 1). En ralit, on ne choisira pas toujours ce point, car il faut aussi tenir compte des cots des erreurs diagnostiques : il peut par exemple tre beaucoup plus grave de ne pas dtecter une maladie, que de traiter tort. La courbe B correspond un examen qui napporte rien au diagnostic, puisque les variables signe et maladie sont ici indpendantes : Se = Pr ( S M ) = 1 Sp = Pr ( S M ) La courbe C correspond un bon critre diagnostic pour lequel on peut obtenir simultanment des valeurs leves de sensibilit et de spcificit.
46/175
2010 - 2011
2010 - 2011
On peut estimer les sensibilits et spcificits correspondant aux deux seuils par : Se1 90 / 100 = 0,90 ; Sp1 300 / 500 = 0,60 Se2 50 / 100 = 0,50 ; Sp2 475 / 500 = 0,95. On retrouve ici le fait que sensibilit et spcificit varient en sens inverse. On constate dautre part que le seuil S1 correspond une bonne sensibilit (lexamen est positif chez 90 % des malades), mais une spcifit mdiocre (lexamen est positif chez 40 % des nonmalades ) ; il peut donc tre utilis pour un examen de dpistage, le diagnostic devant tre confirm ultrieurement par un examen plus spcifique. Le seuil S2, en revanche, induit un test dune sensibilit qui pourrait tre juge trop faible pour un examen de dpistage. En revanche, sa spcificit peut tre acceptable pour un examen de confirmation.
2010 - 2011
2010 - 2011
49/175
50/175
2010 - 2011
Variables alatoires
2010 - 2011
51/175
Variables alatoires
( i ), p i 0 et
pi
i=1
= 1.
x1
x2
x3
x4
xn
xi
X = E ( X ) =
xi pi
i=1
= x 1 p 1 + x 2 p 2 + ... + x n p n .
52/175
2010 - 2011
Variables alatoires
X peut tre note sil ny a pas de confusion possible. Exemple On considre lexprience qui consiste jeter deux ds parfaitement quilibrs. Lespace fondamental est constitu par lensemble des couples ordonns E = {(1, 1), (1, 2), (1, 3), ..., (6, 6)} Cest un espace quiprobable (tous les couples rsultats lmentaires du tirage sont quiprobables). Considrons la variable alatoire dfinie comme suit : soit r = (a, b) un lment quelconque de E ; on pose X(r) = X(a, b) = max(a, b) (la valeur de X(r) est gale a si a > b et b dans le cas contraire). X est une variable alatoire sur E avec X(E) = {1, 2, 3, 4, 5, 6}, et la loi de probabilit p 1 = Pr(X = 1) = Pr({(1, 1)}) = 1/36 ; p 2 = Pr(X = 2) = Pr({(1, 2), (2, 1), (2, 2)}) = 3/36 ; p 3 = 5/36 ; p 4 = 7/36 ; p 5 = 9/36 ; p 6 = 11/36. Soit : xi pi 1 1/36 2 3/36 3 5/36 4 7/36 5 9/36 6 11/36
1 Thormes 1.
E(X)
xi
2.
Soit X une variable alatoire et k une constante relle. On a : E(kX) = kE(X) E(X + k) = E(X) + k Soient X et Y deux variables alatoires dfinies sur le mme espace fondamental E. On a : E(X + Y) = E(X) + E(Y)
2010 - 2011
53/175
Variables alatoires
On en dduit que pour n variables alatoires Xi , dfinies sur le mme espace fondamental : n n = E X i E ( Xi ) i = 1 i=1 (lesprance de la somme est la somme des esprances). Exemple Considrons lexprience du jeu de ds o E = {1, 2, 3, 4, 5, 6} uniforme (quiprobable). Soit X(E) une premire variable alatoire dfinie par X(E) = {1, 2, 3, 4, 5, 6} et pX 1 = pX 2 = pX 3 = pX 4 = pX 5 = p X6 = 1/6 E(X) = (1 + 2 + 3 + 4 + 5 + 6) / 6 = 21/6 Soit Y(E) une seconde variable alatoire telle que Y(E) = 1 si le chiffre tir est impair Y(E) = 2 si le chiffre tir est pair. Donc Y(E) = {1, 2} pY 1 = Pr({1, 3, 5}) = 1/2 pY 2 = Pr({2, 4, 6}) = 1/2 E(Y) = 1/2 + 1 = 1,5 Calculons maintenant la loi de (X + Y)(E) (X + Y)(r) = X(r) + Y(r) Pour r = 1, (X + Y)(1) = X(1) + Y(1) = 1 + 1 = 2 Pour r = 2, (X + Y)(2) = X(2) + Y(2) = 2 + 2 = 4 Pour r = 3, (X + Y)(3) = X(3) + Y(3) = 3 + 1 = 4 Pour r = 4, (X + Y)(4) = X(4) + Y(4) = 4 + 2 = 6 Pour r = 5, (X + Y)(5) = X(5) + Y(5) = 5 + 1 = 6 Pour r = 6, (X + Y)(6) = X(6) + Y(6) = 6 + 2 = 8 On a donc (X + Y)(E) = {2, 4, 6, 8} et Pr((X + Y) = 2) = 1/6, Pr((X + Y) = 4) = 2/6, Pr((X + Y) = 6) = 2/6, Pr((X + Y) = 8) = 1/6 E(X + Y) = 2/6 + 8/6 + 12/6 + 8/6 = 30/6 Or on retrouve bien ce rsultat en utilisant E(X) + E(Y) = 21/6 + 3/2 = 30/6. Remarque Lorsquon doit calculer lesprance dune fonction g(X), il faut tudier la variable Y = g(X) dont les valeurs sont y 1 = g(x 1), y 2 = g(x 2), ..., yn = g(xn ). Alors : Pr(Y = yi ) = Pr[g(X) = g(xi )] Si g est une fonction monotone, on a g(X) = g(xi ) X = xi Do Pr(Y = yi ) = Pr(X = xi ) = pi n n Donc : E ( g ( X ) ) = E ( Y ) = y i Pr ( Y = y i ) = g ( x i )p i On montre que ce rsultat reste valide, mme si g nest pas monotone. Par exemple, si lon doit calculer E(X 2), on considre la variable Y = X 2 dont les valeurs sont y 1 = x 12, y 2 = x 22, ..., yn = xn 2. Alors :
i=1 i=1
54/175
2010 - 2011
Variables alatoires
E(X ) = E(Y) =
yi Pr ( Y = yi )
i=1
xi pi
2 i=1
On constate que pour calculer lesprance dun carr, il faut lever les valeurs x i au carr, mais pas les probabilits pi associes.
var ( X ) .
E ( ( X X ) ) = E ( ( X X ) ) = 2. 3.
2 2
i=1 n i=1
2 X x i p i +
i=1 2 2
pi
i=1 2 2
xi pi 2X + X
2
= E ( X ) X
X 0 , par dfinition Soit X une variable alatoire de moyenne et de variance 2. X On dfinit la variable centre rduite par Y = ------------ .
4.
On peut montrer facilement (faites lexercice) que E(Y) = 0 et var(Y) = E(Y 2) = 1. Si a est une constante, on montre que var(X + a) = var(X) et var(aX) = a 2var(X).
2010 - 2011
55/175
Variables alatoires
Y(E) = {y 1, y 2, ..., ym }. Considrons lensemble produit X(E)Y(E) = {(x 1, y 1), (x 1, y 2), ..., (xn , ym )} (ensemble des couples (xi , yj ) pour i = 1, ..., n et j = 1, ..., m) Cet ensemble produit peut tre transform en ensemble probabilis si on dfinit la probabilit du couple ordonn (xi , yj ) par Pr ( [ X = x i ] [ Y = y j ] ) que lon note p xi,yj . Cette loi de probabilit de X, Y est appele distribution jointe de X et Y. X x1 p x1,y1 p x1,y2 x2 p x2,y1 x3 xn
.....
i = 1, n
xi
y1 y2 ..... ym
p y1 p y2
p x1,ym yj p x1
m
j = 1, m n
p x2
Les probabilits p xi =
pxi, yj et pyj
j=1
pxi, yj
i=1
sont souvent appeles lois de probabilit marginales de X et de Y. Il sagit simplement de leurs distributions. La loi de probabilit p xi,yj possde, bien entendu, les proprits dune loi : 1. 2. p xi, yj 0 ,i, j
n m
pxi, yj
i = 1j = 1
= 1
Soient X et Y les esprances de X et de Y, X et Y leurs cart-types. On montre facilement que var(X + Y) = X 2 + Y 2 + 2cov(X, Y), o cov(X, Y) reprsente la covariance de X et Y et est dfinie par :
n m
cov ( X, Y ) = E [ ( X X ) ( Y Y ) ] =
( xi X ) ( yj Y )pxi, yj
i = 1j = 1
De mme que pour la variance (voir section 6.2.3), on a : cov(X, Y) = E(X Y) - X Y La covariance de X et Y se note aussi XY . Une notion drive de la covariance est celle de corrlation entre X et Y, dfinie par : cov ( X, Y ) ( X, Y ) = ----------------------X Y 56/175
Biostatistique - Carrat, Mallet, Morice 2010 - 2011
Variables alatoires
On peut vrifier que (X, Y) = (Y, X) 1 ( X, Y ) 1 (X, X) = 1 (aX + b, cY + d) = (X, Y) si a et c non nuls
2010 - 2011
57/175
Variables alatoires
Cet exemple montre la distribution de probabilits dune variable alatoire finie et la fonction de rpartition correspondante. La fonction de rpartition est une fonction en escalier. Les discontinuits se produisent pour les valeurs x possdant des probabilits non nulles. Pour chacune de ces valeurs de x, la hauteur dune discontinuit est la probabilit de x.
58/175
2010 - 2011
Variables alatoires
X = E ( X ) =
xi pi
i=1
La somme converge linfini vers E(X), toutes les autres proprits sont conserves, les sommes devenant des sries.
a f ( x ) dx
1.
= Pr ( a X b )
Remarques Si f est donne, la probabilit Pr ( a X b ) est la surface sous la courbe entre a et b Pr ( a X b ) f(x)
a 2.
et p i en f(x)dx.
2010 - 2011
59/175
Variables alatoires
xi p i est analogue Pr ( a X b ) =
La formule Pr ( x k X x n ) =
i=k
a f ( x ) dx
En utilisant cette analogie, on admettra les dfinitions suivantes pour une variable alatoire X, continue, de distribution f(x) : 1. 2. 3. 4. 5. 6. 7. f ( x ) 0 (analogue p i 0 ) f ( x ) dx = 1 (analogue pi = 1 )
X = E ( X ) =
2 2
X = var ( X ) = X = var ( X ) = ( X ) = X =
xf ( x ) dx (analogue
2 2 2
xi pi )
i
( x X ) f ( x ) dx (analogue x f ( x ) dx X (analogue
x i
( xi X )
i 2 2
pi )
xi pi X )
var ( X )
F ( x ) = Pr ( X x ) =
f ( ) d (analogue pi )
xi x
Les proprits de la fonction de rpartition donnes section 6.2.6 page 57 sont conserves : fonction monotone croissante, partant de 0 pour x- et atteignant 1 pour x+. 8. Pr ( a X b ) =
a f ( x ) dx
= F(b) F(a)
60/175
2010 - 2011
Variables alatoires
Cet exemple montre la densit de probabilit et la fonction de rpartition dune certaine variable alatoire continue. La probabilit de lintervalle [a b] est la surface sous la courbe de densit limite par cet intervalle. Cest aussi la diffrence des hauteurs F(b)-F(a) si on utilise la fonction de rpartition. Contrairement au cas des variables discrtes, la fonction de rpartition est ici continue. Pour rsumer lanalogie entre le cas discret et le cas continu, un point du domaine discret correspond un intervalle dans le cas continu, la somme discrte correspond lintgrale.
2010 - 2011
61/175
Variables alatoires
Variables quantitatives variables dont les valeurs sont numriques. Cest lunique possibilit dans le cas de variables alatoires au sens strict. On distingue deux types de variables quantitatives : variables discrtes, dont les valeurs sont discrtes, en gnral des nombres entiers. Exemple : nombre dtudiants dans un amphi. variables continues, pour lesquelles toutes les valeurs sont possibles, au moins sur un intervalle. Exemples : le poids ou la taille.
Variables qualitatives Variables dont les valeurs ne sont pas numriques. On en distingue deux types : variables ordinales, dont les valeurs peuvent tre ordonnes. Exemple : intensit dune douleur qui peut aller de absente trs intense. variables catgorielles ou nominales, dont les valeurs ne peuvent pas tre ordonnes. Exemple : couleur des yeux.
62/175
2010 - 2011
Exemples de distributions
2010 - 2011
63/175
Exemples de distributions
appelons la probabilit de lvnement lmentaire succs. A cette exprience multiple on associe une variable alatoire X qui mesure le nombre de succs obtenus. Distribution de X On montre aisment que la probabilit davoir k succs lors de n preuves rptes est n! - k nk P ( X = k pour n essais ) = ---------------------- ( 1 ) k! ( n k )! Rappel n! = 1 2 n pour tout n entier positif 0! = 1 par dfinition Remarques a. La probabilit de navoir aucun succs au cours de n preuves (k = 0) est (1-)n ; la probabilit davoir au moins un succs est donc 1 - (1-)n (un succs ou plus) n n! ---------------------- est souvent not ou C k n k k! ( n k )! n Les sappellent coefficients du binme. k En effet ils interviennent dans le dveloppement du binme selon la formule
n
b.
(a + b) =
r=0
n a n r b r r
c.
Exercice : 4 4 3 2 2 3 4 utiliser cette formule pour vrifier que ( a + b ) = a + 4a b + 6a b + 4ab + b En appliquant la formule du binme prcdente on retrouve que la somme des probabilits pour toutes les valeurs de X est gale 1 :
n
k=0
k ( 1 )
k
nk
= [ + (1 )] = 1 = 1
Exemples 1. On jette 6 fois une pice bien quilibre ; on suppose que face est un succs. On a donc = 1/2 et n = 6 a. Probabilit que lon ait exactement 2 faces 6! - 1 2 1 4 1 2 3 4 5 6 1 1- Pr ( 2 faces parmi 6 jets ) = --------- -- -- = ------------------------------------------------ -- ----2!4! 2 2 1 2 1 2 3 4 4 16 56 15 15 Pr ( 2 faces parmi 6 jets ) = ----------------------- = -------------- = ----2 4 16 4 16 64 b. Probabilit davoir 4 faces ou plus (au moins 4 faces) Cest aussi la probabilit davoir au plus 2 piles (0, 1 ou 2 piles) 6! - 1 4 1 2 1 2 3 4 5 6 1- 1 p 4 = Pr ( 4 faces ) = --------- -- -- = ------------------------------------------------ ----- -- = 15 ----2!4! 2 2 1 2 1 2 3 4 16 4 64 64/175
Biostatistique - Carrat, Mallet, Morice 2010 - 2011
Exemples de distributions
6! 1 5 1 123456 1 1 6 - - - p 5 = Pr ( 5 faces ) = --------- -- -- = ------------------------------------------------ ----- -- = ----1!5! 2 2 12345 32 2 64 6! 1 6 1 0 1- p 6 = P r ( 6 faces ) = ---- -- -- = ----6! 2 2 64 Pr ( au moins 4 faces ) = p 4 + p 5 + p 6 = 15 + ----- + ----- = 11 ----- 6- 1----64 64 64 32 2. On jette 7 fois un d quilibr et on considre que tirer 5 ou 6 est un succs. Calculer a. la probabilit pour quon ait 3 succs exactement Pr ( succs ) = Pr ( { 5, 6 } ) = 2 = 1 --6 3 7! - 1 3 2 4 560Pr ( 3 succs ) = --------- -- -- = ----------3!4! 3 3 2187 b. la probabilit de navoir aucun succs 2 7 7 128Pr ( aucun succs ) = ( 1 ) = -- = ---------- 3 2187 Proprits La fonction de probabilit Pr(X= k) dpend des 2 paramtres (ou constantes) n et . Cest une distribution discrte qui prend les valeurs suivantes : k Pr(X= k) 0 (1-)n 1 n ( 1 ) n 1 1 2 n ( 1 ) n 2 2 2 ........ n n
On dit que X est distribue selon une loi binomiale B(n, ). On peut montrer que Distribution binomiale B(n, ) Esprance Variance Ecart-type
2
= n = n ( 1 ) = n ( 1 )
2010 - 2011
65/175
Exemples de distributions
= = = = e ---k!
2
k=0
Si deux variables alatoires indpendantes X 1 et X 2 sont distribues selon des lois de Poisson de paramtres 1 et 2, alors la variable X 1+X 2 est distribue selon une loi de Poisson de paramtre 1+2.
Remarques Si on connat la probabilit de nobserver aucun vnement Pr(X=0) = p : 0 Daprs la formule, p = e ---- = e 0! On en dduit : = ln p Pr ( X = 1 ) = e ---- = p , 1!
1
66/175
2010 - 2011
Exemples de distributions
On peut ainsi calculer facilement de proche en proche les probabilits des diverses valeurs de k. Lien avec la loi binomiale Si une variable alatoire X est distribue selon une loi binomiale B(n, ), on montre que si est petit (en pratique infrieur 0,1) et n assez grand (suprieur 50), la loi binomiale peut tre approxime par une loi de Poisson de paramtre =n. Les calculs sont plus simples avec la loi de Poisson quavec la binomiale. Notons que puisque X est distribue selon une loi binomiale, ses valeurs possibles ne peuvent dpasser n, alors que lapproximation par la loi de Poisson autorise des valeurs suprieures. Cependant le calcul fournit des probabilits trs faibles pour ces valeurs aberrantes.
7.2.1.2 Proprits
Allure de la courbe La loi normale, note N(, 2), est symtrique par rapport la droite dabscisse . Exemples :
2010 - 2011
67/175
Exemples de distributions
La distribution normale centre rduite On dit que la distribution est centre si son esprance est nulle ; elle est dite rduite si sa variance 2(et son cart-type ) est gale 1. La distribution normale centre rduite N(0, 1) est donc dfinie par la formule
68/175
2010 - 2011
Exemples de distributions
1 t ---------- e 2 f ( t ; 0, 1 ) = 2
1 --
Figure 4 : loi normale centre rduite N(0, 1) Les probabilits correspondant aux divers intervalles ont t calcules et regroupes dans une table numrique. Ainsi la table A.1 (en fin de polycopi) permet, partir dune probabilit donne, de trouver les bornes -u , +u dun intervalle symtrique autour de 0, tel que Pr ( t [ z ; +z ] ) = ou encore, partir de u , de trouver . Do par exemple : Pr ( t [ z ; +z ] ) = 1 Pr ( t > z ) = Pr ( t < z ) = 2 On observe ainsi que environ 68 % de la surface est comprise entre (-1 et +1), 95 % entre (-2 et +2) et 99 % entre (-3 et +3) (la table A.1 ne permet pas de trouver des valeurs aussi prcises que celles de la figure 4). Transformation dune loi normale quelconque en loi normale centre rduite Soit une variable X distribue selon une loi normale desprance et dcart-type . X Alors la variable t = ------------ est distribue selon une loi normale centre rduite. Les probabilits obtenues pour la loi centre rduite permettent de calculer les probabilits pour une loi normale quelconque, laide de cette transformation : t = X . ----------- Soit par exemple calculer Pr ( a X b ) . Pr ( a X b ) = Pr ( c t d ) avec c = a et d = b . -------------------- La probabilit cherche, sur la variable X, revient donc lire sur la table de la loi centre Par la transformation, on a
2010 - 2011
69/175
Exemples de distributions
rduite (variable t), la probabilit de se trouver entre c et d. On remarque en particulier que Pr ( 2 t 2 ) = Pr ( 2 X + 2 ) 0 ,95 Approximation de la distribution binomiale par la loi normale Lorsque n est grand, et que et 1 ne sont pas trop proches de 0 (en pratique si n 5 et n ( 1 ) 5 ), alors on constate que la distribution binomiale tend vers la distribution normale de moyenne n et de variance n(1) ; plus prcisment, pour une variable K distribue selon une loi binomiale B(n, ) et une variable X distribue selon une loi normale N( = n, 2 = n(1)), on a : Pr ( K = k ) = Pr ( k ) = Pr ( k 0 ,5 K k + 0 ,5 ) Pr ( k 0 ,5 X k + 0 ,5 ) On choisit lartifice de reprsenter graphiquement Pr(k) par un rectangle dont la base est [k - 0,5, k + 0,5] et la surface est Pr(k) pour comparer la loi discrte Pr(k) et la loi normale continue.
1 2 3 4 5 Approximation de la loi de Poisson par la loi normale Lorsque son paramtre est grand (en pratique suprieur 25), une loi de Poisson peut tre approche par une loi normale desprance et de variance . Le principe est analogue celui utilis pour lapproximation de la loi binomiale par la loi normale.
70/175
2010 - 2011
Exemples de distributions
7.2.2.2 Proprits
a. Allure de la distribution de 2(n) pour diffrentes valeurs de n
b.
Pour n = 1, la courbe dcrot de + vers zro de faon monotone ; pour n = 2, la courbe dcrot de faon monotone de 0,5 zro ; pour n > 2, la courbe part de 0, a son maximum pour x = n - 2, puis redescend vers zro. Proprit asymptotique La loi dune variable X suivant un 2(n) tend vers une loi normale lorsque n + . On a donc, aprs avoir centr et rduit cette variable : Xn ----------- N ( 0, 1 ) 2n NB : Dans la pratique, on utilise plutt la variable Y = 2X 2n 1 dont on montre quelle est peu prs distribue selon une loi normale centre rduite ds que n > 30. Tables De mme que pour la loi normale centre rduite, une table existe pour la loi du 2 (voir en fin de polycopi, table A.4). Cette table indique pour une probabilit donne, et un degr de libert n donn, la valeur Kn, telle que Pr ( X > K n, ) = .
c.
2010 - 2011
71/175
Exemples de distributions
sidre une premire variable alatoire X, distribue selon une loi normale centre rduite, puis une seconde variable Y, indpendante de X, distribue selon un 2 n degrs de libert. Alors la variable alatoire Z = note t(n). Xn ------ est distribue selon une loi de Student n degrs de libert, Y Loi de Student t(n) Esprance Variance Ecart-type 0 n ----------n2 n ----------n2
La courbe correspondante est symtrique autour de 0, et son allure est proche de celle de la loi normale. n Cette loi est centre, mais non rduite : la variance, ----------- , est suprieure 1. n2 Lorsque n crot, en pratique pour n > 30, la variance peut tre prise gale 1, et la distribution assimile celle dune loi normale centre rduite.
72/175
2010 - 2011
Statistiques descriptives
b.
Remarque Lindividu voqu ci-dessus, sur lequel on observe les caractristiques dintrt, la variable, nest pas ncessairement un individu physique. Cest lentit sur laquelle sopre lobservation de la variable dintrt. Exemples : famille, colonies bactriennes. Dfinition Lentit sur laquelle peut sobserver la variable alatoire sappelle lunit statistique.
2010 - 2011
73/175
Statistiques descriptives
Connatre le phnomne mettant en jeu cette variable, ou connatre cette variable, cest connatre la probabilit pour quun individu tir au hasard dans la population prsente telle valeur de la variable. On peut apprcier la probabilit dun vnement alatoire grce linterprtation suivante de la notion de probabilit. Cette interprtation est cohrente avec les cours prcdents. On interprtera la probabilit dun vnement alatoire comme la valeur limite de la frquence avec laquelle lvnement se ralise au cours dun nombre croissant de rptitions de lexprience. Autrement dit comme la valeur limite du rapport du nombre de fois o lvnement sest ralis et du nombre de rptitions de lexprience. Remarques Ce qui prcde peut tre vu comme une interprtation de la notion de probabilit (voire comme une dfinition). En dpit de cette interprtation, la probabilit dun vnement alatoire reste une fiction du domaine thorique. pour approcher une probabilit on est amen rpter une exprience, les frquences se substituent aux probabilits ; elles seront les contreparties des probabilits.
On va donc rpter une exprience un nombre fini de fois, not n ; on aura donc observ une sous-population appele chantillon. Chaque exprience alatoire produit un rsultat xi ; on disposera donc de x 1, ..., xn , ensemble appel chantillon de valeurs de la variable tudie X. De faon plus formelle, on dfinit un chantillon dune variable alatoire de la manire suivante : Un chantillon de taille n dune variable alatoire X est un ensemble X 1, X 2, ..., Xn de n variables alatoires, indpendantes entre elles, et ayant chacune la mme distribution que X. On peut donc dire quun chantillon de valeurs de X est une ralisation de lchantillon de la variable X tel quil vient dtre dfini.
2010 - 2011
Statistiques descriptives
serves. Si la variable est ordinale, on respectera cet ordre dans lnumration des modalits portes en abscisses.
Frquences
modalit 1 modalit 2
.......
Dautres types de reprsentation sont utiliss : par exemple la reprsentation en camembert o les diffrentes modalits sont reprsentes par secteurs angulaires dangles au centre proportionnels aux frquences observes. D
A C
2010 - 2011
75/175
Statistiques descriptives
valeur 1
valeur 2
.......
Les bornes sont choisies arbitrairement ; nanmoins, pour que lhistogramme ait un sens il est ncessaire que la taille de chaque classe constituant un intervalle comprenne un nombre suffisamment grand de valeurs observes, de telle faon que la surface dun rectangle lmentaire puisse tre interprte comme approchant la probabilit pour que la variable prenne une valeur comprise dans lintervalle du rectangle. Si la taille de lchantillon crot, la surface de chaque rectangle tend
76/175
2010 - 2011
Statistiques descriptives
vers la probabilit que la variable ait une valeur incluse dans lintervalle correspondant. De plus, si la taille n de lchantillon est grande, on peut alors sans inconvnient construire un plus grand nombre de classes, cest--dire construire par exemple deux fois plus de rectangles, chacun ayant un support deux fois plus petit. En rptant cette opration, n croissant, on peut comprendre que lhistogramme tend (dune faon que nous ne prciserons pas ici) vers la densit de probabilit de la loi qui a gnr lchantillon.
77/175
Statistiques descriptives
Attention : on divise par n -1 et non par n pour que la variance observe soit un bon estimateur de la variance thorique de la loi (nous reverrons ce point dans la suite). Une autre expression de s 2, quivalente, est indique dans le rsum de ce chapitre. Ecart-type observ 2 Lcart-type observ, not s, est dfini par s = s .
Alors :
xi
i=1
nj valj
j=1
o nj est le nombre de fois o une observation concide avec valj Dans notre exemple du jet de d, on a : n 1 = 3, n 2 = 1, n 3 = 1, n 4 = 1, n 5 = 1, n 6 = 2 1 Finalement m = -- x i = n
i=1 n k
j=1
nj --- val j n
78/175
2010 - 2011
Statistiques descriptives
nj Mais --- est une approximation de Pr(face marque = valj ) n Ainsi m est une estimation - une apprciation - de :
cest--dire une apprciation de lesprance mathmatique de la variable. On raccorde ainsi une moyenne observe une grandeur descriptive du phnomne tudi, une grandeur dite thorique ou vraie . On peut dire ceci : la rptition des expriences vise estimer Pr(valeur de la variable = certain niveau). La moyenne observe permet destimer quelque chose de plus grossier, une combinaison de toutes ces probabilits, prcisment lesprance mathmatique = val j Pr ( valeur de la variable = val j )
j
Cest la raison pour laquelle dans la suite on utilisera galement la terminologie MOYENNE VRAIE ou MOYENNE THEORIQUE de la variable pour parler de lesprance mathmatique. Retenons : ESPERANCE MATHEMATIQUE, MOYENNE VRAIE , MOYENNE THEORIQUE sont SYNONYMES. Ce sont des grandeurs thoriques. Remarque La mme analyse peut tre faite - mais lexpression est un peu plus dlicate - dans le cas dune variable quantitative continue. La moyenne observe approxime l encore lesprance mathmatique.
Cette expression, introduite dans le chapitre 6 sous le nom de variance sera souvent dnomme dans la suite VARIANCE VRAIE ou VARIANCE THEORIQUE de la variable. Dans le cas dune variable continue, la variance observe s2 approxime : 2 2 = ( x ) f ( x ) dx
LES DIFFERENCES ENTRE CES NOTIONS DE MOYENNE ET VARIANCE VRAIES , ET DE MOYENNE ET VARIANCE OBSERVEES SONT ESSENTIELLES ; NOUS ENGAGEONS LE LECTEUR A BIEN LES COMPRENDRE AVANT DE POURSUIVRE. 79/175
2010 - 2011
Statistiques descriptives
Or on peut transformer une telle variable en variable quantitative, sans restriction de gnralit, par un artifice de codage : une des modalits est code avec la valeur numrique 0 ; lautre modalit est code avec la valeur numrique 1.
Une telle variable sappelle variable de Bernoulli. Notons X cette variable. Elle est compltement dcrite par la donne de Pr(valeur de la variable = 1) car Pr(valeur de la variable = 1) + Pr(valeur de la variable = 0) = 1. On utilise la notation conventionnelle suivante : Pr(valeur de la variable = 1) SE NOTE .
( valj )
j
80/175
2010 - 2011
Statistiques descriptives
Ainsi, m concide avec la frquence observe de la modalit code 1. Cette frquence sera note p et sappelle de faon naturelle PROPORTION OBSERVEE dindividus prsentant la modalit 1. Exemple Dans le cas de ltude dun signe clinique, en codant 1 la prsence du signe clinique, m (donc p) sera la frquence observe de la prsence du signe ou encore le pourcentage des individus prsentant le signe ( un facteur 100 prs). En rsum si X est une variable de Bernoulli, sa moyenne vraie = sa variance vraie = (1 - )
2010 - 2011
81/175
Statistiques descriptives
dune variable alatoire proportion dont on connat dj pratiquement la distribution puisque nP n ~ B(n, ) (voir section 7.1.2 page 63).
82/175
2010 - 2011
Statistiques descriptives
Rsum du chapitre
1. 2. Une variable alatoire est une variable observable au cours dune exprience et dont la valeur peut varier dune exprience lautre de faon non prvisible. Reprsentation dune variable rpartition dun chantillon variable qualitative variable quantitative discrte variable quantitative continue 3. rpartition observe histogramme en btons histogramme reprsentation de la population rpartition vraie rpartition vraie densit de probabilit
1 m = -- x i n
i=1
xf ( x ) dx
m est note p
variances vraies =
2
( valj )
j=1
Pr ( variable = valj )
variable continue
n - 1 2 2 s = ----------- -- x i m n1 n
2 i=1
(x )
f ( x ) dx
2010 - 2011
83/175
Statistiques descriptives
5.
Variables centre et centre rduite associes une variable X Si X est une variable alatoire de moyenne et de variance 2, la variable (X - ) est dite variable centre associe X, X la variable ------------ est dite variable centre rduite associe X.
84/175
2010 - 2011
jet 1 : rsultats 0 0
jet 2 : rsultats 0 1
2010 - 2011
85/175
jet 1 : rsultats 1 1
jet 2 : rsultats 0 1
2 1 1 1 1 1 2 1 1 2 1 1 - - - - variance vraie de M 2 = 0 1 -- + -- -- -- + 1 -- -- = -- = -- --- 4 2 2 2 4 2 4 2 8 2 Ainsi la variance vraie de la moyenne arithmtique est plus faible que la variance vraie de la variable dorigine (la moiti ici). Lesprance reste inchange. Et ainsi vont les choses si la taille des chantillons (ici 2) qui constituent les units statistiques augmente. La dispersion de M diminue au fur et mesure que M se trouve calcule sur la base dun chantillon de taille croissante. Le comment de cette situation peut tre rsum ainsi : les valeurs de la moyenne arithmtique deviennent de plus en plus probables dans un voisinage de lesprance car le nombre de situations pouvant donner une valeur observe proche de lesprance augmente dans ce voisinage. Cela est d au fait que lesprance mathmatique est au milieu des valeurs possibles. On le voit sur lexemple ci-dessus o lesprance est obtenue dans les deux cas (0, 1) et (1, 0). Cest encore plus perceptible sur lexemple dun d. Pour que la moyenne observe calcule sur deux jets de d soit 6, il faut obtenir le rsultat (6, 6) ; pour quelle soit 3, il faut un total de 6, cest--dire (5, 1), (4, 2), (3, 3), (2, 4), (1, 5), soit un vnement 5 fois plus probable. Il est possible de quantifier tout cela. On peut gnraliser ce qui a t obtenu avec deux jets de pices et on obtient, quelle que soit la distribution de la variable tudie - quelle soit continue ou discrte - les rsultats fondamentaux suivants.
9.1.2 Gnralisation
i. Lesprance mathmatique, ou moyenne vraie , de la variable alatoire moyenne arithmtique calcule sur un chantillon de taille n concide avec la moyenne vraie de la variable tudie, ce que lon peut rsumer par : E ( Mn ) = E ( X ) ii. La variance vraie de la variable alatoire moyenne arithmtique calcule sur un chantillon de taille n est gale la variance vraie de la variable DIVISEE PAR n, ce que lon peut rsumer par :
86/175
2010 - 2011
1 2 2 ( M n ) = -- ( X ) n do la relation entre carts-types : 1 ( M n ) = ------ ( X ) n iii. Dans le cas o X est une variable de Bernoulli de paramtre (Pr(X = 1) = ), les relations prcdentes deviennent : (Pn ) =
2 (P n) = ( 1 ) ---------------------n
9.2 Seconde proprit de la variable alatoire moyenne arithmtique : le thorme central limite
On souhaiterait comparer, par curiosit, les distributions de plusieurs moyennes arithmtiques, correspondant diverses variables alatoires. Par exemple la taille, la glycmie. Ces distributions sont diffrentes, ne serait-ce qu cause des diffrences entre moyennes et variances vraies . Pour sabstraire de ces premires diffrences, considrons la variable centre rduite associe, soit pour chaque variable considre : Mn ( X ) Mn ( Mn ) ---------------------------- soit ------------------------ ( Mn ) (X) ----------n Maintenant toutes ces variables ont en commun leur esprance (0) et leur variance (1). Il se passe quelque chose dextraordinaire : lorsque n est suffisamment grand, elles finissent par avoir en commun leur distribution, leur densit de probabilit. Cela signifie que les distributions de toutes ces variables (moyennes arithmtiques centres rduites issues de variables alatoires diffrentes) finissent par concider, lorsque n est suffisamment grand, avec une distribution particulire unique. Cette distribution sappelle LOI NORMALE, et puisque sa moyenne vraie est nulle et sa variance vraie est 1, on lappelle LOI NORMALE CENTREE REDUITE ou encore distribution de Gauss ou de Laplace-Gauss (1800). On la notera schmatiquement N(0, 1) o 0 rappelle la valeur de la moyenne vraie , 1 la valeur de la variance vraie .
2010 - 2011
87/175
Donc la proprit ci-dessus - connue sous le nom de thorme central limite - snonce : THEOREME CENTRAL LIMITE Soit X une variable alatoire quantitative desprance mathmatique , de variance vraie 2. Soit Mn la variable alatoire moyenne arithmtique associe X construite sur n rptitions. Mn La distribution limite de la variable alatoire ---------------- est la distribution -----n normale centre rduite note N(0,1). Il faut bien mesurer la porte de cette proprit. Quel que soit le phnomne tudi - apprci par la variable alatoire que lon tudie - il suffit de connatre la moyenne et la variance de la variable pour dduire la distribution (la densit de probabilit) - cest--dire lexpression la plus acheve des proprits de variabilit - de la variable alatoire moyenne arithmtique calcule sur un chantillon de taille suffisante. Nous reviendrons plus loin, au paragraphe rsum et prcisions (voir page 89), sur cette notion vague taille suffisante . Or cest peu de connatre moyenne, variance (ou cart-type) seulement - ex. : pour le poids la naissance = 3 kg, = 1,2 kg.
et dont lallure
Par ailleurs, pour faciliter les calculs de probabilit relatifs cette variable, des tables ont t construites qui donnent le lien entre et u , o ces valeurs ont le sens suivant (voir figure 5) : Pr ( X [ u ; +u ] ) = En particulier, pour = 0,05, la valeur u lue dans la table est 1,96, do u 0,05 = 1,96 On peut voir facilement que toute probabilit Pr ( X [a,b] ) sobtient partir dune telle table, quelles que soient les valeurs de a et b.
88/175
2010 - 2011
Figure 5 : loi normale centre rduite Remarque Sur la base de cette loi centre rduite, on dfinit toute une famille de lois de la faon suivante : Si X est distribue selon une loi normale centre rduite (notation X ~ N (0, 1)), alors la variable Y = X + , dont lesprance est et la variance 2, est distribue selon une loi normale desprance et de variance 2. On crit Y ~ N (, 2) A linverse, si on dit que X ~ N (, 2) X cela veut dire que ------------ N ( 0, 1 ) (variable centre rduite associe). Exemple La figure 6. prsente laspect de deux distributions normales lune N(0, 1), lautre N(2,9 , 4).
Figure 6 : exemple de lois normales Rsum et prcisions (thorme central limite) Si n est suffisamment grand, X ayant pour moyenne vraie , pour variance vraie 2, alors : Mn ---------------- N ( 0, 1 ) ( peu prs) -----n
2010 - 2011 Biostatistique - Carrat, Mallet, Morice
89/175
ou, de faon quivalente, M n N , ----- ( peu prs) n o la notation ~ se lit : est distribu comme ou suit une distribution . a. b. La distribution de Mn est exactement une loi normale (la mention peu prs est inutile), quel que soit n, si X elle-mme est gaussienne (i.e. est distribue normalement). si X nest pas gaussienne : si X est une variable quantitative autre que Bernoulli, la condition de validit usuelle est n 30 si X est une variable de Bernoulli (valeurs 0 et 1), la condition usuelle de validit est n 5 et n(1 ) 5 En outre dans ce cas, = , 2= (1 - ) si bien que lon aura : Pn --------------------------- N ( 0, 1 ) ( peu prs) (1 ) ---------------------n (1 ) ou, de faon quivalente, P n N , ---------------------- ( peu prs) n
90/175
2010 - 2011
valle ait une valeur donne ? Il sagit donc de construire un intervalle qui contienne avec une probabilit fixe la valeur observe que lon va obtenir. Il sagit donc de trouver deux valeurs a et b telles que Pr ( a M n b ) = valeur donne = 1 . Exemple : Pr ( a M n b ) = 0, 95 Un tel intervalle [a, b] sappelle INTERVALLE DE PARI (I. P.) de niveau 1 - , ou encore intervalle de pari au risque , ou encore INTERVALLE DE FLUCTUATION La figure 7 illustre le problme pos.
Figure 7 : le problme de lintervalle de pari Ce problme admet plusieurs solutions : sauf besoin spcifique on choisit un intervalle symtrique autour de (ce qui est naturel compte tenu de la distribution de Mn ). Rsolution : a = ------ et b = + -----n n La valeur inconnue doit vrifier : Pr ------ M n + ------ = 1 n n Pr ------ M n ------ = 1 n n Mn Pr ---------------- = 1 ----- n Si le thorme central limite sapplique, lexpression ci-dessus suit une loi N(0, 1) ; notons-la Z. Alors doit vrifier Pr ( Z ) = 1 . Cest le u de la table. Finalement : = u Pr u ------ M n + u ------ = 1 et n n
2010 - 2011
91/175
IP 1 = u ------ ; + u -----n n Intervalle de Pari (I. P.) de la moyenne observe dune variable de moyenne vraie , de variance vraie 2 construite sur un chantillon de taille n Exemple : = 0,05 u = 1,96 IP 0 ,95 = 1 ,96 ------ ; + 1 ,96 -----n n Les conditions de validit de cette construction sont celles du thorme central limite, cest--dire n 30 pour les variables continues non normales et n, n(1 - ) 5 pour les variables de Bernoulli. Cas dune variable de Bernoulli : est note , 2 = (1 - ). Donc IP 0 ,95 = 1 ,96 ( 1 ) ; + 1 ,96 ( 1 ) ------------------------------------------n n Linterprtation de lintervalle de pari est fondamentale. Si cet intervalle est bien calcul, on est quasi sr, avec une probabilit 1 - (ici 0,95), dobtenir une valeur de la moyenne observe comprise dans cet intervalle. En pariant que la valeur va tomber dans cet intervalle, on se trompera (en moyenne) dans cinq pour cent des expriences. Exemple : On a des raisons de penser que la frquence dune maladie dans la population est = 0,2. Lintervalle de pari de la moyenne observe (proportion observe) calcule sur 64 individus au niveau 0,95 est : 1 ,96 0 ,2 ( 1 0 ,2 ) IP 0 ,95 = 0 ,2 -------------------------------------------- ; 0 ,2 + 1 ,96 0 ,2 ( 1 0 ,2 ) = [ 0 ,10 ; 0 ,30 ] -------------------------------------------64 64 Il y a 95 chances sur 100 pour que la proportion observe tombe dans cet intervalle.
92/175
2010 - 2011
la longueur dpend de n La longueur de IP 1 dcrot avec n. Cest le reflet du fait connu selon lequel les fluctuations dchantillonnage sestompent avec n Exemple Dans le cas ci-dessus, si on remplace n = 64 par n = 6400, on obtient IP 0 ,95 = [ 0 ,19 ; 0 ,21 ] Remarque Pour rduire dans un rapport 2 la longueur de lIP, il faut un chantillon 4 fois plus grand (22).
2010 - 2011
93/175
Rsum du chapitre
1. Proprits de la moyenne arithmtique Mn dune variable alatoire X, moyenne calcule sur n units statistiques : moyenne vraie de Mn = moyenne vraie de X variance vraie de X variance vraie de Mn = -----------------------------------------------------n 2. Thorme central limite Si X a pour moyenne vraie , pour variance vraie 2, Mn est, lorsque n est suffisamment grand (n 30, ou n et n(1 - ) 5), peu prs distribue comme une variable normale 2 de moyenne vraie et de variance vraie n , ce que lon crit :
2 , ----- ou M n N ( 0, 1 ) ---------------Mn N n -----n
3.
Intervalle de pari (I. P.) Lorsque les conditions ci-dessus sont satisfaites, lintervalle IP 1 = u ------ ; + u -----n n a la proprit suivante : Pr ( M n IP 1 ) = 1 Cet intervalle sappelle intervalle de pari (I. P.) de niveau 1-, ou intervalle de pari au risque .
94/175
2010 - 2011
Il est bien sr impossible de rpondre ces questions au sens strict. On y apporte gnralement deux types de rponses : 1. 2. On produit une valeur qui nous semble tre la meilleure possible : on parle alors destimation ponctuelle. On produit un intervalle de valeurs possibles, compatibles avec les observations. Cest la notion dintervalle de confiance ou destimation par intervalle.
Dans la suite on note X la variable alatoire dont on cherche estimer une caractristique, aussi appele paramtre, dont la valeur est note . Par exemple le paramtre peut tre la glycmie, et sa valeur celle du patient considr.
2010 - 2011
95/175
10.2.2 Proprits
Les estimateurs sont des fonctions des chantillons : ce sont donc des variables alatoires qui possdent une densit de probabilit, et le plus souvent, une moyenne (esprance mathmatique) et une variance. Ces deux grandeurs permettent de comparer, dans une certaine mesure, les estimateurs entre eux.
Figure 8 : densit de probabilit de 3 estimateurs T1, T2 et T3 La figure 8 reprsente les densits de probabilit de 3 estimateurs T1, T2 et T3 dune moyenne .
10.2.2.1 Biais
On voit sur la figure 8 que T1 et T2 sont centrs autour de , tandis que T3 a pour moyenne ' infrieure . Cette notion est dfinie plus prcisment de la manire suivante : Le biais dun estimateur, not B(T), est la diffrence moyenne entre sa valeur et celle de la quantit quil estime. On a :
96/175
2010 - 2011
B(T) = E(T - ) = E(T) - Ici, on a : B(T1) = E(T1 - ) = E(T1) - = 0 de mme : B(T2) = 0 mais : B ( T3 ) = E ( T3 ) = E ( T3 ) = ' < 0 On dit que T1 et T2 sont des estimateurs sans biais de , et que T3 est un estimateur biais de .
10.2.2.2 Variance
La variance dun estimateur est dfinie de la manire usuelle : var(T) = E[T - E(T)]2 Si deux estimateurs sont sans biais, le meilleur est celui qui a la variance la plus petite : en effet, ses valeurs sont en moyenne plus proches de la quantit estime. Par exemple, sur la figure ci-dessus, on voit que var(T1) < var(T2). On peut donc conclure que T1 est un meilleur estimateur de que T2. Quand des estimateurs sont biaiss, en revanche, leur comparaison nest pas aussi simple : un estimateur peu biais, mais de variance trs faible, pourrait mme, en pratique, tre prfr un estimateur sans biais, mais de variance grande.
10.2.3 Exemple
On a souvent utilis, dans ce cours, les quantits m, moyenne observe, et s 2, variance observe. La variable alatoire moyenne arithmtique, note Mn , a t tudie au chapitre 8. De la mme manire, tudions la variable alatoire variance Sn 2, dfinie par : n 2 2 S n = ----------- [ M 2, n M n ] n1 o M 2, n est la variable alatoire moyenne arithmtique de X 2 .
2010 - 2011
97/175
On va calculer E(Sn 2). On rappelle que si U est une variable alatoire, la variable moyenne arithmtique dfinie sur U a les proprits suivantes : E ( M U, n ) = E ( U ) 1 (1) et var ( M U, n ) = -- var ( U ) n (2)
(3).
On peut maintenant calculer E(Sn 2). Soit X une variable alatoire desprance E(X) = et de variance var(X) = 2. On a : n 2 2 E ( S n ) = ----------- [ E ( M 2, n ) E ( M n ) ] n1 Mais E ( M 2, n ) = E ( X ) = + daprs (1) et (3),
2 ----= var ( M n ) + [ E ( M n ) ] = - + daprs (3), (2) et (1), n 2 n - 2 2 2 ----------- + ----- 2 = 2 . et finalement : E ( S n ) = n1 n 2 et E ( M n ) 2 2 2 2 2
98/175
2010 - 2011
DE FACON GENERALE, LINTERVALLE DE CONFIANCE AU RISQUE DUNE VALEUR QUE LON CHERCHE A ESTIMER EST UN INTERVALLE QUI CONTIENT AVEC UNE PROBABILITE 1 - LA VALEUR CHERCHEE ; IL SAGIT DUN INTERVALLE QUE LON DEVRA ETRE EN MESURE DE CONSTRUIRE A LISSUE DUNE EXPERIENCE PORTANT SUR UN ECHANTILLON. Comment construire de tels intervalles ? Cest facile graphiquement.
Figure 9
2010 - 2011
99/175
Figure 10 Considrons la figure 9. On a port en abscisses une chelle 0-1 de mesure de proportions vraies , en ordonnes une chelle de mesure de proportions observes. Donnons nous une valeur de proportion vraie ; on sait associer cette valeur un intervalle de pari de niveau 0,95 de la proportion observe que lon est susceptible dobtenir au cours dune exprimentation conduite sur n individus. Cet intervalle de pari peut tre reprsent sur lchelle verticale. Si lon opre cette reprsentation pour toutes les valeurs possibles dune proportion vraie , on obtient un domaine limit par les deux courbes reprsentes sur la figure. Considrons alors un problme mettant en jeu une proportion vraie , . Supposons que nous fassions un ensemble dexpriences, chaque exprience portant sur n individus tant productive dune valeur de proportion observe p. On peut associer chacune de ces expriences un point de coordonnes (, p) sur la figure 9. Compte tenu de la construction prcdente, on peut affirmer que ces points appartiendront 95 fois sur cent (cest--dire dans 95 % des expriences) au domaine limit par les deux courbes, et ceci quelle que soit la valeur de . Maintenant supposons quune exprience unique ait t ralise, produisant une valeur de proportion, p. Le problme est, sur la base de cette valeur, de dfinir un intervalle ayant de bonnes chances de contenir la valeur inconnue de la proportion vraie . La solution, immdiate, est fournie par la figure 10. Il suffit de trancher le domaine limit par les deux courbes DANS LAUTRE SENS. Cet intervalle contiendra 95 fois sur cent la vritable valeur de la proportion. Ainsi, si on adopte cette stratgie de construction, on aura pour chaque valeur observe p un intervalle qui contiendra avec la probabilit 0,95. Le problme est rsolu. Maintenant, ce qui est simple sur un dessin est compliqu en termes de calcul et il existe des tables dintervalles de confiance et des formules toutes faites permettant de former des intervalles de confiance approchs.
100/175
2010 - 2011
2010 - 2011
101/175
o t est associ une nouvelle distribution, dite de Student, (n-1) degrs de libert (voir section 7.2.3 page 71). La notation t sapparente la notation u et est explicite table A.6 page 175. Remarque (pour une variable normale encore) Si la variance vraie de la variable tudie, 2, est connue, lintervalle de confiance a la forme suivante : IC 1 = m u ------ ; m + u -----n n
10.3.4 Applications
Lintervalle de confiance exprime fondamentalement, comme son nom lindique, la confiance que lon peut attribuer un rsultat exprimental. IDEALEMENT TOUT PROBLEME DESTIMATION DEVRAIT ETRE PRODUCTIF DUN INTERVALLE DE CONFIANCE. Ne donner quune estimation ponctuelle masque lincertitude qui accompagne tout rsultat. Exemple : supposons qutudiant la frquence dun vnement, on ait obtenu une frquence observe p gale 0,12. Supposons que cette valeur ait t obtenue sur la base de 8 individus (lvnement tudi sest donc ralis une fois). On peut lire dans une table spcialise que lintervalle de confiance de la frquence vraie est, au risque 0,05 [0,003 ; 0,527]. Cela signifie que cette valeur observe de 12 % sur si peu dindividus ne fait quindiquer ceci : la frquence vraie se situe dans le domaine 3 , 52,7 %. Supposons que cette mme valeur 12 % ait t obtenue sur la base de 100 individus (lvnement tudi sest ralis 12 fois au cours des 100 essais). Lintervalle de confiance associ est alors proche de [0,06 ; 0,18]. Sur la base de cette valeur 12 %, on est maintenant en mesure daffirmer, acceptant toujours un risque derreur de 5 pour cent, que la frquence vraie se situe dans le domaine 6 %, 18 %, domaine beaucoup plus troit que le prcdent. De faon gnrale, la longueur de lintervalle de confiance indique la prcision obtenue. Les deux exemples qui suivent montrent lusage que lon peut en faire.
2010 - 2011
2 1 ,96 p ( 1 p ) quon arrondit ici 4 p ( 1 p ) ------------------------------------n n Leffectif de lchantillon devra donc tre au moins 10000 p(1 - p). Toutefois, cet effectif dpend de p, inconnu avant lexprience. Lusage de ces calculs supposera donc que lon ait une ide du rsultat attendu, grce un sondage exploratoire par exemple ou grce une connaissance pralable du phnomne tudi. De faon gnrale, si lon souhaite obtenir un intervalle de confiance dune proportion de longueur 2i, il est ncessaire dinclure un nombre dindividus au moins gal : p( 1 p) 2 p(1 p) 4 ------------------- au risque 0,05 (ou u ------------------- au risque ) 2 2 i i REMARQUE Lorsque le sondage est ralis, un intervalle de confiance lui est associ. Dans le langage courant, les instituts de sondage nomment ces intervalles de confiance des FOURCHETTES.
2010 - 2011
103/175
Si lon effectue trois dosages donnant 90, 96 et 93 mg.l-1 on a IC 0 ,95 = 93 2 ------ ; 93 + 2 ------ = [ 81 ,5 ; 104 ,5 ] 3 3 soit un intervalle damplitude 23,0. Ces calculs objectivent le fait bien connu selon lequel la rptition des dosages permet dattnuer les consquences des erreurs exprimentales. Certains dosages - certaines mesures (tension artrielle) - sont rpts avant quune valeur soit indique.
104/175
2010 - 2011
2010 - 2011
105/175
ment actif si le taux observ de cancers aprs traitement scarte nettement de 20 %. Cest le sens que lon peut donner ce nettement qui est le fondement du principe des tests. Dans le cas tudi, on aurait tendance sy prendre de la faon suivante. Deux hypothses sont en prsence : le traitement est inactif, le traitement est actif.
La premire hypothse est plus fine que la seconde car elle porte en elle une interprtation numrique : le pourcentage vrai de souris cancreuses parmi les souris traites est 0,2 - lautre hypothse indiquant seulement que ce pourcentage est diffrent de 0,2 ; ce qui est plus vague. Supposons alors vraie lhypothse la plus fine. Il devient possible de faire des dductions : sachant ce qui se passe au niveau de la population des souris traites on peut en dduire ce qui se passera au niveau dun chantillon. En particulier, on sait construire les intervalles de pari centrs de niveau 1 - pour la frquence observe. Par exemple, prenant = 0,05 et n = 100 souris, on obtient IP0,95 = [0,12 ; 0,28] Cela signifie, rappelons-le, que si = 0,2 (frquence suppos vraie ), 95 % des valeurs des moyennes observes calcules sur 100 individus appartiendront lintervalle [0,12 ; 0,28]. On adopte alors la stratgie suivante : si la valeur observe de la frquence de souris cancreuses parmi les 100 traites appartient cet intervalle, on considre que cette valeur est compatible avec les fluctuations dchantillonnage et lactivit du traitement nest pas prouve. Si la valeur observe nappartient pas cet intervalle, le traitement sera considr comme actif. Dans ce dernier cas le raisonnement est le suivant. Cet vnement (la frquence observe est lextrieur de lintervalle de pari) avait moins de 5 chances sur 100 de se produire et pourtant il sest produit ; donc je ne crois plus lhypothse qui ma permis de dduire ces 5 % de chances. Remarque : reformulation des calculs Notons p la proportion observe de souris traites dveloppant un cancer, sur les n souris traites. Le rsultat du test sera de conclure ou non lactivit du traitement selon que p ou IP 1 cest--dire : 0 ( 1 0 ) 0 ( 1 0 ) p ou 0 u ------------------------- ; 0 + u ------------------------n n o 0 est la proportion hypothtique (0,2 dans lexemple) et u la borne de lintervalle de pari au risque de p. On suppose ici que les conditions du thorme central limite sont satisfaites. On conclut donc selon
106/175
2010 - 2011
que 0 ( 1 0 ) 0 ( 1 0 ) p 0 ou u ------------------------- ; u ------------------------n n ou encore selon que p 0 ------------------------------ ou [ u ; u ] 0 ( 1 0 ) ------------------------n On reconnat dans la dernire expression lintervalle de pari IP 1 dune variable alatoire N(0, 1), intervalle indpendant de lexprience projete. Cest comme cela que lon abordera gnralement les tests ; on cherchera construire une variable alatoire dont on connaisse, si lhypothse fine est vraie, la distribution, pour pouvoir construire un intervalle de pari ; ici il sagirait de la variable alatoire Z dduite de la variable alatoire moyenne arithmtique selon : Pn 0 Z = -----------------------------0 ( 1 0 ) ------------------------n avec 0 = 0,2 (transcription de lhypothse). Une telle variable alatoire sappelle usuellement paramtre du test et est note conventionnellement Z. Ici on sait que Z ~ N(0, 1) et lon construit lintervalle de pari de niveau 1 - pour Z. Par exemple avec = 0,05 , IP0,95= [-1,96 ; 1,96]. Puis on ralise lexprience ce qui permet dobtenir p, valeur observe de Pn , donc une valeur observe de Z, note u : p 0 z = -----------------------------0 ( 1 0 ) ------------------------n On pourrait alors sexprimer comme ceci (une terminologie plus prcise sera indique plus loin) : si z IP 0, 95 on ne peut pas dire que le traitement est actif si z IP 0, 95 le traitement est actif.
Nous allons, la lumire de cet exemple, numrer les tapes de mise en uvre dun test et revenir sur diffrents aspects (sens de par exemple) avant de donner dautres exemples de tests usuels
2010 - 2011
107/175
108/175
2010 - 2011
Si possible, vrifier les conditions de validit. Etape 3 Avant le recueil des donnes. Choisir un seuil. Typiquement = 0,05 (une quasi obligation en pratique) Construire un intervalle de pari (pour le paramtre Z) de niveau 1 - , not IP 1 . Rappelons quil sagit dun intervalle tel que si H0 est vraie, alors P ( Z IP 1 ) = 1 Exemple : IP 1 pour Z ci-dessus = [-1,96 ; 1,96] Dfinition : lextrieur de lintervalle de pari IP 1 sappelle rgion critique du test au seuil . Etape 4 Avant le recueil des donnes. Dfinir la rgle de dcision. Les donnes vont permettre de calculer une valeur de Z, que lon note z. p rellement observ 0 Exemple : z = -----------------------------------------------0 ( 1 0 ) ------------------------n Alors dcider que : si z appartient la rgion critique, remettre en cause H0, la rejeter, et conclure H1 est vraie, ou dire : au risque , H0 est rejete . si z nappartient pas la rgion critique, mais lintervalle de pari IP 1 , dire que lon ne conclut pas, ou dire que lon ne rejette pas lhypothse nulle H0.
Etape 5 Recueil des donnes Raliser lexprience. On recueille les donnes x 1, ..., xn ; calculer z et conclure. Si non fait ltape 2, vrifier les conditions de validit. Etape 6 Interprtation des rsultats Cette tape concerne linterprtation des rsultats en des termes compatibles avec le problme mdical initialement soulev, et concerne en particulier le problme de la causalit. Ce point sera dtaill au chapitre 15. Exemple : dans le cas des souris, et en cas de conclusion au rejet de lhypothse nulle, la question serait de savoir si ce rejet exprime vritablement une activit du traitement.
2010 - 2011
109/175
Donc, toutes choses gales par ailleurs, la rgion critique diminue lorsque dcrot. Donc on rejette moins frquemment H0. A vouloir commettre moins derreurs, on conclut plus rarement. On sexpose donc un autre risque : celui de ne pas conclure alors quil le faudrait car H0 est fausse. A la limite, si on se fixe = 0, on ne conclut jamais, H0 nest jamais rejete. Prendre une dcision, cest accepter un risque. Pour finir avec ce problme de il faut retenir :
110/175
2010 - 2011
La valeur de doit tre fixe a priori : jamais en fonction des donnes Pire que cela, on choisit la valeur = 0,05 qui est un compromis entre le risque de conclure tort et la facult de conclure, compromis adopt par lensemble de la communaut scientifique.
Second lment Supposons que lon mette en parallle les deux tests suivants : H0 : = 0,2 H1 : 0,2 Les paramtres calculs, soit 0,2 0,200001 H0 : = 0,200001 H1 : 0,200001
p observe 0 z = ------------------------------0 ( 1 0 ) ------------------------n seront extrmement voisins, donc les conclusions pratiquement toujours les mmes.
2010 - 2011
111/175
Considrons alors une exprience au cours de laquelle z IP 0, 95 pour les deux valeurs calcules. Peut-on conclure la fois = 0,2 et = 0,200001 ? Pourtant on peut remarquer quil ny a pas de vice de fond au niveau de la formulation des hypothses car il existe bien une valeur vraie , cest--dire quil y a vraiment une hypothse vraie du type = quelque chose. On retient : les tests ne sont pas faits pour dmontrer H0, mais pour la rejeter. Cela ne veut pas dire que lon est toujours content de rejeter H0. Exemples cas des souris traites. L on aimerait probablement rejeter H0, cest--dire conclure lactivit du traitement. cas dun test dhomognit. On vous livre un nouveau lot de souris ou des souris dun autre levage. Vous voulez continuer vos recherches. La premire chose faire est de tester lhypothse selon laquelle ces nouvelles souris sont similaires aux prcdentes vis--vis du taux de cancer, H0 : = 0,2. Mais l vous esprez bien ne pas rejeter H0. Cest cette condition que vous pouvez continuer.
PUISSANCE DUN TEST Revenons la conclusion lactivit du traitement nest pas dmontre . Sous entendu compte tenu de lexprience effectue. Cela na de sens de sexprimer comme cela que sil est pensable quune autre exprience, plus complte par exemple, puisse montrer cette efficacit si elle existe. Cest le cas, en effet. Laptitude dun test rejeter lhypothse nulle alors quelle est fausse est limite. Prcisment : On appelle PUISSANCE DUN TEST P la probabilit de rejeter lhypothse nulle, face une hypothse alternative, alors quelle est fausse. La valeur complmentaire 1 de cette puissance, cest--dire la probabilit de ne pas rejeter lhypothse nulle alors que lhypothse alternative est vraie, sappelle le RISQUE DE DEUXIEME ESPECE et se note conventionnellement : = 1 - P. Le calcul de la puissance dun test est une opration complexe. La difficult tient essentiellement au fait que lhypothse alternative est vague. Pour contourner cette difficult et apprcier plus troitement cette notion de puissance, considrons le cas dune hypothse alternative fine. Par exemple, reprenant lexemple des souris, supposons que lhypothse H1 soit = 0,3, lhypothse H0 restant inchange, cest--dire = 0,2. Dans ces conditions, il est possible de calculer la distribution de la proportion observe, non plus seulement sous lhypothse nulle, mais galement sous lhypothse alternative. On obtient : 0 ,2 ( 1 0 , 2 ) sous lhypothse nulle ( = 0,2) : P n N 0 ,2, ----------------------------- n 0 ,3 ( 1 0 , 3 ) sous lhypothse alternative ( = 0,3) : P n N 0 ,3, ----------------------------- n
112/175
2010 - 2011
Figure 11 : risque de deuxime espce dun test La figure 11 prsente les deux distributions correspondantes, pour une certaine valeur de n. Supposons alors juste lhypothse H1 ; la valeur observe p sera issue de la distribution de droite, et lon conclura tort au non rejet de H0 avec une probabilit gale laire grise, puisque cette aire est la probabilit pour que la valeur observe appartienne lintervalle de pari associ au test, sachant que cette valeur observe est gouverne par la distribution associe H1. Ainsi la valeur de cette aire grise exprime le risque de deuxime espce , son complmentaire 1 la puissance du test. Supposons pour fixer les ides que la valeur de cette aire soit 0,4. Cela signifie que si les hypothses sont = 0,2 et = 0,3, on aura 6 chances sur dix seulement de rejeter lhypothse = 0,2 lorsque sera gal 0,3. Autrement dit, 4 fois sur dix, on sera incapable de dtecter que vaut 0,3 et non 0,2.
Figure 12 : risque de deuxime espce dun test Par ailleurs, on peroit que plus les hypothses H0 et H1 sont contrastes (par exemple les hypothses = 0,2, = 0,4 sont plus contrastes que les hypothses = 0,2, = 0,3), plus les distributions de P n sous ces deux hypothses sont loignes , et plus la puissance est grande. Cest la raison pour laquelle on dit souvent que la notion de puissance est proche de la notion de pouvoir discriminant entre hypothses.
2010 - 2011
113/175
La figure 12 reproduit les conditions de la figure 11, mais avec une valeur de n accrue. Autrement dit le mme test est mis en uvre, mais sur un nombre dunits statistiques suprieur. On constate sur cette figure que le risque de deuxime espce est trs faible. Ce rsultat est gnral : TOUTES CHOSES EGALES PAR AILLEURS, LA PUISSANCE DUN TEST AUGMENTE AVEC LA TAILLE DE LECHANTILLON Remarque Les calculs de puissance bauchs ci-dessus, joints au rsultat prcdent, permettent de rpondre des questions du type : combien de sujets est-il ncessaire dinclure dans un essai pour avoir de bonnes chances (9 chances sur dix par exemple) de mettre en vidence une diffrence entre proportions vraies dau moins 0,1 ? si je dispose de 100 sujets, quelle diffrence minimum entre proportions vraies suis-je capable de dtecter avec une probabilit de 0,9 ?
Des formules de la relation entre puissance et taille des chantillons seront donnes dans le chapitre 12. Les dveloppements ci-dessus montrent que lorsque vous navez pas rejet lhypothse nulle, vous pouvez toujours dire que cest un manque de puissance du test puisque H0 est sans doute fausse (pensons = 0,2 exactement). On peut donc dire quavec un plus grand nombre dindividus vous auriez rejet H0. Cela justifie lexpression lactivit du traitement nest pas dmontre . Cependant il faut tre raliste : reprenons lexemple des souris traites ou non traites. Vous avez ralis votre exprience sur un chantillon de 1000 souris. Rsultat du test : non rejet de H0 cest--dire lactivit nest toujours pas dmontre. Il nest pas raisonnable dans ces conditions dvoquer un manque de puissance du test ; ce rsultat suggre plutt une trs faible activit du traitement, si elle existe.
114/175
2010 - 2011
z2
On observe que z 1 est lextrieur des intervalles de pari jusquau niveau 0,97, que z 2 est lextrieur des intervalles de pari jusquau niveau 0,999. Cela signifie que, en ce qui concerne la premire exprience, H0 aurait t rejete mme si on avait limit le risque derreur 1 - 0,97 = 0,03 (soit 3 %), et que, en ce qui concerne la seconde, H0 aurait t rejete mme si on avait limit le risque derreur 1 - 0,999 = 0,001 (soit 1). Cest ce pseudo risque derreur que lon appelle degr de signification et qui mesure la force avec laquelle on rejette H0. Ce degr de signification est not p : plus il est petit, plus confortable est le rejet. Si lon veut une dfinition plus prcise : Dfinition Lorsque H0 est rejete, on appelle degr de signification dun test le risque associ au plus grand intervalle de pari qui ne contient pas le paramtre calcul z. Calcul pratique du degr de signification On cherche dans la table la valeur de p pour laquelle up = z, up tant du type u Exemple: z = 2,43. On trouve dans la table u 0,02 = 2,32 et u 0,01 = 2,57 alors p [ 0 ,01 ; 0 ,02 ] La valeur exacte ne se trouve pas dans la table : on dira p < 0,02. Le plus grand intervalle de pari ne contenant pas z est de niveau > 0,98, ou au risque < 0,02. La plupart des rsultats de tests sexpriment avec ce degr de signification : On ralise le test (avec un risque = 0,05) Si H0 est rejete, on calcule ou on value le degr de signification p Si H0 nest pas rejete, on ne calcule pas p.
2010 - 2011
115/175
Dans le cadre de lexemple prcdent, chacune de ces situations correspond gnralement des commentaires radicalement diffrents. Par exemple : z est trop petit le traitement est efficace z trop grand le traitement est nuisible
4.
116/175
2010 - 2011
Or Pr(ne pas rejeter H0 si H0 est vraie) = 1 - Donc Pr(ne rejeter H0 aucune des deux fois si H0 est vraie) = (1 - )2 do un risque total = 1 - (1 - )2 Exemple Si = 0,05, le risque global est environ 0,10. Cette situation saggrave si le nombre de tests saccrot. Ainsi, dans le cas de 3 services le risque global est 0,14 10 services le risque global est 0,40 100 services le risque global est 0,994
Cela signifie par exemple que dans le cas o 10 services sont comparer une rfrence il y a 4 chances sur 10 pour quau moins une frquence observe scarte de faon significative de la valeur de rfrence, alors quen ralit tous les rsultats sont homognes. Si lon prend la frquence observe la plus diffrente de la valeur de rfrence, le test permettra de conclure, tort, avec une probabilit suprieure 0,4. En fait, lorsque lon dsire faire des comparaisons multiples, des tests spcifiques doivent tre utiliss de faon que les conclusions puissent tre tires avec un risque derreur global de 5 %. 5. IL EST DANGEREUX ET ERRONE DE CHOISIR LES HYPOTHESES AU VU DES DONNEES Lorsque lon opre de cette faon, on a en ralit ralis plus ou moins consciemment un nombre indtermin de tests que lon a jugs non concluants. LA STRATEGIE DANALYSE DES DONNEES DOIT ETRE FIXEE CLAIREMENT AVANT LA REALISATION DE LEXPERIENCE
2010 - 2011
117/175
Rsum du chapitre
A. Etapes de mise en uvre des tests : 1. Examiner le problme mdical, aboutir une formulation sous forme dune question simple mettant en jeu deux hypothses H0 (prcise, dite hypothse nulle) et H1 (contraire de H0, dite hypothse alternative). Enoncer ces hypothses. Construire un paramtre dpendant des donnes venir dont on connaisse la distribution si H0 est juste. Choisir le seuil ; = 0,05 Mettre en place la rgle de dcision sur la base dun intervalle de pari au risque . Faire lexprience, les calculs et conclure sur le plan statistique. En particulier indiquer le degr de signification du test en cas de rejet de lhypothse nulle. Se livrer une interprtation mdicale des rsultats du test (ce point sera revu au chapitre 15).
2. 3. 4. 5. 6.
B.
Vrifier les conditions de validit ltape 2 ou ltape 5. Mettre en uvre un test cest accepter deux risques derreur : le risque de premire espce, , chiffrant la probabilit de rejeter H0 alors quelle est vraie, le risque de deuxime espce, , chiffrant la probabilit de ne pas rejeter H0 alors quelle est fausse.
La valeur 1- sappelle la puissance du test et mesure laptitude du test dtecter un cart entre la ralit et lhypothse nulle. Cette puissance augmente avec la taille des chantillons sur lesquels a t mis en uvre le test.
118/175
2010 - 2011
2010 - 2011
119/175
[conditions de validit : n0 5 et n(1 - 0) 5] 3. Choix dun seuil de signification Construction de lintervalle de pari de niveau 1 - : IP 1 Exemple : = 0,05 IP0,95= [-1,96 ; 1,96] (lu dans la table de la distribution normale) 4. Mise en place de la procdure de dcision Lorsque les donnes seront disponibles on obtiendra une valeur du paramtre Z, soit : p 0 z = -----------------------------0 ( 1 0 ) ------------------------n Si z IP 1 on rejette H0 et on dit : au risque lhypothse dgalit de la proportion vraie et de la valeur donne est fausse ; ou, au risque , la proportion vraie est diffrente de la valeur donne. Si z IP 1 on ne rejette pas H0 ou on ne conclut pas . 5. Recueil des donnes. Conclusion Rappelons les conditions de validit : n0 5 et n(1 - 0) 5
120/175
2010 - 2011
12.1.2 Test dgalit de deux proportions vraies (ou test de comparaison de deux proportions observes)
12.1.2.1 Mise en place du test
Reprenons lexemple des souris mais en supposant maintenant que lon ne connat plus la frquence vraie de cancer chez les souris non traites (le 0,2 dalors). On se pose toujours la mme question relative lactivit du traitement. On est amen reformuler lgrement le problme et identifier labsence dactivit du traitement lgalit des proportions vraies de souris cancreuses dans deux populations, lune traite lautre non traite, et lactivit une diffrence entre ces deux pourcentages. On notera A et B les deux populations, A et B les frquences vraies de souris cancreuses dans ces deux populations, nA et nB les tailles des chantillons sur lesquels on calculera p A et p B , les frquences observes correspondantes. Mettons en place le test. 1. Les hypothses en prsence H0 hypothse nulle : les frquences vraies sont gales A = B H1 hypothse alternative : les frquences vraies sont diffrentes A B 2. Construction dun paramtre dont on connaisse la loi sous lhypothse nulle (i.e. si H0 est vraie) Cest une tape un peu dlicate (le lecteur peu curieux peut passer rapidement sur ces dveloppements). Essayons de nous ramener un cas connu : comparaison dun pourcentage observ une valeur donne, problme associ aux hypothses suivantes : H 0 : = 0 H 1 : 0 On y parvient en reformulant les hypothses H 0 : A - B = 0 H 1 : A - B 0 Il sagit donc de comparer 0 la diffrence A - B . Pn 0 Auparavant on formait le paramtre -----------------------------0 ( 1 0 ) ------------------------n
2010 - 2011 Biostatistique - Carrat, Mallet, Morice
121/175
v.a. proportion valeur thorique qui peut sinterprter comme ------------------------------------------------------------------------------cart-type de la v.a. proportion diffrence des v.a. proportions valeur thorique Alors on va former --------------------------------------------------------------------------------------------------------------------cart-type des diffrences des v.a. proportions P nA P nB soit ------------------------------------------------------------------------------------------------------------cart-type des diffrences des v.a. proportions La difficult est de former lexpression de lcart type des diffrences des % exprimentaux. Remarquons dabord que les variables alatoires P nA et P nB sont indpendantes ; cette indpendance rsulte du fait que ce nest pas parce que lon a trouv une souris cancreuse dans la population des souris traites que lon a plus ou moins de chances de trouver une souris cancreuse ou non dans la population non traite. Alors : var(P nA - P nB ) = var(P nA ) + var(-P nB ) = var(P nA ) + var(P nB ) (voir chapitre 6) Par ailleurs, sous lhypothse nulle, les moyennes vraies A de P nA et B de P nB sont identiques, et leur valeur commune, inconnue, est note . Do : ) var ( P nA ) = ( 1 - et var ( P nB ) = ( 1 ) ----------------------------------------nA nB si nA et nB sont les tailles des chantillons sur lesquels P nA et P nB sont calcules. Donc : var ( P nA P nB ) = ( 1 ) + ( 1 ) -------------------- ---------------------nA nB Maintenant, reste inconnu ; il sagit de la valeur vraie commune des pourcentages. Le mieux pour lestimer est de mlanger les deux populations - elles contiennent sous H0 le mme pourcentage de souris cancreuses - et dire : proche de = nombre de souris cancreuses dans les deux chantillons --------------------------------------------------------------------------------------------------------------------------------------nombre total de souris nA pA + nB pB soit : = -----------------------------nA + nB Finalement on adopte le paramtre suivant : P nA P nB Z = ----------------------------------------------------- ( 1 ) ( 1 ) -------------------- + ---------------------nA nB nA pA + nB pB avec = -----------------------------nA + nB Sous lhypothse nulle Z est peu prs distribue selon N(0, 1). Conditions de validit : n A 5, n A ( 1 ) 5 n B 5, n B ( 1 ) 5
122/175
2010 - 2011
3.
Choix dun seuil de signification ( = 0,05). Construction de lintervalle de pari IP 1 lu dans une table. ex. : IP0,95 = [-1,96 ; 1,96]
4.
Mise en place de la procdure de dcision Si z, dont on connatra la valeur une fois lexprience ralise IP0,95 on ne conclut pas IP0,95 on rejette H0 : une proportion est alors plus grande que lautre.
5.
Pour obtenir une puissance 1 - ( < 0,5) sur la base de 2 chantillons de mme taille n, la valeur minimale de n est donne par la formule approche suivante 2 2 ( 1 ) A + B n = [ 1, 96 + u 2 ] ------------------------avec = -----------------2 2 [ A B ] Conditions de validit : nA 5, n(1 A) 5, nB 5 et n(1 B) 5
2.
Ces deux tests sont apparents dans la mesure o le premier met lpreuve E(X) = 0, lautre le
2010 - 2011
123/175
fait que X - 0 et 0 - X ont la mme densit de probabilit. Cette dernire condition, qui entrane alors E(X) - 0 = 0 - E(X) et donc E(X) = 0, tant plus contraignante que la premire.
12.2.1.1 Test dgalit dune moyenne vraie une valeur donne (ou test de comparaison dune moyenne observe une valeur donne)
Ce cas concerne les variables quantitatives continues et nest valide que lorsque n 30. 1. Les hypothses en prsence : H0 : la moyenne vraie est gale avec la valeur donne 0 : = 0 H1 : 0 2. Construction du paramtre Mn 0 Z = -----------------2 s ---n Z est peu prs distribu selon N(0, 1). Cela rsulte du thorme central limite, ceci prs que s 2 est utilis la place de 2. On admettra que Z est tout de mme distribu selon une distribution normale. 3. Choix du seuil ; = 0,05 Construction de lintervalle de pari centr IP 1 IP 1 = [ u ; u ] ; u 0,05 = 1,96 4. Dfinition de la rgle de dcision La rgle de dcision est tout fait similaire au cas des proportions. Si z IP 1 , rejet de H0. On dit alors : au risque la moyenne vraie diffre de la valeur donne ou, pour les mmes raisons que pour les proportions : la moyenne observe est significativement diffrente, au risque , de la valeur donne ; ou encore : la moyenne observe et la valeur donne sont significativement diffrentes, au risque . Si z IP 1 , on ne conclut pas. La moyenne observe nest pas significativement diffrente de la valeur donne. m 0 Recueil des donnes. Calcul de z = --------------- . Conclusion. 2 s ---n
5.
Pour rejeter H0 avec une puissance 1 - ( < 0,5), lorsque = 1 et que X a pour variance 2, il faut constituer un chantillon dont la taille minimale est donne par la formule approche suivante 2 n = [ 1, 96 + u 2 ] -----------------------2 [ 0 1 ]
124/175
2010 - 2011
Condition de validit : n 30
12.2.1.2 Test de symtrie dune variable (X) par rapport une valeur donne (0) : test de Wilcoxon
1. Les hypothses en prsence : H0 : les variables X - 0 et 0 - X ont mme densit de probabilit H1 : les variables X - 0 et 0 - X nont pas la mme densit de probabilit 2. Construction du paramtre Le paramtre est construit partir des valeurs ordonnes par ordre croissant des valeurs absolues des xi - 0 o les xi sont les valeurs de X observes dans lchantillon ; chaque valeur on associe son rang de classement et lon garde la mmoire de son signe. On attribue aux ventuels ex-quo un rang commun gal la moyenne des rangs quils occupent. Exemple Si les valeurs observes (qui ne seront disponibles quaprs ralisation de lexprience) sont : -2,3 ; 4 ; 1 ; 5,6 ; -1,2 Le classement sera : 1 (+) ; 1,2 (-) ; 2,3 (-) ; 4 (+) ; 5,6 (+) On sintresse alors la somme des rangs des places occupes par les valeurs positives, appele T +. Ici la valeur de T + serait 1+4+5 = 10. Le paramtre du test est : T n(n + 1) 4 Z = -----------------------------------------------------n ( n + 1 ) ( 2n + 1 ) 24 La variable Z a une distribution connue : 3. Lorsque n > 15 cette distribution est peu prs N(0, 1). Pour n 15, il sagit dune distribution faisant lobjet dune table spcifique, la table du test de Wilcoxon.
+
Choix du seuil ; = 0,05 Construction de lintervalle de pari centr IP 1 IP 1 = [ W ; W ] ; lorsque n > 15, W = u
4.
Dfinition de la rgle de dcision Si z IP 1 , rejet de H0. On dit alors : au risque la densit de probabilit de X nest pas symtrique par rapport 0 ; selon le signe de z, on conclura que X est plutt plus grand que 0 , ou que X est plutt plus petit que 0 . Si z IP 1 , on ne conclut pas ; on ne rejette pas H0.
2010 - 2011
125/175
5.
2.
Ces deux tests sont apparents, lhypothse dgalit des distributions tant plus contraignante que lhypothse dgalit des moyennes vraies seules. Dans les deux cas on va raliser une exprience mettant en jeu deux chantillons issus des deux populations, lissue de laquelle on disposera de deux sries de valeurs de taille (les nombres de valeurs observes sont nots respectivement nA et nB ).
12.2.2.1 Test dgalit de deux moyennes vraies (ou test de comparaison de deux moyennes observes)
Ce test nest valide que lorsque nA et nB sont 30, cas dit des grands chantillons. Il sagit dun problme trs proche du problme trait en 12.2.1.1 1. Les hypothses en prsence H0 hypothse nulle : les moyennes vraies dans les deux populations sont gales A = B H1 hypothse alternative : A B 2. Construction du paramtre : cette construction suit les mmes lignes que prcdemment et on obtient M nA M nB Z = -------------------------2 2 sA sB ----- + ----nA nB Z est peu prs distribue selon N(0, 1). 3. Choix dun seuil de signification (0,05) Construction de lintervalle de pari IP 1 (IP0,95)
126/175
2010 - 2011
4. 5.
nA
1 1 2 2 m A = ----- x iA et s A = -------------- ( x iA m A ) nA nA 1
i=1 nB i=1 nB
1 1 2 2 m B = ----- x iB et s B = -------------- ( x iB m B ) nB nB 1 les xiA et xiB tant les valeurs de tailles observes dans les chantillons des populations A et B respectivement. mA mB z = ---------------------2 2 sA sB ----- + ----nA nB Conclusion.
i=1 i=1
12.2.2.2 Test dgalit de deux distributions (ou test de comparaison de deux distributions observes) : test de Mann-Whitney-Wilcoxon
1. Les hypothses en prsence H0 les densits de probabilit concident dans les deux populations : fA = fB H1 les densits de probabilit ne concident pas : fA fB 2. Construction du paramtre : cette construction suit les mmes lignes que celles du test de Wilcoxon dcrit section 12.2.1.2. Par convention, on considre que nA nB . On ordonne par valeurs croissantes lensemble des donnes observes (dont on disposera aprs ralisation de lexprience). On attribue aux ventuels ex-quo un rang commun gal la moyenne des rangs quils occupent. Puis on calcule la somme des rangs de classement occups par les donnes issues de lchantillon de la population A, soit TA .
2010 - 2011
127/175
nA ( nA + nB + 1 ) On calcule galement = T A -------------------------------------- . 2 Puis TA de la faon suivante : si > 0 TA = TA - 0,5 si < 0 TA = TA + 0,5
Exemple Si les valeurs observes sont : Echantillon de population A : 1,7 ; 6,1 ; 3,2 ; 1,5 Echantillon de population B : 4,3 ; 0,5 ; 1,1 ; 2,7 ; 5,4
Le classement conduit 0,5 (B) ; 1,1 (B) ; 1,5 (A) ; 1,7 (A) ; 2,7 (B) ; 3,2 (A) ; 4,3 (B) ; 5,4 (B) ; 6,1 (A) et TA = 3+4+6+9 = 22. Enfin = 22-410/2 = 2. Donc TA = 21,5. Le paramtre du test est : TA nA ( nA + nB + 1 ) 2 Z = ---------------------------------------------------------- lorsque nA et nB 10 n A n B ( n A + n B + 1 ) 12 T A nA ( nA + nB + 1 ) 2 Z = ------------------------------------------------------------- lorsque nA ou nB > 10 n A n B ( n A + n B + 1 ) 12
Z a une distribution connue : 3. Lorsque nA ou nB >10 cette distribution est peu prs N(0,1). Lorsque nA et nB 10, il sagit dune distribution faisant lobjet dune table spcifique, la table du test de Mann-Whitney-Wilcoxon.
Choix du seuil ; = 0,05 Construction de lintervalle de pari IP 1 Cet intervalle est du type IP 1 = [ M ; M ] Exemple : si nA = 3 et nB = 5, on a M 0,05 = 2,117
4.
Rgle de dcision Si z IP 1 , rejet de H0. On dit alors : au risque la densit de probabilit de la variable tudie nest pas la mme dans les populations A et B ; selon le signe de z, on conclura que la variable est plutt plus grande dans A que dans B , ou que la variable est plutt plus petite dans A que dans B . Si z IP 1 , on ne conclut pas ; on ne rejette pas H0.
5.
128/175
2010 - 2011
La procdure indique plus haut ne convient plus. A un moment de la mise en place des tests on avait calculer la variance de la diffrence des moyennes observes. On avait dit quelle concide avec la somme des variances de chacune des moyennes. Ici, cest faux ; on peut sen convaincre facilement. Supposez quun correcteur accorde systmatiquement un point de plus que son collgue toutes les copies. Alors, quoi quil arrive, la diffrence des moyennes observes sera 1, donc cette diffrence nest pas soumise aux fluctuations dchantillonnage ; sa variance est nulle, donc na rien voir avec les variances de chacune des moyennes qui, elles - ces variances -refltent les diffrences de qualit entre les copies. On montre que le bon abord du problme est de travailler sur les diffrences des paires de valeurs obtenues par unit statistique (diffrence des notes, diffrence des glycmies par individu). Cela revient au problme de la comparaison dune moyenne (moyenne des diffrences) zro ou la question de la symtrie dune distribution (celle des diffrences) par rapport zro. On se ramne ainsi des tests que lon connat (cf. section 12.2.1). On note d la variable alatoire diffrence entre rsultats pour un mme sujet.
129/175
n est le nombre de paires Mnd est la variable alatoire moyenne arithmtique des diffrences et md est la moyenne observe des diffrences. On montre que Z est peu prs distribue selon N(0, 1). Les tapes se succdent alors de faon ordinaire : md choix de , construction de lIP, dfinition de la rgle de dcision, calcul de z = -------- , conclusion. 2 s Pour le nombre de sujets ncessaires, se reporter la section 12.2.1.1 page 124 ---n Remarque Si les notes attribues par chacun des correcteurs varient gnralement dans le mme sens - cest-dire une copie mieux note quune autre par le premier examinateur le sera galement par le second - alors la valeur absolue de z calcule sur la base de lappariement est suprieure la valeur absolue que lon aurait obtenue en oubliant lappariement. Ainsi, toutes choses gales par ailleurs, on conclura plus frquemment au rejet de lhypothse nulle : le test ainsi mis en place est plus puissant. On a exploit plus dinformation. On a gomm une source de fluctuations, celle lie la disparit de la qualit des copies. Si cet effet de variation dans le mme sens nest pas rel (ex. : lorsque lun note la copie x, lautre la note 20 - x) le problme dans son ensemble na plus beaucoup de sens.
2.
130/175
2010 - 2011
Rsum du chapitre
1. Comparaison dune proportion observe une valeur donne p 0 z = ------------------------------ ; v.a. ~ N(0, 1) ; validit n0 5 et n(1 - 0) 5 0 ( 1 0 ) ------------------------n Comparaison de deux proportions observes pA pB nA pA + nB pB z = ------------------------------------------------------ ; v.a. ~ N(0, 1) ; = -----------------------------nA + nB ( 1 ) ( 1 ) -------------------- + ---------------------nB nA validit : n A 5, n A ( 1 ) 5, n B 5, n B ( 1 ) 5 Comparaison dune moyenne observe une valeur donne m 0 z = --------------- ; v.a. ~ N(0, 1) ; validit n 30 2 s ---n Test de symtrie dune variable par rapport une valeur donne Ordonner les valeurs absolues des carts la valeur donne et calculer T +, somme des rangs des carts positifs. T n( n + 1) 4 z = ------------------------------------------------------ ; v.a. ~ N(0, 1) si n > 15 ; v.a. Wilcoxon sinon. n ( n + 1 ) ( 2n + 1 ) 24 Comparaison de deux moyennes observes mA mB z = ---------------------- ; v.a. ~ N(0, 1) ; validit nA et nB 30 2 2 sA sB ----- + ----nA nB 6. Test dgalit de deux distributions (on suppose nA nB ) nA ( nA + nB + 1 ) Ordonner les valeurs. TA = somme des rangs des donnes A. = T A -------------------------------------- . 2 TA = TA - 0,5 si > 0, TA = TA + 0,5 sinon T A nA ( nA + nB + 1 ) 2 z = ------------------------------------------------------------- N ( 0, 1 ) lorsque nA ou nB > 10 n A n B ( n A + n B + 1 ) 12 TA nA ( nA + nB + 1 ) 2 z = ---------------------------------------------------------- Mann-Whitney-Wilcoxon si nA et nB 10 n A n B ( n A + n B + 1 ) 12 Comparaison de deux moyennes observes sur sries apparies On utilise le test 3 en comparant la moyenne de la variable diffrence d 0 Test de symtrie des diffrences (sries apparies) On utilise le test 4 de symtrie de la variable d par rapport 0.
+
2.
3.
4.
5.
7. 8.
2010 - 2011
131/175
132/175
2010 - 2011
13.1 Comparaison dune rpartition observe une rpartition donne ou test du 2 dajustement
Supposons que lon souhaite savoir si la rpartition de la couleur des cheveux dans la population des habitants du dpartement A diffre de la rpartition de la couleur des cheveux dans la population franaise, cette dernire rpartition tant suppose donne. Supposons quil y ait k couleurs rpertories. On est alors amen considrer une variable qualitative k modalits. Notons i la probabilit de survenue de lvnement la i me modalit est observe . Exemple : 1 = probabilit quun individu tir au hasard dans le dpartement A ait les cheveux blonds 2 = probabilit quun individu tir au hasard dans le dpartement A ait les cheveux bruns 133/175
2010 - 2011
etc... Notons par ailleurs hi la proportion vraie de la modalit i dans la population franaise. On sapprte raliser une exprience sur n individus lissue de laquelle on disposera dun ensemble de Oi (Oi = nombre dindividus prsentant la modalit i du caractre tudi, parmi les individus de lchantillon).
Avec les notations prcdemment introduites, cela scrit : H0 : hypothse nulle : i = hi pour tous les i de 1 k. H1 : hypothse alternative : i hi pour au moins une modalit, cest--dire pour au moins un i. 2. Construction du paramtre On a dj mis en place ce test dans le cas dune variable (0 - 1) cest--dire dune variable deux modalits. Dans ce cas, les hypothses en prsence taient bien du type ci-dessus cest-dire H0 : = h 1 et 1 - = h 2 = 1 - h 1 ce qui scrit avec les nouvelles notations : 1 = h 1 et 2 = 1 - h 1 Mais on navait retenu que la condition = h 1 (en fait = 0) car dans ce cas les deux conditions ci-dessus sont redondantes. Le paramtre calcul retenu tait : p h1 z = ---------------------------------- h1 ( 1 h1 ) -----------------------------n Calculons son carr n ( p h1 ) n ( p h1 ) n ( p h1 ) z = ------------------------------ = --------------------------- + -------------------------- h1 ( 1 h1 ) h1 1 h1
2 2 2 2 2 2 2
2010 - 2011
Or np = nombre dindividus observs prsentant la valeur 1 cest--dire la modalit 1 de la variable ; or sous H0 la probabilit de cette modalit est h1. On sattend donc observer nh 1 individus prsentant cette valeur. Ce nombre dindividus attendu sappellera effectif attendu ou calcul de la premire modalit et sera not A 1. De la mme faon, n(1 - p) = nombre dindividus observs prsentant la valeur 0 cest--dire la modalit 2 de la variable ; or sous H0 la probabilit de cette modalit est h 2 = 1 - h 1. On sattend donc observer nh 2 individus prsentant cette valeur. Ce nombre dindividus attendu sappellera effectif attendu ou calcul de la seconde modalit et sera not A 2. ( O1 A1 ) ( O2 A2 ) Do z = ------------------------- + ------------------------A1 A2
2 2 2
o les Oi reprsentent les effectifs observs dans les diffrentes modalits, les Ai reprsentent les effectifs nhi dits prvus ou calculs ou ATTENDUS dans les diffrentes modalits. GENERALISATION Lorsque les variables considres ont plus de deux modalits, on gnralise le calcul ci-dessus et on retient le paramtre suivant :
k
Q =
i=1
( Oi Ai ) ----------------------Ai
o la somme stend toutes les k modalits de la variable. On rappelle que les Oi sont les effectifs observs, et que les Ai valent nhi . On remarque que Q chiffre lcart entre ce qui est prvu par lhypothse H0 et ce qui est obtenu ; cet cart se fonde naturellement sur les diffrences Oi - nhi car nhi est le nombre attendu dindividus prsentant la modalit i. Exemple : si hi = 0,4, sur 100 individus on en attend 40 prsentant la modalit i. Cest le nombre que lon aurait si la distribution dchantillonnage concidait avec la distribution hypothtique. Par ailleurs on a pu montrer (rsultat d Pearson) que sous H0 (et si tous les Ai 5) ce paramtre a une distribution qui ne dpend que du nombre de modalits, k. Cette distribution porte le nom de DISTRIBUTION DE 2. Si bien que lon peut former - grce encore une table - un intervalle de pari de niveau donn relatif cette variable. RETENONS : CONDITIONS DE VALIDITE : TOUS LES Ai DOIVENT ETRE AU MOINS EGAUX A 5 3. Intervalle de pari tant choisi (0,05), construction de lintervalle de pari IP 1 La variable 2 a lallure prsente figure 13. On remarque quil serait stupide de choisir lin-
2010 - 2011
135/175
tervalle de pari centr dessin sur cette figure car alors des valeurs numriques voisines de zro pour la valeur Qc du paramtre Q seraient dans la rgion critique du test ; or des valeurs proches de zro sont plutt compatibles avec H0 do le choix suivant (voir figure 14) : IP 1 = [ 0 ; K ddl, ] Cest cette valeur, note K ddl, qui est lisible directement dans une table. Remarque : notez que cet intervalle, bien que non symtrique autour de la moyenne, respecte la dfinition dun intervalle de pari donne section 9.4.1 page 90.
Figure 13 : distribution de 2
Figure 14 : distribution de 2 Usage de la table Cette table comporte - comme celle du t de Student - une entre entire appele nombre de degrs de libert (ddl). On montre que pour le test envisag ici nombre de degrs de libert = nombre de modalits - 1
136/175
2010 - 2011
Exemple : K 5;0,05 (5 ddl, si 6 modalits) = 11,07 La suite de la mise en place de ce test est usuelle. 4. Rgle de dcision Si Q c K ddl, on ne conclut pas Si Q c > K ddl, H0 est rejete. Cela signifie que lon conclut que la rpartition du caractre tudi (par exemple la couleur des cheveux dans le dpartement A) ne concide pas - ou ne sajuste pas - avec la rpartition donne (par exemple la rpartition de la couleur des cheveux dans la population franaise). On admet, en formulant cette conclusion, un risque derreur gal . Recueil des donnes et conclusion Exemple numrique : le tableau ci-dessous prsente une application numrique de lexemple considr. couleur des cheveux blonds effectifs observs (Oi ) effectifs attendus (Ai = nhi ) rpartition donne (hi ) 25 14,8 0,4 bruns 9 11,1 0,3 roux 3 11,1 0,3 total 37 (n) 37 1
5.
Les conditions de validit sont vrifies (Ai 5). On obtient ici : Q c = ( 25 14 ,8 ) - + ( 9 11 ,1 ) - + ( 3 11 ,1 ) - = 13 ,3 ----------------------------- -------------------------- -------------------------14 ,8 11 ,1 11 ,1 On sait que Q est distribu selon un 2 (3-1) degrs de libert ; on lit dans la table : K 2;0,05 = 5,99. Ainsi, la valeur calcule nappartient pas lintervalle de pari : on conclut que la rpartition du caractre ne concide pas avec la rpartition donne.
2 2 2
2010 - 2011
137/175
0,2 20 34
Remarque : On parle souvent de ce test sous la terminologie test du 2 dajustement pour exprimer quil met lpreuve lajustement - la compatibilit - entre une rpartition observe et une rpartition donne.
138/175
2010 - 2011
Le test se met en place de la faon suivante : 1. Les hypothses en prsence H0 : les rpartitions vraies de la variable sont identiques dans les deux populations H1 : les rpartitions vraies sont diffrentes Ces hypothses se schmatisent par : H0 : 1i = 2i pour toutes les modalits i. H1 : 1i 2i pour au moins une modalit i. 2. Construction du paramtre Cest encore ici le point dlicat. La solution ressemble dans son approche celle du problme de la comparaison de deux pourcentages. Cl du principe : on mlange les deux populations pour calculer une pseudo-rpartition thorique. On se retrouve alors pratiquement dans la situation du paragraphe prcdent. Cela se verra mieux sur un exemple. On va faire, pour des raisons de simplicit de calcul, une petite entorse notre faon de procder, et directement valuer le paramtre dont on connat la loi. i. On construit ce que lon appelle un tableau de contingence qui contient les rsultats exprimentaux. On a procd une exprience portant sur 37 individus issus de la population 1 et 40 individus issus de la population 2. Les rsultats sont les suivants :
2010 - 2011
139/175
Tableau 4 : effectifs observs (O 1i et O 2i ) blonds chantillon 1 chantillon 2 ii. 25 13 bruns 9 17 roux 3 10 nombre total 37 = n 1 40 = n 2
On construit une pseudo-rpartition de rfrence, en mlangeant les rsultats exprimentaux, cest--dire en oubliant leur origine (population 1 ou population 2). On obtient les rsultats suivants, en termes deffectifs (premire ligne), puis en termes de frquences (deuxime ligne). Tableau 5 : rpartition de rfrence blonds mlange frquences 38 38/77 = 0,49 bruns 26 26/77 = 0,34 roux 13 13/77 = 0,17 nombre total 77
Ces trois frquences, 0,49, 0,34, 0,17, vont jouer maintenant le rle des probabilits hypothtiques hi de la section 13.1. Pour la commodit de lcriture, on les note respectivement p 1, p 2, p 3. iii. On forme le tableau des effectifs attendus. Si lhypothse nulle est juste, cest--dire si les rpartitions de la couleur des cheveux concident dans les deux dpartements, on sattend trouver des effectifs calculs comme suit : effectif attendu pour la modalit i (modalit 1 = blond, modalit 2 = brun, modalit 3 = roux) dans lchantillon j (j = 1 ou 2) : nj multipli par pi Par exemple le nombre attendu dindividus bruns dans lchantillon de la premire population est : 37 0,34 = 12,6. En effectuant systmatiquement ces calculs, on obtient le tableau des EFFECTIFS ATTENDUS. Tableau 6 : effectifs attendus (A 1i et A 2i ) blonds chantillon 1 chantillon 2 18,1 (n 1p 1) 19,6 (n 2p 1) bruns 12,6 (n 1p 2) 13,6 (n 2p 2) roux 6,3 (n 1p 3) 6,8 (n 2p 3)
140/175
2010 - 2011
Q =
i=1
( O 1i A 1i ) ---------------------------- + A 1i
i=1
( O 2i A 2i ) ---------------------------A 2i
o k demeure le nombre de modalits de la variable. On a souvent recours une expression plus compacte de lexpression ci-dessus et on crit :
nombre de cases du tableau
Q =
j=1
( Oj Aj ) ----------------------Aj
MAIS ICI LA SOMMATION SETEND A TOUTES LES CASES DES TABLEAUX, numrotes grce lindice j. Exemple : dans lexemple trait il sagira donc de calculer une somme de 6 termes. On montre que, si H0 est vraie, Q est distribu comme un 2 (3 - 1) (2 - 1) degrs de libert [3 est le nombre de modalits, et 2 le nombre de rpartitions] La VALIDITE de ce rsultat suppose que tous les effectifs attendus Aj soient au moins gaux 5. GENERALISATION Les calculs ci-dessus se gnralisent un nombre quelconque de modalits k, un nombre quelconque de populations m. Le paramtre Q calculer a alors la forme ci-dessus, o la somme comprend km termes. La distribution de Q, sous H0 est alors un 2 (k - 1)(m - 1) degrs de libert. Les conditions de validit du test sont : Aj 5, 1 j km 3. La suite des tapes de mise en uvre est classique. La valeur observe de Q, note Qc , sera compare la valeur K ddl;0,05 : si Q c K ddl;0,05 on ne conclut pas. Il nest pas dmontr que les deux rpartitions vraies diffrent. si Q c > K ddl;0,05 on conclut que les deux rpartitions observes diffrent significativement.
2 2 2 2 2 2
Suite de lexemple : on obtient : Q c = ( 25 18 ,1 ) - + ( 9 12 ,6 ) - + ( 3 6 ,3 ) - + ( 13 19 ,6 ) - + ( 17 13 ,6 ) - + ( 10 6 ,8 ) ----------------------------- -------------------------- ----------------------- ----------------------------- ----------------------------- -------------------------18 ,1 12 ,6 6 ,3 19 ,6 13 ,6 6 ,8 soit : Q c = 9 ,96 Or : K 2;0,05 = 5,99 rejet de H0. Les rpartitions observes de la couleur des cheveux diffrent significativement dans les deux populations.
2010 - 2011
141/175
Remarque 1 : Ce test sappelle aussi test du 2 dhomognit de plusieurs rpartitions. Remarque 2 : Cas particulier de deux variables deux modalits : dans le cas o lon considre deux variables deux modalits, cest--dire dans le cas o le tableau de contingence est deux lignes et deux colonnes, on observe que le problme se rduit un problme de comparaison de deux proportions observes. On montre que, dans ce cas, la valeur de Q concide avec le carr de la valeur de Z, Z tant le paramtre form pour comparer directement ces proportions (voir chapitre 12).
La question que lon aurait rsolue dans le paragraphe prcdent aurait t : la rpartition de la couleur des cheveux diffre-t-elle dans les populations dindividus aux yeux bleus ou verts. Ou encore, la rpartition de la couleur des cheveux diffre-t-elle selon la couleur des yeux ? Autrement dit : la variable couleur des cheveux dpend-elle statistiquement de la variable couleur des yeux ? Maintenant supposons que lon veuille rpondre cette question. Plutt que de prendre un chantillon de la population des individus aux yeux bleus et un autre chantillon issu de la population des individus aux yeux verts, autant prendre un chantillon de la population gnrale (cest--dire quelle que soit la couleur de ses yeux) et observer conjointement la couleur des cheveux et la couleur des yeux. Vues comme cela, les deux variables jouent bien des rles symtriques et le problme est donc de mettre lpreuve leur indpendance. 1. Les hypothses en prsence. On formule naturellement deux hypothses : Hypothse H0 les deux variables tudies (couleur des cheveux, couleur des yeux) sont indpendantes. Sous cette hypothse, le fait davoir observ chez un individu la couleur de ses cheveux (respectivement la couleur de ses yeux) napporte aucune information sur la couleur de ses yeux (respectivement la couleur de ses cheveux). On pourra se reporter au chapitre 6 dans lequel ont t commentes ces notions dindpendance. On notera que, comme dans tous les cas rencontrs jusquici, cette hypothse est une
142/175
2010 - 2011
hypothse fine qui engage un ensemble dgalits. En effet, on sait que lindpendance sexprime par : Pr(la modalit de la couleur des cheveux est l et la modalit de la couleur des yeux est c) = Pr(la modalit de la couleur des cheveux est l) Pr(la modalit de la couleur des yeux est c), et ceci pour tous les choix possibles de l et c. Remarque : on pourra vrifier que parmi les (nombre de modalits de la couleur des cheveux nombre de modalits de la couleur des yeux) galits qui en rsultent, certaines sont redondantes, et que (nombre de modalits de la couleur des cheveux - l) (nombre de modalits de la couleur des yeux - 1) galits suffisent exprimer les mmes conditions. Hypothse H1 les deux variables tudies ne sont pas indpendantes. Cette hypothse exprime le contraire de H0.
TRES IMPORTANT (des erreurs sont souvent commises) HYPOTHESE NULLE : LES DEUX VARIABLES SONT INDEPENDANTES HYPOTHESE ALTERNATIVE : LES DEUX VARIABLES SONT LIEES 2. Le paramtre du test Le paramtre est encore Q, et sexprime exactement comme prcdemment, cest--dire :
nombre de cases du tableau
Q =
j=1
( Oj Aj ) ----------------------Aj
Ici le nombre de cases du tableau de contingence est gal au produit du nombre de modalits de la premire variable et du nombre de modalits de la seconde variable. Les effectifs attendus sobtiennent exactement comme dans le cas du paragraphe prcdent, ainsi quon peut le voir sur lexemple numrique ci-dessous. Un exemple numrique Le tableau ci-dessous montre un exemple de tableau de contingence (D. Schwartz, Mthodes statistiques lusage des mdecins et des biologistes, Flammarion (collection statistique en biologie et mdecine), 3e dition, p79) ; cet exemple est similaire aux prcdents, si ce nest que lon a considr un plus grand nombre de modalits pour la variable couleur des cheveux, et que la nouvelle variable introduite (couleur des yeux) comporte trois modalits. Ces modalits remplacent les chantillons considrs dans la section 13.2 page 139. Ainsi, la modalit bleu par exemple peut tre lue : chantillon issu de la population des individus aux yeux bleus . La taille de cet chantillon nest cependant plus matrise.
2010 - 2011
143/175
Couleur des yeux blonds bleus gris marrons total frquence 25 13 7 45 45/124
Couleur des cheveux bruns 9 17 13 39 39/124 roux 7 7 5 19 19/124 noirs 3 10 8 21 21/124 total 44 47 33 124 124/124
frquence
Les effectifs attendus sobtiennent comme prcdemment. Ainsi, leffectif attendu relatif au couple blonds, marrons sera : 45/12433/124124 = 11,9. REMARQUES i. Pour allger les calculs, on peut remarquer que leffectif attendu relatif la cellule localise ligne l, colonne c est gal au rapport ii. du produit du total de la ligne l et du total de la colonne c, et du total gnral.
La somme des effectifs attendus, soit en ligne, soit en colonne, concide avec les mmes sommes sur les effectifs observs. Cette remarque permet une vrification partielle des calculs. iii. Dans la prsentation des calculs, on a procd au mlange des rsultats sans plus tenir compte de la couleur des yeux (ce qui conduit sommer les lignes du tableau). On peut de faon quivalente mlanger les rsultats exprimentaux sans plus tenir compte de la couleur des cheveux, ce qui conduira sommer les colonnes du tableau de contingence pour obtenir la rpartition de rfrence. On pourra vrifier que les rsultats du calcul sont strictement les mmes, ce que lon attend compte tenu du rle symtrique jou par les deux variables tudies.
SOUS LHYPOTHESE NULLE DINDEPENDANCE entre les deux variables, Q EST DISTRIBUE SELON un 2 : (nombre de modalits de la premire variable - 1) (nombre de modalits de la seconde variable - 1) DEGRES DE LIBERTE.
144/175
2010 - 2011
Les CONDITIONS DE VALIDITE sont encore : Aj 5. 3. La suite des tapes est habituelle En particulier, la rgle de dcision stablit comme suit : si la valeur calcule de Q, note Qc , est infrieure K ddl, , on ne rejette pas lhypothse dindpendance des deux variables. si la valeur calcule Qc est suprieure K ddl, , on rejette lhypothse dindpendance des deux variables. On dira alors que les deux variables sont lies, au risque .
Exemple : Dans lexemple ci-dessus, la valeur de Qc , rsultant de la sommation de 12 termes, est 15,1. Le nombre de degrs de libert est : (4 - 1)(3 - 1) = 6, la valeur de K 6;0,05 associe tant 12,6 (lue dans une table). On rejette donc ici lhypothse dindpendance : couleur des cheveux et couleur des yeux sont lies, ou encore sont dpendantes. Voyons une illustration de cette dpendance. Sur la base des donnes observes on a : Pr(yeux bleus) = 44/124 = 0,35 Pr(yeux bleus / cheveux blonds) = 25/45 = 0,56 La connaissance de la couleur des cheveux (ici la modalit blond ) modifie la rpartition de la couleur des yeux (ici la frquence de la modalit bleu qui volue de 0,35 0,56). Le test indique que cette modification est significative. En ralit la valeur de Qc ci-dessus chiffre dans leur ensemble les diffrences entre Pr(A / B) et Pr(A), cest--dire les carts de Pr(A et B) par rapport au produit Pr(A)Pr(B), o A est un vnement relatif la couleur des yeux et B un vnement relatif la couleur des cheveux.
2010 - 2011
145/175
Rsum du chapitre
Tests du 2. Effectifs observs Oj , effectifs attendus Aj . Conditions de validit gnrales : Aj 5 Paramtre gnral :
nombre de cases du tableau
Q =
j=1
( Oj Aj ) ----------------------Aj
Comparaison dune rpartition observe une rpartition donne (ajustement) H0 : La rpartition vraie sajuste la rpartition donne H1 : La rpartition vraie ne sajuste pas la rpartition donne Nombre de cases = nombre de modalits Q ~ 2(nombre de modalits -1) Comparaison de plusieurs rpartitions observes (homognit) H0 : Les rpartitions concident H1 : Les rpartitions diffrent Nombre de cases = nombre de modalits nombre de rpartitions Q ~ 2((nombre de modalits -1) (nombre de rpartitions -1)) Test dindpendance de deux variables qualitatives H0 : Les deux variables sont indpendantes H1 : Les deux variables sont lies Q ~ 2((nb de modalits de 1re variable - 1) (nb de modalits de 2me variable - 1)) Dans les deux derniers cas, si l est le nombre de lignes, c le nombre de colonnes du tableau de contingence, le nombre de degrs de libert des 2 est (l - 1)(c - 1).
146/175
2010 - 2011
2010 - 2011
147/175
la consommation de cigarettes (quotidienne ou cumule) et la capacit respiratoire sont-elles lies ? la gastrinmie et la quantit de cellules ECL sont-elles lies ? les valeurs de glycmie obtenues selon deux mthodes de dosage sur les mmes chantillons sanguins sont-elles lies [ici, il faut lesprer].
x (cratininmie)
x0
x (cratininmie)
148/175
2010 - 2011
Le nouveau domaine possible - sachant x 0 - est trs voisin du domaine initial ; ceci se reproduit pour toute valeur de x 0. Il est alors clair que dans cet exemple, la connaissance de X napporte pas dinformation sur celle de Y. On a ici une situation visuelle dun cas o les deux variables X et Y sont indpendantes. On pourrait renverser le rle de X et Y, la conclusion serait la mme. Considrons maintenant le cas o les rsultats exprimentaux produisent la reprsentation de la figure ci-dessous. Dans ce cas, au contraire, on voit clairement que la connaissance de x 0 (respectivement y 1) modifie le domaine des valeurs possibles, donc attendues de Y (respectivement X) ; les deux variables X et Y sont lies. y domaine domaine de de Y Y sachant x0
xx x x xx x x xx x x xx x x x x xx x x x x xx x xx x x xx x
x0
y y1
xx xx x x x xx x x x xx x x x x xx x x x x xx x xx x x xx x
La modification ici concerne aussi bien lamplitude du domaine que sa localisation en termes de valeurs. Lapprciation visuelle de la dpendance correspond lapprciation de lpaisseur de lensemble des points. Plus les points exprimentaux ont tendance se rpartir sur une courbe - non horizontale ni verticale - plutt qu remplir une partie du plan, plus les variables sont lies. Peut-on trouver un indicateur numrique de la force dune telle liaison ? Au sens strict, la rponse est non. Quelques situations de dpendance - cest--dire de liaison - sont reprsentes sur les figures ci-
2010 - 2011
149/175
dessous. y
xx x x xxx x x x xx x x xx x x xx x x xx x x xx xx xxxxxx xxx x x x x xx x x x x x xx x x x x x xx x x x x x x x xx xxxx x x xx xxx x x x x xx x x x xx x
y
x x xx xx xxx xx xxx x x x xx x x x x x x x xxx x xx x x x xx x x
On ne sait pas, en toute gnralit, rsumer en un seul nombre exprimant la liaison entre deux variables continues les rsultats dune exprience. On ne connat quun indicateur gnral prenant en compte non pas le degr de proximit une courbe quelconque mais le degr de proximit une droite : cest le coefficient de corrlation [linaire]. Il faut voir cependant que dans la plupart des situations relles au cours desquelles on sintresse lexamen de la liaison entre deux variables, la possibilit dinterprtation des rsultats est largement fonction du caractre monotone, sinon rectiligne, de la dpendance ; que dire en termes dinterprtation dune dpendance figure schmatiquement sur la figure ci-dessous ? y
150/175
2010 - 2011
xi mx yi my x ri = --------------- et y ri = --------------sX sY Maintenant si Y et Y prsentent un caractre de covariation, cest que de faon frquente, sinon systmatique soit les variables varient dans le mme sens, cest--dire lorsque xi est grand (i.e. xri positif par exemple), yi lest galement le plus souvent (i.e. yri positif), que lorsque xi est petit (xri < 0) yi lest galement (yri < 0) ; dans ce cas, le produit xri yri est frquemment positif. soit les variables varient en sens contraire : lorsque xi est grand, yi est petit, lorsque xi est petit, yi est grand ; dans ce cas le produit xri yri est frquemment ngatif.
Compte tenu de lanalyse prcdente, on choisit pour indicateur de la covariation ou corrlation le nombre : 1 r = ----------- x ri y ri n1
i
Ainsi si r est grand, cest le signe dune covariation dans le mme sens de X et Y ; si r est petit (cest--dire grand en valeur absolue et ngatif), cest le signe dune covariation de X et Y en sens contraire ; si r est voisin de zro, cest le signe dune absence de covariation.
Retenons, exprim sur la base des valeurs observes : 1 ----------- ( x i m x ) ( y i m y ) n1 i r = -------------------------------------------------------------sX sY Le numrateur de cette expression est appel la covariance observe des deux variables X et Y, note cov 0(X, Y), dont on montre quelle sexprime aussi sous la forme n 1 - cov 0 ( X, Y ) = ----------- -- x i y i xy n 1n i Les figures ci-dessous prsentent diverses situations relativement au coefficient de corrlation observ.
2010 - 2011
151/175
y my
xx x xx x x xxx x x x x x xx xx x xx xx xx x x x x xxx x xx x
my
x mx
my
xx x xx x x x x xx xx x x x x x xx xx x xx x x xx x x xx xx xx
y my
x mx
mx r>0, grand y
my
x mx
r a toujours une valeur comprise entre -1 et 1 ; r prend la valeur -1 (respectivement 1) si et seulement si il existe des valeurs a et b telles quon ait pour tout i yi = axi + b avec a ngatif (respectivement a > 0).
Remarques : plus r est grand en valeur absolue, plus les variables sont dites corrles, la valeur absolue de r dcrot, lorsque sestompe le caractre rectiligne du nuage des valeurs observes, lorsque spaissit ledit nuage,
une valeur absolue trs faible du coefficient de corrlation ne permet pas de conclure lindpendance de deux variables. Deux variables indpendantes prsenteront en revanche un coefficient de corrlation observ trs faible en valeur absolue.
152/175
2010 - 2011
x xx x xx x x x xx x x x x xx xx x xx xx xx x x x x xxx xx xx
y
x x xx x x xxx xx x x x x xx xx x xx xx xx x x x x x xx x xx x
x r 0,9 y r 0,7
x xx xxx x x x x x xx x xx x x xx x x x xx xxx x x x xx x xx x
xx xx x x x x x x xx xx xxx x x x x xx xx x xx x xx x xxxx x x x xx x xx x x xx x
x r 0,7 y y r 0,6
x r 0,5 r 0,5
2010 - 2011
153/175
y
x x x x xx x x x x x xx x xxx x x x x xx x x x x x xx x xx x x x xx xx xx x x x x x x x xx x x xx x x x x x x x
x xx xx xx xx xx x xx x x x xx x xx x x x xx x xxxx xx x x xx x x x xx x x x x x x xx
x r 0 Remarque complmentaire : r 0
Le coefficient de corrlation linaire est, au mme titre que toute statistique, soumis aux fluctuations dchantillonnage. La question se pose alors de savoir que faire de cet indicateur en termes dinfrences. Par exemple, avant de conclure que les deux variables sont corrles, peut-on se garantir du risque de lobservation dun coefficient de corrlation nul sur une plus grande srie dobservations ? On se retrouve dans le contexte des tests dhypothses avec ici une difficult supplmentaire qui tient au fait que lon na pas quitt le niveau exprimental, le niveau intuitif. Il convient de trouver une contrepartie vraie ce coefficient de corrlation observ r.
154/175
2010 - 2011
Quelques exemples numriques Au risque 5 % : n = 10, IP0,95 = [-0,632 ; 0,632], ddl = 8 n = 20, IP0,95 = [-0,444 ; 0,444], ddl = 18 n = 50, IP0,95 = [-0,280 ; 0,280], ddl = 48 Ainsi, par exemple, pour pouvoir conclure la corrlation, lorsque lon dispose de 20 observations (20 couples (xi , yi )), le coefficient de corrlation observ doit tre suprieur 0,444, ou infrieur -0,444. Autre formulation du test n2 On peut montrer que t = r ------------- est, sous H0, distribu selon une loi de Student n-2 ddl. 2 1r
2010 - 2011
155/175
Si on prfre utiliser ce paramtre plutt que r, il faut lire la table de Student pour construire lintervalle de pari.
156/175
2010 - 2011
Rsum du chapitre
1. La corrlation entre deux variables alatoires quantitatives X et Y se mesure laide du coefficient de corrlation vrai : ( X, Y ) = E { [ X E ( X ) ] [ Y E ( Y ) ] } --------------------------------------------------------------X Y Proprits : 2. ( X, Y ) [ 1 ; 1 ] Si X, Y indpendantes, alors (X, Y) = 0
Disposant dun chantillon de n couples (xi , yi ) on dfinit le coefficient de corrlation observ : n - -1 ----------- 1 x i y i m x m y ----------- ( x i m x ) ( y i m y ) n 1n n1 i i r = -------------------------------------------------------------- = -------------------------------------------------------sX sY sX sY Proprit : r [ 1 ; 1 ] Il existe un test de nullit du coefficient de corrlation vrai dont le paramtre est r. Indpendance et corrlation sont des notions diffrentes ; deux variables dont le coefficient de corrlation vrai est nul peuvent tre lies.
3. 4.
2010 - 2011
157/175
158/175
2010 - 2011
15.1 La causalit
La causalit est une thmatique centrale en philosophie des sciences et en logique, et les premiers crits sur ce sujet remontent Aristote. Jusquau 18me sicle, la causalit nait de lobservation, et les connaissances sont construites partir des observations sans ide prconues du rel (infrence dite inductive). Nous formons alors une sorte danticipation, qui nous reprsente que le second vnement (leffet) doit se produire quand le premier (la cause) se produit - mme si les mcanismes explicatifs liant ces deux vnements nous chappent. Dans la vie courante, lacquisition de nos apprentissages ou lapplication des rgles de bon sens , illustrent cette conception de la causalit. Hume, philosophe cossais, montrera pourtant les limites de ce principe et limpossibilit de prouver la relation causale de lobservation de la succession de deux vnements dont on ne peut jamais exclure la concidence. Le questionnement sur la causalit en mdecine est galement ancien. Claude Bernard crit en 1865 : Lesprit de lhomme ne peut concevoir un effet sans cause, de telle sorte que la vue dun phnomne veille toujours en lui une ide de causalit. Toute la connaissance humaine se borne remonter des effets observs leur cause. la suite dune observation, une ide relative la cause du phnomne observ se prsente lesprit ; puis on introduit cette ide anticipe dans un raisonnement en vertu duquel on fait des expriences pour la contrler. On retrouve dans ce propos une conception diffrente de la causalit : il sagit de dduire (au sens strict) les consquences dune hypothse et ensuite de comparer ces consquences aux donnes. Sil y a dsaccord, alors lhypothse est rfute. Dans le cas contraire, lhypothse nest pas prouve mais notre croyance en elle sen trouve renforce. Cette conception, de type dductif, formalise par Karl Popper au dbut du 20me sicle, sest impose comme le socle de la dcouverte scientifique. Des livres dpidmiologie entiers, dont certains trs mathmatiques utilisant les outils de la logique, traitent de ce problme de la causalit et il nest pas possible den donner une vision mme partielle. On retiendra quune relation causale entre deux caractres pourra tre voque lorsque
2010 - 2011
159/175
lun des deux est contrl . Lessai contrl est la seule mthode qui permet de mesurer leffet causal dune intervention, par exemple un traitement, sur un vnement, par exemple, la gurison dune maladie.
160/175
2010 - 2011
15.3.2 Comment limiter les biais dans le droulement dun essai thrapeutique randomis ? Aveugle et placebo
Le placebo est une prsentation lidentique du mdicament ltude mais qui ne contient pas le principe actif. Ainsi lorsquun essai randomis contre placebo est ralis, un sujet dans lessai recevra au hasard soit le mdicament ltude soit une copie de ce mdicament, et ni ce sujet, ni le mdecin qui le prend en charge dans ltude, ni la personne (souvent le mdecin) qui valuera le critre de jugement ne sauront ce qui est rellement pris. On parle dans ce cas de mise en insu ou daveugle. Les sujets recevant le placebo constituent ce que lon appelle le groupe tmoin (ou groupe contrle par anglicisme). Laveugle est justifi pour deux raisons principales : 1) dune part, parce quil garantit que les patients seront a priori pris en charge et suivis de la mme manire dans lessai quel que soit le groupe dans lequel ils ont t randomiss. En labsence daveugle, un patient recevant, par exemple, un placebo, pourrait tre amen plus facilement interrompre rapidement sa participation dans lessai (puisquil a le placebo) pour pouvoir bnficier dun autre traitement, contrairement un patient recevant le traitement ltude ; un patient recevant le traitement ltude pourrait faire lobjet de plus dattention que celui du groupe placebo et 2)
2010 - 2011
161/175
dautre part, parce quil permet dviter une interprtation tendancieuse ou biaise du critre de jugement si celui-ci est subjectif. Lvaluateur dune douleur rsiduelle 6 mois aprs le dbut de lessai sera invitablement influenc dans son jugement sil connat le groupe du patient, et aura tendance trouver une plus grande efficacit sur la douleur chez les patients qui reoivent le traitement ltude que chez les patients du groupe tmoin. Dailleurs, en cas dabsence daveugle, le simple fait de soumettre un sujet un traitement amliore souvent un critre de jugement subjectif, mme si ce traitement na aucune efficacit intrinsque : cest leffet placebo. Leffet placebo est dfini comme lcart positif constat entre leffet thrapeutique observ et leffet pharmacologique propre dun mdicament. Si lon donne une substance inerte sur le plan pharmacologique, on observera uniquement un effet placebo. On considre ainsi que lhomopathie ou dautres mdecines douces , relvent uniquement de leffet placebo et donc que leffet de ces thrapeutiques est exclusivement subjectif. Dans un essai en aveugle, leffet placebo est rparti de la mme manire entre les deux groupes de patients, et la diffrence observe est donc imputable aux seules proprits pharmacologiques du traitement. Un essai contre placebo en aveugle peut porter sur dautres interventions que le seul mdicament. Un exemple clbre rcent porte sur la chirurgie du genou chez les sujets obses. Jusque rcemment, tous les essais indiquaient une amlioration franche de la douleur et de la mobilit chez les sujets randomiss dans le groupe ayant subi lintervention chirurgicale ligamentaire par rapport ceux randomiss dans le groupe sans intervention. Jusquau jour o un essai fut conduit comparant des sujets chez qui lintervention sur les ligaments tait ralise, des sujets endormis et chez lesquels un simulacre dintervention (ouverture/fermeture simple de la cavit articulaire) tait ralis. Le rsultat montrait lamlioration de la douleur dans les deux groupes (leffet placebo), et labsence de diffrence entre les deux groupes (donc labsence defficacit intrinsque de lintervention).
15.3.3 Comment limiter les biais dans lanalyse dun essai thrapeutique randomis ? Intention de traiter
Lanalyse des rsultats dun essai thrapeutique est effectue grce la mthode statistique. Ce sont les tests statistiques qui permettent de conclure si les diffrences observes entre le groupe de sujets traits et le groupe de sujets non traits ou recevant le placebo permettent de rejeter ou non lhypothse dgalit de traitement, cest--dire de conclure quun traitement est ou non meilleur que lautre. De faon tout fait gnrale, les tests employs sont des tests bilatraux. De faon tout aussi gnrale, dans ce type dessai de supriorit ou defficacit, lanalyse statistique est effectue selon le principe de lintention de traiter. Ce principe consiste considrer le patient dans lessai littralement tel quon avait lintention de le traiter , cest dire, dans le groupe dans lequel il avait t randomis - peu importe ce qui a t rellement pris. Par exemple, un patient randomis dans le groupe placebo pourrait en ralit recevoir le traitement lessai pendant toute la dure de ltude, par simple erreur au moment de la dlivrance du mdicament : quand bien mme, ce patient sera analys dans le groupe placebo. Le principe de lanalyse en intention de traiter a pour objectif de prserver les bnfices de la randomisation au moment de lanalyse des rsultats, et de limiter les biais lis aux carts entre le protocole de lessai et la conduite de celui-ci. En pratique, la consquence implicite dune analyse en intention de traiter sera que tout patient randomis sera
162/175
2010 - 2011
inclus dans lanalyse y compris ceux nayant pas bien voire pas du tout pris le traitement qui leur tait allou. Cependant, les tudes randomises ne sont pas toujours ralisables do limportance de la question de causalit dans les tudes observationnelles en mdecine. En particulier, si lexprimentation peut parfois permettre de mesurer un effet causal entre un traitement et une maladie, elle est trs souvent impossible lorsque la cause potentielle tudie est un risque.
2010 - 2011
163/175
pare les niveaux dexposition dans ces deux groupes pour tudier lassociation entre exposition et vnement de sant. En gnral, on choisit de un 4 tmoins pour chaque cas et la proportion de malades dans ltude est compltement dtermine (de 50 % pour 1 tmoin pour 1 cas, 20 % pour 4 tmoins par cas), et ne correspond en rien la proportion de malades dans la population cible. Etudes transversales Une tude transversale est une tude descriptive dont le principe est essentiellement de recueillir simultanment des informations sur expositions et vnements de sant sur un chantillon reprsentatif de la population cible - celle laquelle on souhaite pouvoir extrapoler les rsultats. Les enqutes de prvalence sont un exemple typique de ces tudes transversales, dans lesquelles on value le nombre de malades prsents un instant dans la population, et qui identifie les facteurs associs aux variations de prvalence. Ces tudes transversales sont limites par labsence de description temporelle des expositions (et des vnements), mais peuvent permettre didentifier des relations entre vnement de sant et exposition lorsque celles-ci sont invariables dans le temps (par exemple, le sexe, le groupe sanguin, ...).
164/175
2010 - 2011
15.4.4 En pratique
Le plus souvent, une tude de cohorte sera prospective, et aura recueilli des donnes longitudinales. Le plus souvent une tude cas-tmoins sera rtrospective.
M+ E+ EOn dfinit n1 n3
Mn2 n4
le risque absolu chez les exposs, comme la proportion vraie de malades parmi les exposs P(M+ | E+), estim par n1/(n1+n2) le risque absolu chez les non exposs, comme la proportion de malades chez les non exposs, P(M+ | E-), estim par n3/(n3+n4) le risque relatif est une mesure dassociation, dfini comme le rapport des risques absolus chez les exposs et non exposs, P(M+ | E+) / P(M+ | E-). Ce risque est estim par n1/(n1+n2) / n3/(n3+n4) le rapport des cotes (odds-ratio en anglais) est une autre mesure dassociation trs utilise en biomdecine. Rappelons que la cote dun vnement est dfinie comme le rapport de sa probabilit sur son complmentaire : jouer une cote de 9 contre 1 signifie jouer avec 9 chance de perdre contre une chance de gagner. Le rapport des cotes est dfini comme le rapport de la cote de la maladie chez les exposs P(M+ | E+)/P(M- | E+) sur la cote de la maladie chez les non-exposs P(M+ | E-)/P(M- | E-), mais aussi, par application du thorme de Bayes, comme le rapport de la cote des expositions chez les malades P(E+ | M+)/P(E- | M+), par la cote des expositions chez les non malades P(E+ | M-)/P(E- | M-). Il est estim par le rapport des produits croiss (n1n4) / (n2n3).
2010 - 2011
165/175
Le rapport des cotes est la seule quantit pertinente qui peut tre estime dans une tude cas-tmoins puisque le nombre total de sujets non malades est dtermin par le nombre de tmoins choisi par cas. Si la maladie est rare dans la population cible, aussi bien chez les exposs que chez les nonexposs, P(M+) est proche de 0 et donc P(M-) voisin de 1, et P( M+ | E+)/P(M- | E+) est voisin de P( M+ | E+) ; P(M+ | E-)/P(M- | E-) proche de P(M+ | E-) et donc le rapport des cotes dfini ci-dessus est proche de du risque relatif. Le risque relatif et le rapport des cotes sont des quantits qui peuvent prendre les valeurs entre 0 et linfini. Sous lhypothse (nulle) dindpendance entre lexposition et lvnement tudi, ces deux quantits valent 1. Un risque relatif ou un rapport de cotes suprieur 1 (conclusion que lon portera aprs avoir fait le test dhypothse appropri) signifie que lexposition est un facteur de risque de lvnement tudi. Un risque relatif ou un rapport de cotes infrieur 1 signifie que lexposition est un facteur protecteur de lvnement. Un risque relatif de 50 (par exemple) pour lexposition fumeur et lvnement cancer du poumon sinterprte littralement comme il y a 50 fois plus de cancer du poumon chez les fumeurs que chez les non fumeurs .
166/175
2010 - 2011
Rsum du chapitre
1. Lessai contrl randomis permet de mesurer de leffet causal dune intervention de sant, un traitement par exemple. 2. La randomisation qui consiste tirer au sort lattribution de lintervention, permet dassurer que les individus constituant lchantillon sont comparables en tout (homognes) sauf pour ce qui concerne le caractre contrl. 3. Dans un essai randomis, le critre de jugement est la variable qui sera compare entre les groupes pour juger de lefficacit de lintervention. On distingue critres de jugements objectifs (ex : dcs) et subjectifs (ex : douleurs), ces derniers pouvant tre facilement influencs par dautres effets que les effets propres de lintervention. 4. Leffet thrapeutique dans un essai est la somme de leffet pharmacologique propre et de leffet placebo. 5. La mise en aveugle qui signifie que ni le patient, ni le mdecin qui le suit, ni lvaluateur du critre ne savent dans quel groupe est randomis le patient, est utilise pour limiter les biais. 6. Lanalyse en intention-de-traiter signifie que lon compare le critre de jugement entre les groupes tels quils ont t constitus par la randomisation. Elle implique que tous les patients randomiss sont conservs dans lanalyse. 7. Dans une tude dobservation, il nest pas possible de conclure causalement, juste de mettre en vidence des associations entre expositions (par exemple fumer) et vnement de sant (par exemple un cancer). 8. Les tudes dobservations visent identifier les facteurs associs des vnements de sant ; il sagit souvent de risques. 9. On distingue les tudes de cohortes, o les sujets sont rpartis en groupes en fonction de leur exposition (ex : fumeur/non fumeur) ; les tudes cas-tmoins, o les sujets sont rpartis en groupes en fonction de la ralisation ou non de lvnement de sant (ex cancer/ pas cancer) ; les tudes transversales, o expositions et vnements sont mesurs simultanment. 10. Une tude est dite prospective lorsque lexposition est mesure avant la survenue de lvnement tudi. Une tude est dite rtrospective lorsque la mesure de lexposition survient aprs la survenue de lvnement. 11. Le risque relatif et le rapport des cotes mesurent la force de lassociation entre lexposition et lvnement de sant tudi. Ils valent 1 en cas dabsence dassociation.
2010 - 2011
167/175
168/175
2010 - 2011
Tables statistiques
2010 - 2011
169/175
Tables statistiques
0,00 0,10 0,20 0,30 0,40 0,50 0,60 0,70 0,80 0,90
0,00 1,645 1,282 1,036 0,842 0,674 0,524 0,385 0,253 0,126
0,01 2,576 1,598 1,254 1,015 0,824 0,659 0,510 0,372 0,240 0,113
0,02 2,326 1,555 1,227 0,994 0,806 0,643 0,496 0,358 0,228 0,100
0,03 2,170 1,514 1,200 0,974 0,789 0,628 0,482 0,345 0,215 0,088
0,04 2,054 1,476 1,175 0,954 0,772 0,613 0,468 0,332 0,202 0,075
0,05 1,960 1,440 1,150 0,935 0,755 0,598 0,454 0,319 0,189 0,063
0,06 1,881 1,405 1,126 0,915 0,739 0,583 0,440 0,305 0,176 0,050
0,07 1,812 1,372 1,103 0,896 0,722 0,568 0,426 0,292 0,164 0,038
0,08 1,751 1,341 1,080 0,878 0,706 0,553 0,412 0,279 0,151 0,025
0,09 1,695 1,311 1,058 0,860 0,690 0,539 0,399 0,266 0,138 0,013
La probabilit sobtient par addition des nombres inscrits en marge exemple : pour u = 0,994, la probabilit est = 0,30 + 0,02 = 0,32 TABLE POUR LES PETITES VALEURS DE LA PROBABILIT u
0,001 3,29053 0,000 1 3,89059 0,000 01 4,41717 0,000 001 4,89164 0,000 000 1 5,32672 0,000 000 01 5,73073 0,000 000 001 6,10941
(daprs Fisher et Yates, Statistical tables for biological, agricultural, and medical research (Oliver and Boyd, Edinburgh) avec laimable autorisation des auteurs et des diteurs)
170/175
2010 - 2011
Tables statistiques
n 6 7 8 9 10 11 12 13 14 15 0,05 2,118 1,961 2,044 2,026 1,947 2,009 2,008 1,964 1,952 1,965 2,299 2,324 2,263 2,253 2,276 2,322 2,313 2,329 2,306 2,464 2,381 2,456 2,454 2,479 2,523 2,517 2,533 0,02 0,01
2010 - 2011
171/175
Tables statistiques
nA 3 nB 4 0,05 0,01 5 0,05 0,01 6 0,05 0,01 7 0,05 0,01 8 0,05 0,01 9 0,05 0,01 10 0,05 0,01 2,333 2,687 2,117 2,415 1,962 2,479 2,074 2,530 1,960 2,572 2,052 2,422 1,961 2,366 1,905 2,483 2,107 2,596 2,047 2,473 2,003 2,570 1,970 2,480 2,099 2,561 2,065 2,489 2,110 2,528 2,118 2,483 1,965 2,615 1,991 2,576 2,013 2,680 2,033 2,523 2,018 2,498 2,086 2,514 2,014 2,530 1,956 2,546 2,017 2,560 2,057 2,568 2,037 2,500 2,022 2,551 2,010 2,498 1,953 2,584 1,982 2,560 2,008 2,541 2,040 2,570 2,009 2,580 2,011 2,540 4 5 6 7 8 9 10
Indique, pour nA 10 et nB 10, nA nB , les valeurs de M, pour =0,05 et =0,01. Exemple : nA =5, nB =8 : M0,05=1,991
172/175
2010 - 2011
Tables statistiques
A.4 TABLE DE 2
La table donne la probabilit pour que 2 gale ou dpasse une valeur donne, en fonction du nombre de degrs de libert (d. d. l.) Quand le nombre de degrs de libert est lev,
ddl 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30
0,90 0,0158 0,211 0,584 1,064 1,610 2,204 2,833 3,490 4,168 4,865 5,578 6,304 7,042 7,790 8,547 9,312 10,085 10,865 11,651 12,443 13,240 14,041 14,848 15,659 16,473 17,292 18,114 18,939 19,768 20,599
0,50 0,455 1,386 2,366 3,357 4,351 5,348 6,346 7,344 8,343 9,342 10,341 11,340 12,340 13,339 14,339 15,338 16,338 17,338 18,338 19,337 20,337 21,337 22,337 23,337 24,337 25,336 26,336 27,336 28,336 29,336
0,30 1,074 2,408 3,665 4,878 6,064 7,231 8,383 9,524 10,656 11,781 12,899 14,011 15,119 16,222 17,322 18,418 19,511 20,601 21,689 22,775 23,858 24,939 26,018 27,096 28,172 29,246 30,319 31,391 32,461 33,530
0,20 1,642 3,219 4,642 5,989 7,289 8,558 9,803 11,030 12,242 13,442 14,631 15,812 16,985 18,151 19,311 20,465 21,615 22,760 23,900 25,038 26,171 27,301 28,429 29,553 30,675 31,795 32,912 34,027 35,139 36,250
0,10 2,706 4,605 6,251 7,779 9,236 10,645 12,017 13,362 14,684 15,987 17,275 18,549 19,812 21,064 22,307 23,542 24,769 25,989 27,204 28,412 29,615 30,813 32,007 33,196 34,382 35,563 36,741 37,916 39,087 40,256
0,05 3,841 5,991 7,815 9,488 11,070 12,592 14,067 15,507 16,919 18,307 19,675 21,026 22,362 23,685 24,996 26,296 27,587 28,869 30,144 31,410 32,671 33,924 35,172 36,415 37,652 38,885 40,113 41,337 42,557 43,773
0,02 5,412 7,824 9,837 11,668 13,388 15,033 16,622 18,168 19,679 21,161 22,618 24,054 25,472 26,873 28,259 29,633 30,995 32,346 33,687 35,020 36,343 37,659 38,968 40,270 41,566 42,856 44,140 45,419 46,693 47,962
0,01 6,635 9,210 11,345 13,277 15,086 16,812 18,475 20,090 21,666 23,209 24,725 26,217 27,688 29,141 30,578 32,000 33,409 34,805 36,191 37,566 38,932 40,289 41,638 42,980 44,314 45,642 46,963 48,278 49,588 50,892
0,001 10,827 13,815 16,266 18,467 20,515 22,457 24,322 26,125 27,877 29,588 31,264 32,909 34,528 36,123 37,697 39,252 40,790 42,312 43,820 45,315 46,797 48,268 49,728 51,179 52,620 54,052 55,476 56,893 58,302 59,703
Exemple : avec d. d. l. = 3, pour K 3; = 0,584 la probabilit est = 0,90 (daprs Fisher et Yates, Statistical tables for biological, agricultural, and medical research (Oliver and Boyd, Edinburgh) avec laimable autorisation des auteurs et des diteurs)
2010 - 2011
173/175
Tables statistiques
ddl \ 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 25 30 35 40 45 50 60 70 80 90 100
0,10 0,9877 0,9000 0,8054 0,7293 0,6694 0,6215 0,5822 0,5494 0,5214 0,4973 0,4762 0,4575 0,4409 0,4259 0,4124 0,4000 0,3887 0,3783 0,3687 0,3598 0,3233 0,2960 0,2746 0,2573 0,2428 0,2306 0,2108 0,1954 0,1829 0,1726 0,1638
0,05 0,9969 0,9500 0,8783 0,8114 0,7545 0,7067 0,6664 0,6319 0,6021 0,5760 0,5529 0,5324 0,5139 0,4973 0,4821 0,4683 0,4555 0,4438 0,4329 0,4227 0,3809 0,3494 0,3246 0,3044 0,2875 0,2732 0,2500 0,2319 0,2172 0,2050 0,1946
0,02 0,9995 0,9800 0,9343 0,8822 0,8329 0,7887 0,7498 0,7155 0,6851 0,6581 0,6339 0,6120 0,5923 0,5742 0,5577 0,5425 0,5285 0,5155 0,5034 0,4921 0,4451 0,4093 0,3810 0,3578 0,3384 0,3218 0,2948 0,2737 0,2565 0,2422 0,2301
0,01 0,9999 0,9900 0,9587 0,9172 0,8745 0,8343 0,7977 0,7646 0,7348 0,7079 0,6835 0,6614 0,6411 0,6226 0,6055 0,5897 0,5751 0,5614 0,5487 0,5368 0,4869 0,4487 0,4182 0,3932 0,3721 0,3541 0,3248 0,3017 0,2830 0,2673 0,2540
Exemple : avec d. d. l. = 30, pour r = 0,3494 la probabilit est = 0,05 (daprs Fisher et Yates, Statistical tables for biological, agricultural, and medical research (Oliver and Boyd, Edinburgh) avec laimable autorisation des auteurs et des diteurs) 174/175
2010 - 2011
Tables statistiques
ddl 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30
0,90 0,158 0,142 0,137 0,134 0,132 0,131 0,130 0,130 0,129 0,129 0,129 0,128 0,128 0,128 0,128 0,128 0,128 0,127 0,127 0,127 0,127 0,127 0,127 0,127 0,127 0,127 0,127 0,127 0,127 0,127 0,126
0,50 1,000 0,816 0,765 0,741 0,727 0,718 0,711 0,706 0,703 0,700 0,697 0,695 0,694 0,692 0,691 0,690 0,689 0,688 0,688 0,687 0,686 0,686 0,685 0,685 0,684 0,684 0,684 0,683 0,683 0,683 0,674
0,30 1,963 1,386 1,250 1,190 1,156 1,134 1,119 1,108 1,100 1,093 1,088 1,083 1,079 1,076 1,074 1,071 1,069 1,067 1,066 1,064 1,063 1,061 1,060 1,059 1,058 1,058 1,057 1,056 1,055 1,055 1,036
0,20 3,078 1,886 1,638 1,533 1,476 1,440 1,415 1,397 1,383 1,372 1,363 1,356 1,350 1,345 1,341 1,337 1,333 1,330 1,328 1,325 1,323 1,321 1,319 1,318 1,316 1,315 1,314 1,313 1,311 1,310 1,282
0,10 6,314 2,920 2,353 2,132 2,015 1,943 1,895 1,860 1,833 1,812 1,796 1,782 1,771 1,761 1,753 1,746 1,740 1,734 1,729 1,725 1,721 1,717 1,714 1,711 1,708 1,706 1,703 1,701 1,699 1,697 1,645
0,05 12,706 4,303 3,182 2,776 2,571 2,447 2,365 2,306 2,262 2,228 2,201 2,179 2,160 2,145 2,131 2,120 2,110 2,101 2,093 2,086 2,080 2,074 2,069 2,064 2,060 2,056 2,052 2,048 2,045 2,042 1,960
0,02 31,821 6,965 4,541 3,747 3,365 3,143 2,998 2,896 2,821 2,764 2,718 2,681 2,650 2,624 2,602 2,583 2,567 2,552 2,539 2,528 2,518 2,508 2,500 2,492 2,485 2,479 2,473 2,467 2,462 2,457 2,326
0,01 63,657 9,925 5,841 4,604 4,032 3,707 3,499 3,355 3,250 3,169 3,106 3,055 3,012 2,977 2,947 2,921 2,898 2,878 2,861 2,845 2,831 2,819 2,807 2,797 2,787 2,779 2,771 2,763 2,756 2,750 2,576
0,001 636,619 31,598 12,924 8,610 6,869 5,959 5,408 5,041 4,781 4,587 4,437 4,318 4,221 4,140 4,073 4,015 3,965 3,922 3,883 3,850 3,819 3,792 3,767 3,745 3,725 3,707 3,690 3,674 3,659 3,646 3,291
Exemple : avec d. d. l. = 10, pour t = 2,228, la probabilit est = 0,05 (daprs Fisher et Yates, Statistical tables for biological, agricultural, and medical research (Oliver and Boyd, Edinburgh) avec laimable autorisation des auteurs et des diteurs)
2010 - 2011
175/175