Stats

Universit Pierre et Marie Curie
Biostatistique
PAES - UE4 2010 - 2011
Responsables : F. Carrat et A. Mallet Auteurs : F. Carrat, A. Mallet, V. Morice
Mise jour : 20 octobre 2010 Relecture : V. Morice, A. Mallet, F. Carrat et S. Tzenas
2/175
Biostatistique - Carrat, Mallet, Morice
2010 - 2011
Sommaire
Sommaire
3 9 11 11 12 12 13 14 15 15 15 16 19 19 19 21 21 22 22 22 23 25 25 26 27 27 29 29 29 30 30
Sommaire Avant-propos Introduction

1 2 2.1 2.2 3 La variabilit et lincertain La mesure dune grandeur Units et quations aux dimensions Erreurs de mesure La dcision dans lincertain
Chapitre 1 :
1.1 1.2 1.3
Statistique(s) et Probabilit(s)
Statistique Population et chantillon Statistique et probabilit
Chapitre 2 :
2.1 2.2 2.3 2.4 2.5 2.6 2.6.1 2.6.2
Rappels mathmatiques
Ensembles, lments Oprations sur les ensembles Ensembles finis, dnombrables, non dnombrables Ensembles produits Familles densembles Autres rappels mathmatiques Rappel sur les sommes Rappel sur les intgrales
Chapitre 3 :
3.1 3.2 3.3 3.4 3.5 3.6 3.6.1 3.6.2 3.6.3
Elments de calcul des Probabilits
Introduction Exprience alatoire, ensemble fondamental et vnements Oprations sur les vnements Rgles du calcul des probabilits Remarque Illustration de quelques ensembles probabiliss Ensemble probabilis fini Ensemble fini quiprobable Ensembles probabiliss infinis
2010 - 2011
3/175
Sommaire 30 31 33
3.6.3.1 3.6.3.2
Cas dnombrable Cas dun ensemble probabilis infini non dnombrable
Chapitre 4 :
4.1 4.2 4.3 4.4 4.5 4.6
Probabilit Conditionnelle ; Indpendance et Thorme de Bayes
33 34 35 36 38 38 41
Probabilit conditionnelle Thorme de la multiplication Diagramme en arbre Thorme de Bayes Indpendance entre vnements Indpendance, inclusion et exclusion de deux vnements
Chapitre 5 :
5.1 5.1.1 5.1.2 5.1.3 5.2 5.2.1 5.2.2 5.2.3 5.2.4 5.3 5.3.1 5.3.1.1 5.3.1.2 5.3.1.3 5.3.2
Evaluation de lintrt diagnostique des informations mdicales
41 41 42 42 43 43 44 44 45 47 47 47 47 48 49 51 51 52 52 52 55 55 57 57 58 59 61
Introduction Le diagnostic Les informations mdicales Situation exprimentale et estimation Les paramtres de lvaluation Sensibilit et spcificit Valeurs prdictives Comparaison des deux couples de paramtres Choix dun seuil : courbes ROC Estimation des paramtres de lvaluation Un chantillon reprsentatif Les donnes Estimation de la sensibilit et de la spcificit Estimation des valeurs prdictives Deux chantillons reprsentatifs
Chapitre 6 :
6.1 6.2 6.2.1 6.2.2 6.2.3 6.2.4 6.2.5 6.2.6 6.3 6.4 6.5
Variables alatoires
Dfinition dune variable alatoire Variables alatoires finies Reprsentation dune loi de probabilit finie Esprance mathmatique dune variable finie Variance et cart-type dune variable finie Loi de probabilit produit Variables alatoires indpendantes Fonction de rpartition Variables infinies dnombrables (hors programme) Variables alatoires continues Extension de la notion de variable alatoire
4/175
2010 - 2011
Sommaire 63 63 63 63 66 67 67 67 67 70 70 71 71 72 73 73 74 74 75 76 77 77 77 78 78 79 80 80 80 81 81 83 85
Chapitre 7 :
Exemples de distributions
7.1 Lois discrtes 7.1.1 Loi de Bernoulli 7.1.2 Loi binomiale 7.1.3 Loi de Poisson 7.2 Lois continues 7.2.1 Loi normale 7.2.1.1 Dfinition 7.2.1.2 Proprits 7.2.2 Loi du 2 (chi-2) 7.2.2.1 Dfinition 7.2.2.2 Proprits 7.2.3 Loi de Student (hors programme) 7.2.4 Loi exponentielle (hors programme)
Chapitre 8 :
Statistiques descriptives
8.1 Rappels et complments 8.2 Reprsentation complte dune srie dexpriences 8.2.1 Cas dune variable qualitative 8.2.2 Cas dune variable quantitative discrte 8.2.3 Cas dune variable quantitative continue. Notion dHISTOGRAMME 8.3 Reprsentation simplifie dune srie dexpriences 8.3.1 Indicateurs de localisation des valeurs 8.3.2 Indicateurs de dispersion des valeurs 8.4 Reformulation de la moyenne et de la variance observes 8.4.1 Reformulation de la moyenne observe 8.4.2 Reformulation de la variance observe 8.5 Cas particulier dune variable deux modalits - Proportion 8.5.1 Expression de lesprance mathmatique de X 8.5.2 Expression de la variance de X 8.5.3 Interprtation de la moyenne observe 8.6 Conclusion : la variable alatoire moyenne arithmtique Rsum du chapitre
Chapitre 9 :
9.1 9.1.1 9.1.2 9.2 9.3
Fluctuations de la moyenne observe : la variable alatoire moyenne arithmtique
85 85 86 87 88
Premire proprit de la variable alatoire moyenne arithmtique Un exemple Gnralisation Seconde proprit de la variable alatoire moyenne arithmtique : le thorme central limite Etude de la distribution normale (rappel)
2010 - 2011
5/175
Sommaire 90 90 92 93 94 95 95 96 96 96 96 97 97 97 98 98 101 101 102 102 103 105 105 108 108 110 110 110 111 114 114 115 116 118 119 119 119
9.4 Application du thorme central limite. Intervalle de Pari (I. P.) 9.4.1 Dfinition de lintervalle de pari (I. P.) dune moyenne observe 9.4.2 Les facteurs de dpendance de la longueur de lintervalle de pari (IP) 9.4.3 Lintervalle de pari dune variable alatoire Rsum du chapitre
Chapitre 10 : Estimation - Intervalle de confiance

10.1 Introduction 10.2 Estimation ponctuelle 10.2.1 Dfinition 10.2.2 Proprits 10.2.2.1 Biais 10.2.2.2 Variance 10.2.2.3 Erreur quadratique moyenne 10.2.3 Exemple 10.3 Estimation par intervalle - Intervalle de confiance 10.3.1 Exemple dune proportion 10.3.2 Intervalle de confiance approch dune proportion vraie 10.3.3 Intervalle de confiance approch dune moyenne vraie (variable continue) 10.3.4 Applications 10.3.4.1 Prcision dun sondage 10.3.4.2 Prcision dune moyenne
Chapitre 11 : Les tests dhypothses. Principes

11.1 Un exemple concret (emprunt Schwartz) 11.2 Principe gnral des tests dhypothses 11.2.1 Les tapes de mises en uvre 11.2.2 Justification de la rgle de dcision. Choix de 11.2.2.1 Interprtation de 11.2.2.2 Effet dun changement de valeur de 11.2.3 Justification des conclusions du test. Puissance dun test 11.2.4 Amlioration de linterprtation du rejet de H0 11.2.4.1 Notion de degr de signification 11.2.4.2 Orientation du rejet 11.3 Rappels et prcisions Rsum du chapitre
Chapitre 12 : Quelques tests usuels

12.1 12.1.1 Tests concernant des variables de Bernoulli Test dgalit dune proportion vraie une valeur donne (ou test de comparaison dune proportion observe une valeur donne)
6/175
2010 - 2011
Sommaire 119 120 121 121 121 123 123 123 124 125 126 126 127 129 129 130 131 133 133 134 138 139 142 146 147
12.1.1.1 12.1.1.2 12.1.1.3 12.1.2
Mise en place du test Autre interprtation du paramtre z Nombre de sujets ncessaires Test dgalit de deux proportions vraies (ou test de comparaison de deux proportions observes) 12.1.2.1 Mise en place du test 12.1.2.2 Nombre de sujets ncessaires 12.2 Tests concernant des variables quantitatives 12.2.1 Tests impliquant une valeur donne 12.2.1.1 Test dgalit dune moyenne vraie une valeur donne (ou test de comparaison dune moyenne observe une valeur donne) 12.2.1.2 Test de symtrie dune variable (X) par rapport une valeur donne (0) : test de Wilcoxon 12.2.2 Tests de comparaison de variables quantitatives 12.2.2.1 Test dgalit de deux moyennes vraies (ou test de comparaison de deux moyennes observes) 12.2.2.2 Test dgalit de deux distributions (ou test de comparaison de deux distributions observes) : test de Mann-Whitney-Wilcoxon 12.2.3 Cas des sries apparies 12.2.3.1 Test de comparaison de deux moyennes observes sur sries apparies 12.2.3.2 Test de symtrie de la distribution des diffrences Rsum du chapitre
Chapitre 13 : Tests concernant des variables qualitatives

Comparaison dune rpartition observe une rpartition donne ou test du 2 dajustement 13.1.1 Les tapes de mise en uvre 13.1.2 Cas particulier : variable deux modalits 13.2 Comparaison de plusieurs rpartitions observes ou test du 2 dhomognit 13.3 Test dindpendance entre deux variables qualitatives Rsum du chapitre 13.1
Chapitre 14 : Liaison entre deux variables continues : notion de corrlation

14.1 Introduction 14.2 Abord du problme 14.3 Un indicateur de covariation : le coefficient de corrlation 14.4 Le coefficient de corrlation vrai 14.5 Test dgalit du coefficient de corrlation vrai 0 Rsum du chapitre
147 148 150 154 155 157
2010 - 2011
7/175
Sommaire 159 159 160 161 161 161 162 163 163 164 164 165 165 167 169 170 171 172 173 174 175
Chapitre 15 : Mthodologie des tudes pidmiologiques

15.1 15.2 15.3 15.3.1 15.3.2 La causalit Dmarche exprimentale et dmarche dobservation Les essais randomiss Dfinition Comment limiter les biais dans le droulement dun essai thrapeutique randomis ? Aveugle et placebo 15.3.3 Comment limiter les biais dans lanalyse dun essai thrapeutique randomis ? Intention de traiter 15.4 Les tudes dobservation 15.4.1 Cohortes - Cas-tmoins et tudes transversales 15.4.2 Etudes prospectives et rtrospectives 15.4.3 Donnes longitudinales 15.4.4 En pratique 15.5 Mesures dassociation utilises en pidmiologie Rsum du chapitre
Annexe A :
A.1 A.2 A.3 A.4 A.5 A.6
Tables statistiques
TABLE DE LA VARIABLE NORMALE REDUITE Z TABLE DU TEST DE WILCOXON TABLE DU TEST DE MANN-WHITNEY-WILCOXON TABLE DE 2 TABLE DU COEFFICIENT DE CORRELATION TABLE DU t DE STUDENT
8/175
2010 - 2011
Avant-propos
Avant-propos
Ce polycopi contient le cours de biostatistique du PCEM1 de la Facult de Mdecine Pierre et Marie Curie (Paris VI). On pourra trouver des complments dans le livre de A. J. Valleron : A.J. Valleron. UE4 : valuation des mthodes danalyse appliques aux sciences de la vie et de la sant. Elsevier-Masson (collection PassSant)
2010 - 2011
9/175
Avant-propos
10/175
2010 - 2011
Introduction
Introduction
La statistique constitue, en mdecine, loutil permettant de rpondre de nombreuses questions qui se posent en permanence au mdecin : 1. 2. 3. 4. Quelle est la valeur normale dune grandeur biologique, taille, poids, glycmie ? Quelle est la fiabilit dun examen complmentaire ? Quel est le risque de complication dun tat pathologique, et quel est le risque dun traitement ? Le traitement A est-il plus efficace que le traitement B ?
1 La variabilit et lincertain
Toutes ces questions, proprement mdicales, refltent une proprit fondamentale des systmes biologiques qui est leur variabilit. Cette variabilit est la somme dune variabilit exprimentale (lie au protocole de mesure) et dune variabilit proprement biologique. On peut ainsi dcomposer la variabilit dune grandeur mesure en deux grandes composantes :
variabilit totale = variabilit biologique + variabilit mtrologique
La variabilit biologique peut tre elle-mme dcompose en deux termes : dune part la variabilit intra-individuelle, qui fait que la mme grandeur mesure chez un sujet donn peut tre soumise des variations alatoires ; et dautre part la variabilit inter-individuelle qui fait que cette mme grandeur varie dun individu lautre.
variabilit biologique = variabilit intra-individuelle + variabilit inter-individuelle
La variabilit intra-individuelle peut tre observe lors de la mesure de la performance dun athlte qui nest pas capable des mmes performances chaque essai, mais qui se diffrencie des autres athltes (variabilit inter-individuelle). En gnral, la variabilit intra est moindre que la variabilit inter. La variabilit mtrologique peut tre elle aussi dcompose en deux termes : dune part les conditions exprimentales dont les variations entranent un facteur dalas ; et dautre part les erreurs induites par lappareil de mesure utilis.
variabilit mtrologique = variabilit exprimentale + variabilit appareil de mesure
La mesure de la pression artrielle peut grandement varier sur un individu donn suivant les conditions de cette mesure ; il est ainsi recommand de la mesurer aprs un repos dau moins 15 minutes, allong, en mettant le patient dans des conditions de calme maximal. Cette recommandation vise minimiser la variabilit due aux conditions exprimentales. La prcision de lappareil de mesure est une donne intrinsque de lappareil, et est fournie par le constructeur. 11/175
2010 - 2011
Introduction
2 La mesure dune grandeur

2.1 Units et quations aux dimensions
Les grandeurs mesures possdent la plupart du temps une unit. La distance entre Paris et Marseille se mesurera par exemple en kilomtres, lpaisseur dun cheveu en microns, le poids dune orange en grammes. Dans quelle mesure ces grandeurs peuvent-elles tre compares ? La distance entre Paris et Marseille, et lpaisseur dun cheveu sont deux longueurs ; leur comparaison est possible si on les mesure avec une unit commune, par exemple le mtre. En revanche, le poids de lorange nest pas comparable aux longueurs prcdentes. Deux grandeurs qui peuvent tre compares sont dites possder la mme dimension. Elles peuvent tre caractrises par leur dimension : on parlera par exemple de longueur. Les dimensions de toutes les grandeurs physiques peuvent sexprimer en fonction de sept dimensions de base : la longueur note L, la masse M, le temps T, lintensit lectrique I, la temprature , lintensit lumineuse J, et la quantit de matire N. Par exemple une vitesse est une longueur divise par un temps. On dira que sa dimension est LT-1. Plus prcisment, de lquation donnant la vitesse v en fonction de la distance d parcourue pendant le temps t, v=d/t, on dduit la relation entre les dimensions (notes entre crochets) des deux membres de lquation [v] = [d]/[t] = LT-1. Cette relation est appele quation aux dimensions. Une quation aux dimensions permet donc dexprimer la dimension de nimporte quelle grandeur en fonction des dimensions lmentaires, condition de connatre les relations entre elles. Elle permet aussi une premire validation dune relation entre grandeurs physiques : les dimensions de la partie gauche et de la partie droite de la relation doivent tre identiques. Dterminons par exemple la dimension dune nergie ou dun travail, partir de la formule w = f.l (un travail est le produit dune force par une longueur). Une force est le produit dune masse par une acclration (f = m. ) et une acclration est une longueur divise par le carr dun temps. Donc [w] = [f][l] = [m][l]t -2][l] = ML2T-2. Un autre intrt des quations aux dimensions concerne les units des grandeurs mesures. On dfinit un systme dunits en imposant des units aux 7 dimensions de base, les autres units de dfinissant laide des quations aux dimensions. Le systme dunits le plus utilis est le Systme International, ou SI, dans lequel une longueur est mesure en mtres (m), une masse en kilogrammes (kg), un temps en secondes (s), une intensit lectrique en ampres (A), une temprature en degrs Kelvin (K), une intensit lumineuse en candelas (cd), et une quantit de matire en moles (mol). Dans le systme international, certaines units drives sont videntes : une surface sexprime en mtres carrs. Dautres le sont moins. Citons le hertz pour une frquence, le pascal pour une pression, le joule pour une nergie ou un travail, le watt pour une puissance, le newton pour une force, le coulomb pour une charge lectrique, le volt pour une diffrence de potentiel, lohm pour une rsistance, etc. Il existe des grandeurs sans dimension, calcules comme le rapport de deux grandeurs de mme dimension, mais qui possdent pourtant une unit. Un angle est une grandeur sans dimension mesure en radians dans le systme international.
12/175
2010 - 2011
Introduction
2.2 Erreurs de mesure

La mesure dune grandeur ne peut conduire une valeur exacte. En premier lieu, linstrument de mesure possde ncessairement une prcision limite : une rgle gradue millimtre par millimtre ne peut donner une meilleure prcision quun demi millimtre. En second lieu, la grandeur mesurer peut tre source de variabilit intra-individuelle : la rptition de la mesure avec le mme instrument et dans des conditions identiques conduit alors des rsultats diffrents. Enfin, linstrument de mesure peut tre mal talonn ou mal adapt et conduire un biais de mesure systmatique : les valeurs mesures seront systmatiquement trop leves, ou systmatiquement trop basses. Pour une grandeur X mesurer, on note X lerreur de mesure. Cette erreur est gnralement facilement connue si elle nest due qu un problme de prcision. Sil existe une variablilit intraindividuelle (raisonnablement faible), on fera intervenir lcart-type des mesures (voir chapitre 10 page 95). Si x est la valeur mesure, la vraie valeur est donc comprise entre x-X et x+X. Si une grandeur G nest pas mesure, mais dduite dautres grandeurs X, Y, Z laide dune formule, lerreur G sur G doit se dduire des erreurs X, Y, Z sur X, Y, Z. Le plus souvent, on utilise un calcul bas sur la diffrentielle totale exacte de la formule. Si G = f(X, Y, Z), la diffrentielle totale exacte1 est : fffdf = ----- dX + ----- dY + ----- dZ X Y Z Lerreur de mesure est alors donne par : fffG = f = ----- X + ----- Y + ----- Z X Y Z Supposons par exemple devoir calculer une rsistance R en mesurant lintensit I du courant qui y circule et la diffrence de potentiel U ses bornes. La formule liant ces grandeurs est R = U/I. On mesure U = 1000 volts 1 volt prs et I = 1 ampre 10-3 ampre prs. U La formule donne R = 1000 ohms et lerreur se calcule par R = U + --- I = 2 ------- 2 I I Le calcul bas sur la diffrentielle totale exacte nest cependant quune approximation (on confond une courbe et sa tangeante). Lorsque des calculs plus exacts sont possibles, ils sont prfrables. Ainsi, supposons avoir trouv 100 avec une prcision de 1 pour la mesure dune grandeur X et nous intresser la grandeur Y = 1/X. La formule de la diffrentielle totale exacte donne 4 X Y = ------ = 10 , donc une valeur de Y comprise entre 0,0099 et 0,0101. 2 X Mais puisque la vraie valeur de X est comprise entre 99 et 101, la vraie valeur de Y est en ralit comprise entre 1/101 et 1/99, soit entre 0,009901 et 0,010101.
1. Rappel : calculer la drive partielle dune fonction par rapport lune des variables consiste driver en assimilant les autres variables des constantes.
2010 - 2011
13/175
Introduction
3 La dcision dans lincertain

Pour prendre une dcision diagnostique ou thrapeutique le mdecin doit avoir des lments lui permettant de prendre en compte cette variabilit naturelle, pour distinguer ce qui est normal de ce qui est pathologique (dcision propos dun patient) et pour valuer la qualit dun nouvel examen, ou dune nouvelle thrapeutique (dcision thrapeutique). La comprhension des mthodes statistiques, de leur puissance et de leurs limites, est essentielle pour un mdecin de nos jours. Tout rsultat de recherche mdicale rsulte dune exprimentation (clinique ou biologique) qui sappuie sur une mthodologie statistique rigoureuse, et dont les rsultats sont analyss en termes statistiques. De mme la dmarche statistique permet dvaluer les risques (ou les bnfices) dune prescription, de dterminer dans une situation donne lexamen qui apportera la meilleure information diagnostique. Nous voyons donc limportance de la matrise de loutil et de la dmarche statistique : Pour permettre les progrs de la connaissance mdicale : cest le domaine de la recherche clinique qui ne peut saccomplir convenablement (dfinition de la question, mise en place du protocole exprimental, analyse des rsultats) quen suivant une mthodologie statistique rigoureuse. Pour mieux connatre ltat de sant dune population, la frquence et la gravit dune pidmie (penser au SIDA), etc. Cette connaissance se fera partir dchantillons convenablement choisis et de calculs bass sur les outils de la statistique. Il sera alors possible de rechercher les stratgies de prvention les mieux adaptes, den valuer leur impact. Il sagit l des applications relevant de lpidmiologie et de la sant publique. Pour amliorer la pratique mdicale dans ses aspects dcisionnels, savoir choisir le meilleur examen (clinique ou para-clinique) pour aboutir le plus rapidement et le plus srement au diagnostic. Pour optimiser la thrapeutique, choisir le traitement le mieux adapt un patient donn (choix du mdicament, posologie, etc).
Lobjectif de ce cours est de vous fournir les bases indispensables permettant de comprendre les mthodes utilises, dinterprter correctement les rsultats de nouvelles recherches, et dadopter un mode de raisonnement qui soit mme daider la dcision dans lexercice de la mdecine. Plus prcisment nous tudierons successivement : 1. 2. 3. Les bases de calcul de probabilits, qui sont indispensables la comprhension et lutilisation des mthodes statistiques. La statistique descriptive qui permet de reprsenter et de quantifier la variabilit dune ou plusieurs grandeurs observes. La statistique inductive qui inclura les tests statistiques permettant de retenir une hypothse A plutt quune hypothse B partir de donnes exprimentales (comme dans le cas de la comparaison de deux traitements, o lhypothse A est que les deux traitements sont quivalents et lhypothse B est quils sont diffrents). Les applications des mthodes statistiques lpidmiologie, laide la dcision thrapeutique et diagnostique, et les applications aux essais thrapeutiques.
4.
14/175
2010 - 2011
Chapitre 1 Statistique(s) et Probabilit(s)

Nous commencerons par dfinir les termes et les concepts importants.
1.1 Statistique
Le terme statistique dsigne la fois un ensemble de donnes dobservations, et lactivit qui consiste en leur recueil, leur traitement et leur interprtation. Les termes statistique, ou statistiques (au pluriel) englobent ainsi plusieurs notions distinctes : 1. Dune part le recensement de grandeurs dintrt comme le nombre dhabitants dun pays, le revenu moyen par habitant, le nombre de sropositifs dans la population franaise. Nous voyons que la notion fondamentale qui se dgage de cette numration est celle de Population. Une population est un ensemble dobjets, dtres vivants ou dobjets abstraits (ensemble des mains de 5 cartes distribues au bridge...) de mme nature. La statistique en tant que science sintresse aux proprits des populations naturelles. Plus prcisment elle traite de nombres obtenus en comptant ou en mesurant les proprits dune population. Cette population dobjets doit en outre tre soumise une variabilit, qui est due de trs nombreux facteurs inconnus (pour les populations dobjets biologiques qui nous intressent ces facteurs sont les facteurs gntiques et les facteurs environnementaux). A ces deux acceptions du terme statistiques (au pluriel) il faut ajouter le terme statistique (au singulier) qui dfinit toute grandeur calcule partir dobservations. Ce peut tre la plus grande valeur de la srie statistique dintrt, la diffrence entre la plus grande et la plus petite, la valeur de la moyenne arithmtique de ces valeurs, etc.
2.
3.
1.2 Population et chantillon

On appelle population P un ensemble gnralement trs grand, voire infini, dindividus ou dobjets de mme nature. Tous les mdecins de France constituent une population, de mme que lensemble des rsultats possibles du tirage du loto. Une population peut donc tre relle ou fictive. Il est le plus souvent impossible, ou trop coteux, dtudier lensemble des individus constituant une population ; on travaille alors sur une partie de la population que lon appelle chantillon. Pour quun chantillon permette ltude de la variabilit des caractristiques dintrt de la popu-
2010 - 2011
15/175
lation, il faut quil soit convenablement slectionn. On parlera dchantillon reprsentatif si les individus le constituant ont t tirs au sort1 dans la population. Si par exemple on souhaite dterminer les caractristiques moyennes du poids et de la taille des prmaturs masculins on tirera au hasard un certain nombre de sujets parmi les naissances de prmaturs de lanne. Chaque individu, ou unit statistique, appartenant une population est dcrit par un ensemble de caractristiques appeles variables ou caractres. Ces variables peuvent tre quantitatives (numriques) ou qualitatives (non numriques) : quantitatives pouvant tre classes en variables continues (taille, poids) ou discrtes (nombre denfants dans une famille) qualitatives pouvant tre classes en variables catgorielles (couleurs des yeux) ou ordinales (intensit dune douleur classe en nulle, faible, moyenne, importante).
1.3 Statistique et probabilit

La thorie (ou le calcul) des probabilits est une branche des mathmatiques qui permet de modliser les phnomnes o le hasard intervient (initialement dveloppe propos des jeux de hasard, puis progressivement tendue lensemble des sciences exprimentales, dont la physique et la biologie). Cette thorie permet de construire des modles de ces phnomnes et permet le calcul : cest partir dun modle probabiliste dun jeu de hasard comme le jeu de ds que lon peut prdire les frquences dapparition dvnements comme le nombre de fois que lon obtient une valeur paire en jetant un d un grand nombre de fois. Les lments de calcul des probabilits indispensables la comprhension des statistiques seront traits dans la premire partie du cours. Sous jacente la notion de statistiques se trouve la notion de Population dont on souhaite connatre les proprits (plus prcisment les rgularits), permettant en particulier de savoir si deux populations sont identiques ou non. Ce cas est celui du cadre des essais thrapeutiques, o lon considre 2 populations (patients traits avec le mdicament A ou avec le mdicament B) dont on souhaite savoir si elles diffrent ou non (cest le cas le plus simple des essais cliniques). Pour ce faire il est ncessaire de modliser les populations, en utilisant des modles probabilistes. Un modle de ce type est par exemple de considrer que la taille des individus suit une distribution gaussienne. A partir de ce modle on peut calculer les proprits dchantillons ; cest ce quon appelle une dduction qui va du modle vers lexprience. A linverse, considrant un chantillon dune population on peut essayer de reconstruire le modle de la population. Cette dmarche est calque sur la dmarche scientifique habituelle. Le scientifique est capable, en utilisant les mathmatiques, de prdire le comportement dun modle donn (cest par exemple une loi de la physique) : cest la dmarche dductive. A linverse, observant des faits exprimen1. Nous reviendrons sur cette mthode permettant dobtenir un chantillon reprsentatif de la population tudie. Cela consiste en gros slectionner les individus sur la base dun tirage analogue celui qui consiste tirer des noms dans une urne qui contiendrait tous les noms possibles.
16/175
2010 - 2011
taux il va tenter de dgager des proprits gnrales du phnomne observ quil va en gnral reprsenter sous forme dun modle (toutes les lois de la physique et de la chimie sont des modles mathmatiques les plus gnraux possibles des faits exprimentaux) : cest la construction inductive de la thorie. Cette dmarche gnrale va plus loin car le modle permet de prdire des expriences non ralises. Si les prdictions ainsi ralises sont contradictoires avec les rsultats exprimentaux alors on pourra avec certitude rfuter le modle (on dit aussi quon la falsifi) ; dans le cas contraire on garde le modle mais on nest pas certain quil soit vrai . Autrement dit, lissue dun tel test on ne peut avoir de certitude que si on a trouv des lments permettant de rfuter le modle. Nous verrons dans la suite que cette approche se transpose exactement dans la dmarche statistique, en particulier dans le domaine des tests.
2010 - 2011
17/175
18/175
2010 - 2011
Chapitre 2 Rappels mathmatiques

2.1 Ensembles, lments
On appelle ensemble, toute liste ou collection dobjets bien dfinis, explicitement ou implicitement ; on appelle lments ou membres de lensemble les objets appartenant lensemble et on note : p A si p est un lment de lensemble A B est partie de A, ou sous ensemble de A, et lon note B A ou A B , si x B x A
On dfinit un ensemble soit en listant ses lments, soit en donnant la dfinition de ses lments : A = {1, 2, 3} X = {x : x est un entier positif}
Notations : la ngation de x A est x A est lensemble vide E est lensemble universel.
2.2 Oprations sur les ensembles

Soient A et B deux ensembles quelconques. Intersection Lintersection de A et B, note A B , est lensemble des lments x tels que x A et x B . Soit : A B = { x : x A et x B } Le terme et est employ au sens x A et B si x appartient la fois A et B
2010 - 2011
19/175
AB A E Cas particulier : si A B = , on dit que A et B sont disjoints. Runion La runion de A et B, note A B , est lensemble des lments x tels que x A ou x B . Soit : A B = { x : x A ou x B } Le terme ou est employ au sens x A ou B si x appartient A, ou B, ou A et B (car x A et B signifie x A et x B ). AB A E Complmentaire Le complmentaire de A est lensemble des lments de E qui nappartiennent pas A. CA = A = {x : x A} B B
CA
A E Diffrence La diffrence entre A et B, ou complmentaire de B relatif A, est lensemble des lments de A qui nappartiennent pas B. A B = C A B = { x : x B et x A }
C AB
A E B
20/175
2010 - 2011
Algbre des ensembles AA = A (A B ) C = A (B C) AB = BA A (B C) = (A B) (A C) A = A AE = E A CA = E AA = A (A B ) C = A (B C) AB = BA A (B C) = (A B) (A C) AE = A A = A CA =
CC A = A C(A B ) = CA CB
CE = , C = E C(A B) = CA CB
2.3 Ensembles finis, dnombrables, non dnombrables

Un ensemble est fini sil est vide () ou sil contient un nombre fini dlments ; sinon, il est infini : A = {a 1, a 2, a 3} est fini ; I = { x [0,1] } est infini. Un ensemble infini est dit dnombrable si on peut faire correspondre de faon unique chaque lment de lensemble un entier naturel et un seul : A = {n : n est un entier pair} est infini dnombrable. Un ensemble infini est non dnombrable dans le cas contraire. Dans la pratique, les seuls ensembles infinis non dnombrables que nous rencontrerons seront des intervalles de : { x [a,b] } ou des intervalles de 2 : { ( x, y ) : x [a,b], y [c,d] }.
2.4 Ensembles produits

Soient A et B deux ensembles ; lensemble produit de A et de B, not A B , est lensemble de tous les couples ordonns (a, b), avec a A et b B . Exemples :
2010 - 2011
21/175
A = {a, b, c} ; B = {1, 2} A B = { (a, 1), (a, 2), (b, 1), (b, 2), (c, 1), (c, 2) } est le plan cartsien, chaque lment de tant dfini par son abscisse et son ordonne : (a,b) b a
2.5 Familles densembles

Les lments dun ensemble peuvent eux-mmes tre des ensembles. On dit alors que ces ensembles font partie de la mme classe ou de la mme famille. Parties Soit un ensemble A quelconque. On appelle famille des parties de A lensemble des sousensembles de A. Exemple : A = {1, 2} P ( A ) = {, { 1 }, { 2 }, {1, 2}} Partition Une partition dun ensemble A est une subdivision de A en sous-ensembles disjoints dont la runion forme A. Notation Soit une famille densembles {Ai } = {A 1, A 2, ...., An , ....} qui peut tre finie ou non. On note : Ai = A1 A2 ... An ...
Ai
i
= A 1 A 2 ... A n ...
2.6 Autres rappels mathmatiques

2.6.1 Rappel sur les sommes
n
Soit {ai } une suite de termes ai . On note Proprits :
ai
i=1
= a 1 + a 2 + ... + a n .
22/175
2010 - 2011
1. 2.
( ai + bi )
i i
ai + bi
i i i
( kai ) = k ai
Si k est une constante (indpendante de i), elle peut tre sortie de la somme.
2.6.2 Rappel sur les intgrales

Dfinition Soit f une fonction relle. Lintgrale dfinie de cette fonction sur lintervalle [a,b] est laire sous la courbe de f sur lintervalle [a,b]. b Elle est note f ( x ) dx .
a
f( x)
a f ( x ) dx
b
a Proprits 1. 2. 3.
b
b
a ( f ( x ) + g ( x ) ) dx
b
a f ( x ) dx + a g ( x ) dx
b b
a kf ( x ) dx
b
= k f ( x ) dx
b a
a f ( x ) dx
b
a f ( x ) dx + c f ( x ) dx
c
Fonction primitive Soit f une fonction relle. Laire sous la courbe sur lintervalle ]-, x] varie lorsquon fait varier x de - +. Cette aire est une fonction F de x, appele fonction primitive de f. Elle est dfinie par : x F ( x ) = f ( ) d
Noter lutilisation de la variable dintgration . On peut utiliser nimporte quel nom de variable (il sagit dune variable muette), diffrent de la borne dintgration x. Proprits 1. Si F ( x ) =
f ( ) d , alors f ( x )
x
= dF ( x ) -------------dx
2.
Donc F se dduit de f par intgration, et f se dduit de F par drivation. b f ( x ) dx = F ( b ) F ( a )

a
2010 - 2011
23/175
24/175
2010 - 2011
Chapitre 3 Elments de calcul des Probabilits

3.1 Introduction
Le calcul des probabilits est la thorie mathmatique, donc fonde axiomatiquement, qui permet de modliser des phnomnes alatoires, ou non dterministes. De tels phnomnes sont bien reprsents par les jeux de hasard dont ltude a initi le calcul des probabilits. Considrons le cas du jeu de ds ; lorsquon jette un d on est certain quil va tomber sur la table (phnomne dterministe), mais on nest pas capable de prdire la valeur qui va sortir (phnomne alatoire). Un phnomne dterministe est un phnomne dont on peut prvoir le rsultat ; les lois de la physique classique sont des modles permettant de prdire le rsultat dune exprience donne. La loi dOhm permet de prdire la valeur de lintensit du courant connaissant la rsistance et la tension aux bornes. Les lois de la physique mettent en vidence une rgularit qui permet de prdire les rsultats dune exprience lorsquon contrle les causes. Les phnomnes alatoires exhibent un autre type de rgularit. Prenons le cas des lois de Mendel. Mendel tait un biologiste qui tudiait les rsultats du croisement de deux espces de plantes ; plus prcisment, il tudiait la transmission de caractres comme la couleur, laspect, etc. Une observation typique de rgularit dun nouveau type est dobserver que, sur une srie suffisamment grande de croisements de deux espces A et B, on observait par exemple, dans 1/4 des cas, les caractres de A, et dans 3/4 des cas, les caractres de B. Une telle rgularit frquentielle a donn lieu ce quon appelle les lois de Mendel. Cette rgularit permet de prdire la frquence dapparition dun phnomne, ce qui est plus faible que la prdiction dterministe. Ltude et la modlisation de tels phnomnes (la recherche de lois) est le champ dapplication du calcul des probabilits.
2010 - 2011
25/175
3.2 Exprience alatoire, ensemble fondamental et vnements

Exprience alatoire On sintresse ici aux seules expriences dont le rsultat nest pas prvisible, les expriences alatoires. Une exprience alatoire est aussi appele une preuve. Ensemble fondamental Pour une exprience alatoire donne, lensemble des rsultats possibles est appel lensemble fondamental, que nous noterons E dans la suite du cours. Chaque rsultat dexprience est un point de E ou un lment de E. Evnement Un vnement A est un sous ensemble de E, cest--dire un ensemble de rsultats. Lvnement {a}, constitu par un seul point de E, donc par un seul rsultat a E , est appel vnement lmentaire. Lensemble vide ne contient aucun des rsultats possibles : il est appel vnement impossible. Lensemble E contient tous les rsultats possibles : cest lvnement certain. Si E est fini, ou infini dnombrable, tout sous-ensemble de E est un vnement ; ce nest pas vrai si E est non dnombrable (ceci sort du cadre de ce cours). On note parfois lensemble de tous les vnements. Exemples 1. On jette un d et on observe le rsultat obtenu. Lensemble fondamental est form par les 6 rsultats possibles : E = {1, 2, 3, 4, 5, 6} Lvnement correspondant lapparition dun nombre pair est A = {2, 4, 6}, qui est bien un sous ensemble de E. Lvnement correspondant lapparition dun nombre premier est B = {1, 2, 3, 5}, et lvnement correspondant lapparition dun 3 est C = {3}. Dans lexemple prcdent E tait fini et donc dnombrable ; E peut tre infini dnombrable comme dans le cas suivant. On jette une pice de monnaie jusqu ce quon obtienne pile ; lensemble fondamental correspondant est la suite des nombres entiers E = {1, 2, 3, ..., n, ...} puisquon peut avoir un pile au bout dun jet, de 2 jets, de n jets, n tant aussi grand que lon veut. On vise avec une flchette une cible suffisamment grande ; si on admet que la flchette est trs fine, comme le serait un point de la gomtrie, lespace fondamental est la surface de la cible qui est constitue de points et donc infinie et non dnombrable.
2.
3.
26/175
2010 - 2011
3.3 Oprations sur les vnements

Les vnements peuvent se combiner entre eux pour former de nouveaux vnements. Si A et B sont deux vnements, les oprations de combinaison sont : 1. 2. 3. A B est lvnement qui se produit si A ou B (ou les deux) est ralis. Il est parfois not A + B ou A ou B. A B est lvnement qui se produit si A et B sont raliss tous les deux. Il est parfois not A B ou A et B. C A est lvnement qui se produit quand A nest pas ralis. On lappelle aussi ngation de A. Il est parfois not non A , ou A .
Evnements incompatibles Quand deux vnements A et B sont tels que A B = , ils ne peuvent tre raliss simultanment. On dit quils sexcluent mutuellement, ou quils sont incompatibles. Systme complet dvnements On dit que les vnements A 1, A 2, ..., An forment une famille complte si les Ai constituent une partition de E, cest--dire si : 1. 2. les vnements sont deux deux disjoints : ( i j ) ,( A i A j = ) ils couvrent tout lespace : A i = E
i Exemple Reprenons lexemple prcdent du jeu de ds : E = {1, 2, 3, 4, 5, 6}, A = {2, 4, 6}, B = {1, 2, 3, 5}, C = {3}. A B = { 1, 2, 3, 4, 5, 6 } = apparition dun nombre pair ou premier A B = { 2 } = apparition dun nombre pair et premier C C = { 1, 2, 4, 5, 6 } = apparition dun nombre autre que 3 A C = : A et C sexcluent mutuellement.
3.4 Rgles du calcul des probabilits

Soit un ensemble fondamental E. Nous introduisons une fonction Pr qui, tout vnement A, associe un nombre rel positif ou nul. Pr est dite fonction de probabilit, et Pr(A) est appele probabilit de lvnement A, si les conditions ou rgles suivantes sont satisfaits : 1. 2. 3. 4. Pr ( A ) 0 pour tout vnement A : une probabilit est positive ou nulle Pr ( E ) = 1 : la probabilit de lvnement certain est 1 ( A B = ) ( Pr ( A B ) = Pr ( A ) + Pr ( B ) ) : permet le calcul de la probabilit de la runion de deux vnements disjoints Soit un ensemble dnombrable (fini ou non) dvnements Ai deux deux disjoints
2010 - 2011
27/175
( A i A j = ), alors Pr ( A 1 A 2 ... ) = Pr ( A 1 ) + Pr ( A 2 ) + ... . Cette quatrime condition est proche de la troisime. Elle ne peut cependant pas sen dduire dans le cas dun ensemble dvnements infini dnombrable. Proprits importantes dduites des quatre conditions prcdentes : 1. Pr ( ) = 0 Soit A un vnement quelconque. A et sont videmment disjoints puisque A = ; donc Pr ( A ) = Pr ( A ) + Pr ( ) . Or A = A ; donc Pr ( A ) = Pr ( A ) . Do Pr ( ) = 0 . Pr ( A ) 1 A et son complmentaire C A sont disjoints, et leur runion forme E, de probabilit 1. Donc Pr ( E ) = 1 = Pr ( A C A ) = Pr ( A ) + Pr ( C A ) . Toute probabilit tant positive ou nulle, on obtient bien Pr ( A ) 1 . Pr ( C A ) = 1 Pr ( A ) A dmontrer en exercice, en notant que E = A C A . Si A B , alors Pr ( A ) Pr ( B ) . A dmontrer en exercice, en notant que B = A C B A .
2.
3. 4.
CB A
A Pr ( C A B ) = Pr ( A ) Pr ( A B ) A dmontrer en exercice, en remarquant que A = B
5.
CA B ( A B ) .
AB
CA B
A Pr ( A B ) = Pr ( A ) + Pr ( B ) Pr ( A B ) A dmontrer en exercice, en remarquant que ( A B ) = B
6.
CA B B .
CA B
A
28/175
2010 - 2011
3.5 Remarque
Alors que Pr ( ) = 0 , il existe des vnements non vides qui peuvent avoir une probabilit nulle. Dans le cas dun ensemble infini non dnombrable, un tel vnement nest pas ncessairement impossible : il est alors dit presque impossible . Exemple Considrons lexprience qui consiste choisir au hasard un point sur une feuille de papier quadrill avec une pointe de compas infiniment fine. La probabilit de lvnement piquer dans un carr donn a une certaine valeur (par exemple celle du rapport de la surface du carr avec celle de la feuille de papier) ; en revanche, si on rduit le carr un point (carr infiniment petit) la probabilit deviendra zro alors que lvnement (piquer dans ce carr si petit quil est devenu un point) nest pas impossible. De mme un vnement de probabilit 1 peut ne pas tre certain. Il est alors qualifi de presque certain .
3.6 Illustration de quelques ensembles probabiliss

3.6.1 Ensemble probabilis fini
Soit E = {a 1, a 2, ..., an } un ensemble fondamental fini. On probabilise cet ensemble en attribuant chaque point ai un nombre pi , probabilit de lvnement lmentaire {ai }, tel que : 1. 2. pi 0 p 1 + p 2 + ... + p n = 1
La probabilit dun vnement quelconque A est la somme des probabilits des ai quil contient : Pr ( A ) = p i Exemple On jette 3 pices de monnaie et on compte le nombre de face obtenu. Lensemble fondamental correspondant cette exprience est E = {0, 1, 2, 3} puisquon peut obtenir comme rsultat de lexprience : 0 fois face (3 fois pile ), 1 fois face (2 fois pile ), 2 fois face , ou 3 fois face . On probabilise cet ensemble fini en donnant une valeur p 0, p 1, p 2 et p 3 aux vnements {0}, {1}, {2} et {3} ; comme par exemple p 0 = 1/8, p 1 = 3/8, p 2 = 3/8 et p 3 = 1/8. Considrons lvnement A tel quon ait au moins 2 fois face , A = {a 2, a 3} : Pr(A) = p 2 + p 3 = 3/8 + 1/8 = 4/8 = 1/2
ai A
2010 - 2011
29/175
3.6.2 Ensemble fini quiprobable

Cest un ensemble fini probabilis tel que tous les vnements lmentaires ont la mme probabilit. On dit aussi quil sagit dun espace probabilis uniforme. E = {a 1, a 2, ..., an } et Pr({a 1}) = p 1, Pr({a 2}) = p 2, ..., Pr({an }) = pn avec p 1 = p 2 = ... = pn = 1/n Les jeux de hasard - ds, cartes, loto, etc. - entrent prcisment dans cette catgorie : jeu de ds : E = {1, 2, 3, 4, 5, 6} ; p 1 = p 2 = p 3 = p 4 = p 5 = p 6 = 1/6 jeu de cartes : E = {ensemble des cartes dun jeu de 52 cartes} ; pi = 1/52
Proprit Dans un ensemble fini quiprobable, la probabilit dun vnement A est gale au rapport du nombre de rsultats tel que A est vrai, sur le nombre dvnements de E. Remarque Quand on dit quon tire au hasard , on sous-entend que lensemble probabilis considr est quiprobable. Exemple On tire au hasard une carte dans un jeu de 52 cartes. Quelle est la probabilit de tirer un trfle ? Pr ( tirer un trfle ) = nombre de trfles = 13 = 1 ---------------------------------------------nombre de cartes 52 4 Quelle est la probabilit de tirer un roi ? nombre de rois 41Pr ( tirer un roi ) = ---------------------------------------- = ----- = ----nombre de cartes 52 13 Quelle est la probabilit de tirer un roi de trfle ? 1Pr ( tirer un roi de trfle ) = ----52 Remarque Le cas des ensembles finis quiprobables est le plus simple apprhender. Il faut insister sur le fait que lquiprobabilit nest quun cas particulier des ensembles probabiliss ; ce nest (de loin) pas le plus utile en mdecine.
3.6.3 Ensembles probabiliss infinis

3.6.3.1 Cas dnombrable
On a alors un ensemble fondamental de la forme E = {a 1, a 2, ..., an , ...} comme dans le cas fini. Cet ensemble fondamental est probabilis en affectant chaque lment ai une valeur relle pi telle que :
30/175
2010 - 2011
p i 0 et
pi
i=1
= 1.
La probabilit dun vnement quelconque est alors la somme des pi correspondant ses lments. Exemple 1 A = {a 25, a 31, a 43} Pr(A) = p 25 + p 31 + p 43 Exemple 2 Si on reprend lexprience consistant jeter une pice et compter le nombre de jets jusqu ce quon obtienne un rsultat pile (cest un espace infini dnombrable), on peut construire un espace probabilis en choisissant : 1p 1 = 1, p 2 = 1, ..., p n = ---- , ..., p = 0 --2 4 2n Remarque : Le choix des pi est arbitraire ; en ralit, il est justifi soit par des considrations a priori (dans le cas de lexprience prcdente on suppose que chaque jet constitue une exprience avec Pr(pile) = Pr(face) = 1/2 et que le rsultat dun jet ninflue pas sur le suivant). Il peut tre aussi estim ; cest le problme des statistiques qui, partir de nombreuses ralisations de lexprience, permet dapprocher les valeurs pi (ce point sera revu dans la suite du cours et constitue lobjet de lapproche statistique).
3.6.3.2 Cas dun ensemble probabilis infini non dnombrable

Pour illustrer ce cas, on peut prendre lexemple de la chute dun satellite en fin de vie (ce fut le cas, en octobre 1993 pour un gros satellite chinois dont on parla beaucoup dans la presse). Dans ltat actuel des connaissances sur lorbite de ce satellite, on nest pas capable de prdire lendroit de la chute ; lhypothse retenue est alors celle dun espace de probabilit uniforme. Dans ce cas, le satellite a la mme chance de tomber dans nimporte quelle parcelle du monde et on peut calculer la probabilit quil tombe sur Paris comme le rapport de la surface de Paris sur la surface du globe. Lorsquon se rapprochera de lchance, on pourra avoir des hypothses plus prcises, et on pourra prdire par exemple que le point de chute aura un maximum de probabilit dans une rgion, la probabilit autour de cette rgion tant dautant plus petite quon sloigne de ce maximum. Il sagit bien sr dun espace infini non dnombrable puisquon peut rduire (au moins par lesprit) la taille de llment de la rgion considre celle dun point. Des probabilits peuvent donc tre associes chaque rgion de taille non nulle, mais la probabilit dune chute en un point donn est nulle, puisque sa surface est nulle. Nous verrons dans la suite que les probabilits se calculent gnralement partir dune densit (de probabilit) associe chaque point : lorsque les points dune rgion ont une densit leve, la probabilit de chute dans cette rgion est leve.
2010 - 2011
31/175
32/175
2010 - 2011
Chapitre 4 Probabilit Conditionnelle ; Indpendance et Thorme de Bayes

4.1 Probabilit conditionnelle
Soient A et B deux vnements quelconques dun ensemble fondamental E muni dune loi de probabilit Pr. On sintresse ce que devient la probabilit de A lorsquon apprend que B est dj ralis, cest--dire lorsquon restreint lensemble des rsultats possibles E B. La probabilit conditionnelle de A, sachant que lvnement B est ralis, est note Pr(A/ B) et est dfinie par la relation suivante : Pr ( A B ) Pr ( A B ) = ------------------------Pr ( B ) Equation 1 : probabilit conditionnelle Dans cette quation, les probabilits des vnements A B et B doivent tre calcules sur tout lensemble fondamental E, comme si on ne savait pas que B sest dj ralis. Sinon, on obtient videmment Pr(B) = 1.
AB Figure 1 : probabilit conditionnelle Cette relation gnrale pour tout espace probabilis sinterprte facilement dans le cas o E est un 33/175
2010 - 2011
espace quiprobable (mais cette relation est vraie pour un espace non-quiprobable !). En notant A le nombre dlments de A : AB BAB Pr ( A B ) = -----------------, Pr ( B ) = ----- , Pr ( A B ) = ----------------E E B Pr(A/ B) traduit le rapport de la surface de A B sur la surface de B dans la figure 1. Toujours dans le cas o E est quiprobable, on a Pr ( A B ) = nombre de ralisations possibles de A et B en mme temps --------------------------------------------------------------------------------------------------------------------------------------------nombre de ralisations de B Cette interprtation de la probabilit conditionnelle, facile apprhender dans le cas dquiprobabilit, est la dfinition gnrale de la probabilit conditionnelle quon doit utiliser telle quelle, sans chercher une interprtation frquentiste dans tous les cas. Exemple On jette une paire de ds bien quilibrs (espace quiprobable). On observe une ralisation de lvnement {somme des ds = 6}. Quelle est la probabilit pour quun des deux ds ait donn le rsultat 2 ? B = {somme des deux ds = 6} A = {au moins un des deux ds donne 2} B = {(2, 4), (4, 2), (1, 5), (5, 1), (3, 3)} Nombre de ralisations de A B = {(2, 4), (4, 2)} = 2 AB Do Pr ( A B ) = ----------------- = 2 , alors que Pr ( A ) = 11 ( vrifier). -----B 5 36
4.2 Thorme de la multiplication

) Reprenons lquation 1, dfinition des probabilits conditionnelles : Pr ( A B ) = Pr ( A B ------------------------Pr ( B ) On en tire immdiatement Pr ( A B ) = Pr ( A B )Pr ( B ) = Pr ( B A )Pr ( A ) Equation 2 : thorme de la multiplication Lquation 2 peut se gnraliser facilement. Soient A 1, ..., An des vnements quelconques dun espace probabilis ; partir de lquation 2, on montre : Pr ( A 1 A 2 ... A n ) = Pr ( A 1 )Pr ( A 2 A 1 )Pr ( A 3 ( A 1 A 2 ) )...Pr ( A n ( A 1 A 2 ... A n 1 ) ) Exemple Une bote contient 10 articles dont 4 sont dfectueux. On tire 3 objets de cette bote. Calculer la probabilit pour que ces 3 objets soient dfectueux. Pr(1er dfectueux) = 4/10 Pr(2me dfectueux / 1er dfectueux) = 3/9
34/175
2010 - 2011
Pr(3me dfectueux / 1er et 2me dfectueux) = 2/8 Pr(1er et 2me et 3me dfectueux) = 4/103/92/8 = 1/30.
4.3 Diagramme en arbre

On considre une squence finie dexpriences dont chacune dentre elles a un nombre fini de rsultats possibles. Les probabilits associes aux rsultats possibles dune exprience dpendent du rsultat de lexprience prcdente ; il sagit de probabilits conditionnelles. Pour reprsenter cette squence, on utilise une reprsentation en arbre , le thorme prcdent permettant de calculer la probabilit de chaque feuille de larbre. Exemple On sait que les taux de russite au concours dans les trois CHU Piti, Saint Antoine et Broussais (luniversit Pierre et Marie Curie a longtemps comport ces 3 CHU) taient respectivement (donnes arbitraires) de 0,20 ; 0,15 ; et 0,10 (0,20 = Pr(Russite/Piti)) ; on sait que 1/4 des tudiants de Paris VI taient Saint Antoine, 1/4 Broussais et 1/2 la Piti. Quelle tait la probabilit quun tudiant de Paris VI soit reu au concours ?
0,15 Saint Antoine 1/4 1/2 Piti 0,85 0,20 0,80 1/4 Broussais 0,10 0,90
1 R Pr ( R Saint Antoine ) = 0, 15 -4 E 1 R Pr ( R Piti ) = 0, 20 -2 E R E 1 Pr ( R Broussais ) = 0, 10 -4
R signifie russite et E chec. Pr ( R ) = Pr ( R Saint Antoine ) + Pr ( R Piti ) + Pr ( R Broussais ) Pr(R) = 0,151/4 + 0,201/2 + 0,101/4 = 0,1625 La probabilit quun chemin particulier de larbre se ralise est, daprs le thorme de la multiplication, le produit des probabilits de chaque branche du chemin. Les chemins sexcluant mutuellement, la probabilit dtre reu est gale la somme des probabilits dtre reu pour tout chemin aboutissant un tat R (reu).
2010 - 2011
35/175
4.4 Thorme de Bayes

En reprenant lquation 2 page 34 (section 4.2), on obtient la formule de Bayes : ) Pr ( B A ) = Pr ( A B )Pr ( B ------------------------------------Pr ( A ) Equation 3 : formule de Bayes Le thorme est une forme dveloppe de cette formule que nous introduisons maintenant. Considrons des vnements A 1, ..., An tels quils forment une partition de lensemble fondamental E. Par dfinition, les Ai sexcluent mutuellement et leur union est E :
n
( i j ) ,( A i A j = ) ;
Ai = E
i=1
Soit B un vnement quelconque A1 B A2 A3 De E = A 1 A 2 ... A n et de B E = B , on tire B = B ( A 1 A 2 ... A n ) . Soit, par distributivit, B = ( B A 1 ) ( B A 2 ) ... ( B A n ) . En remarquant que les B A i sont exclusifs, puisque les Ai le sont, et en appliquant la 3me rgle du calcul des probabilits on obtient la formule dite des probabilits totales : Pr ( B ) = Pr ( B A 1 ) + Pr ( B A 2 ) + ... + Pr ( B A n ) Equation 4 : probabilits totales En appliquant le thorme de la multiplication : Pr ( B ) = Pr ( B A 1 )Pr ( A 1 ) + Pr ( B A 2 )Pr ( A 2 ) + ... + Pr ( B A n )Pr ( A n ) Pr ( B A i )Pr ( A i ) Or, par la forme simple du thorme de Bayes, on a Pr ( A i B ) = ---------------------------------------Pr ( B ) Do le thorme de Bayes : Pr ( B A i )Pr ( A i ) Pr ( A i B ) = --------------------------------------------------------------------------------------------------------------------------------------------------------Pr ( B A 1 )Pr ( A 1 ) + Pr ( B A 2 )Pr ( A 2 ) + ... + Pr ( B A n )Pr ( A n ) Equation 5 : thorme de Bayes
36/175
2010 - 2011
Exemple 1 Reprenons lexemple des rsultats au concours des tudiants de Paris VI. Comme prcdemment, soit R lvnement un tudiant de Paris VI est reu . On a, en notant C 1, C 2, C 3 les 3 anciens CHU Saint Antoine, Piti et Broussais respectivement : Pr(R) = Pr(R/C 1)Pr(C 1) + Pr(R/C 2)Pr(C 2) + Pr(R/C 3)Pr(C 3) [noter que cest la mme chose que la somme des probabilits des chemins de larbre, qui conduisent un succs] Le thorme de Bayes permet de rpondre la question duale. Au lieu de chercher la probabilit dobtenir un tudiant reu sachant quil venait dun CHU donn, on cherche la probabilit quun tudiant ait t inscrit un CHU donn sachant quil a t reu (probabilit des causes). Calculons la probabilit quun tudiant reu soit issu du CHU Piti-Salptrire. Pr ( R C 2 )Pr ( C 2 ) Pr ( C 2 R ) = ------------------------------------------------------------------------------------------------------------------------------------------------Pr ( R C 1 )Pr ( C 1 ) + Pr ( R C 2 )Pr ( C 2 ) + Pr ( R C 3 )Pr ( C 3 ) Avec Pr(C 1) = 0,25 ; Pr(C 2) = 0,50 ; Pr(C 3) = 0,25 ; et Pr(R/C 1) = 0,15 ; Pr(R/C 2) = 0,20 ; Pr(R/C 3) = 0,10. 0, 20 0, 50 Do Pr ( C 2 R ) = ------------------------------------------------------------------------------------------------------ = 0, 61 0, 15 0, 25 + 0, 20 0, 50 + 0, 10 0, 25 Ce qui signifie que, dans ce cas, la probabilit quun tudiant appartienne C 2, sil est reu, est plus grande que si lon ne sait rien (probabilit a priori Pr(C 2) = 0,50). Cette faon de calculer les probabilits des causes connaissant les effets est essentielle en mdecine. En effet, le problme du diagnostic peut tre pos en ces termes. Exemple 2 Considrons, pour illustrer notre propos, le problme du diagnostic dune douleur aigu de labdomen. Il sagit dun patient arrivant aux urgences pour un mal au ventre . Si lon ne sait rien dautre sur le patient (on na pas fait dexamen clinique ou complmentaire), on ne connat que les probabilits davoir tel ou tel diagnostic si on observe une douleur. Soient D 1, D 2 et D 3 les 3 diagnostics principaux (il y en a en fait au moins une douzaine) et exclusifs ; par exemple D 1 = appendicite, D 2 = perforation dulcre, D 3 = autres diagnostics. Soit un signe s 1 pour lequel on connat Pr(s 1/D 1), Pr(s 1/D 2), et Pr(s 1/D 3). Par exemple, s 1 serait prsence dune fivre 38,5C ; Pr(s 1/D 1) = 0,90 ; Pr(s 1/ D 2) = 0,30 ; et Pr(s 1/D 3) = 0,10. Ces probabilits peuvent tre estimes sur une population de patients en dnombrant le nombre de sujets ayant le diagnostic D 1 et prsentant le signe s 1. De mme, on peut connatre Pr(D 1), Pr(D 2) et Pr(D 3). Le problme diagnostique se pose comme celui de choisir par exemple le diagnostic le plus probable connaissant le signe s 1 ; pour ce faire, on calcule Pr(D 1/s 1), Pr(D 2/s 1), Pr(D 3/ s 1) et on retient le diagnostic qui a la plus grande probabilit : cest lapplication de lapproche bayesienne au problme de laide au diagnostic.
2010 - 2011
37/175
4.5 Indpendance entre vnements

On dit que deux vnements A et B sont indpendants si la probabilit pour que A soit ralis nest pas modifie par le fait que B se soit produit. On traduit cela par Pr(A / B) = Pr(A). ) Daprs la dfinition dune probabilit conditionnelle, Pr ( A B ) = Pr ( A B - , on tire la ------------------------Pr ( B ) dfinition : A et B sont indpendants si et seulement si Pr ( A B ) = Pr ( A )Pr ( B ) . La symtrie de cette dfinition implique quon a aussi bien Pr(A / B) = Pr(A) (A est indpendant de B) que Pr(B / A) = Pr(B) (B est indpendant de A) : lapparition dun des deux vnements ninflue pas sur lapparition de lautre. Note Ce qui est dfini prcdemment est lindpendance de deux vnements. Si on considre maintenant 3 vnements A, B, C, on dira que ces 3 vnements sont indpendants : 1. 2. sils sont indpendants 2 2 : A indpendant de B ; A indpendant de C ; et B indpendant de C et si Pr ( A B C ) = Pr ( A )Pr ( B )Pr ( C ) . Cette condition nest pas une consquence des prcdentes.
4.6 Indpendance, inclusion et exclusion de deux vnements

Considrons deux vnements A et B. 1. Si A B (A est inclus dans B) : si A est ralis, alors B aussi. B A
Alors Pr ( A B ) = Pr ( A ) . ) ) Do Pr ( B A ) = Pr ( A B - = 1 et Pr ( A B ) = Pr ( A B - = Pr ( A ) . -------------------------------------------------------------Pr ( A ) Pr ( B ) Pr ( B ) A et B ne sont pas indpendants.
38/175
2010 - 2011
2.
Si A B = (A et B sont exclusifs) : si A est ralis, B ne peut pas ltre. B A
Alors Pr ( A B ) = Pr ( ) = 0 . ) 0 Do Pr ( A B ) = Pr ( A B - = -------------- = 0 . ------------------------Pr ( B ) Pr ( B ) De mme A et B ne sont pas indpendants.
2010 - 2011
39/175
40/175
2010 - 2011
Chapitre 5 Evaluation de lintrt diagnostique des informations mdicales

5.1 Introduction
La tche essentielle des mdecins est de traiter les patients. Pour prescrire un traitement, il faut savoir, plus ou moins prcisment selon les cas, ce dont souffre le malade. Pour rsumer en un seul terme un processus physiopathologique complexe, les mdecins ont cr des concepts : les diagnostics. La recherche du diagnostic est donc la premire tape de la consultation clinique. Pour parvenir au diagnostic, le mdecin accumule des informations, dont certaines lui sont spontanment livres par le patient (le motif de la consultation, les symptmes), dautres doivent tre recherches mais sont disponibles immdiatement (les signes physiques), dautres enfin sont dobtention plus ou moins difficile et coteuse (les rsultats dexamens complmentaires). De nouvelles procdures diagnostiques apparaissent frquemment : on a vu, par exemple, lapparition des chographies, de la tomodensitomtrie (scanner), de lIRM, pour ne citer que le domaine de limagerie. Il nest bien sr pas question deffectuer tous les examens complmentaires sur tous les malades : il faut donc prciser les indications de ces examens, ce qui repose sur lvaluation de leur intrt diagnostique. Avant daborder la mthodologie de lvaluation, nous reviendrons sur certains concepts utiliss dans ce paragraphe.
5.1.1 Le diagnostic
On peut dfinir un diagnostic comme un concept rsumant ltat dun individu. Le terme de diagnostic est donc beaucoup moins prcis quon pourrait le penser premire vue : on peut en gnral fournir plusieurs diagnostics pour un mme tat physiopathologique, les termes diagnostiques utiliss dpendant de laspect privilgi. Parmi ces aspects, on peut citer : la symptomatologie 41/175
2010 - 2011
la physiopathologie et ltiologie la conduite thrapeutique
En pratique, la prcision du diagnostic dpendra souvent des possibilits thrapeutiques : par exemple, on ne recherchera pas, en gnral, le virus responsable dun syndrome grippal, surtout si on sattend ce que la maladie gurisse spontanment. Dun point de vue statistique, le diagnostic sera souvent considr comme une variable alatoire binaire : le patient souffre ou ne souffre pas de laffection considre, ou, exprim autrement, le diagnostic est vrai ou faux chez ce patient. Les valeurs possibles de la variable seront notes M et M (maladie prsente ou absente), ou D et D (diagnostic vrai ou faux).
5.1.2 Les informations mdicales

On divise lensemble des informations mdicales en signes cliniques et signes complmentaires. Les signes cliniques sont diviss en signes fonctionnels ou symptmes, dcrits par le malade (spontanment ou par linterrogatoire) et signes physiques, recherchs par le mdecin. Les signes complmentaires peuvent tre biologiques ou radiologiques. Leur intrt peut tre : diagnostique (caractre malin ou bnin dune tumeur) thrapeutique (localisation prcise dune tumeur) pronostique (extension ganglionnaire)
Dun point de vue statistique, ces signes peuvent tre reprsents par des variables binaires (prsence ou absence dun nodule sur une image) ou continues (cholestrolmie). Nous considrons ici le seul cas dun signe binaire, prsent (not S) ou absent (not S ). Dans la suite, on considre que la prsence du signe est vocateur de la maladie M. Si linformation est de type continu, on se ramne au cas binaire par lintroduction dun seuil : dun ct du seuil, les valeurs sont dites normales, et le signe binaire est absent ; de lautre ct du seuil, les valeurs sont dites pathologiques, et le signe binaire est prsent.
5.1.3 Situation exprimentale et estimation

Quand on cherche valuer lintrt diagnostique dun signe pour une affection, on recherche le signe chez des individus prsentant ou non laffection considre. Deux situations exprimentales sont envisager : un chantillon reprsentatif dune population est constitu. On pourra estimer, partir de cet chantillon, toutes les probabilits dvnements par les frquences observes correspondantes (cette manire de faire sera revue plus tard, page 74) ; deux chantillons sont constitus, lun reprsentatif des individus pour lesquels le diagnostic est vrai, lautre reprsentatif des individus pour lesquels il est faux. Cette manire de procder est souvent la seule possible en pratique, surtout quand la maladie considre est rare. Il faut remarquer, cependant, quon ne peut plus estimer nimporte quelle probabilit par la frquen-
42/175
2010 - 2011
ce observe correspondante ; ce point sera dvelopp plus loin dans ce chapitre. Remarque : nous utilisons actuellement le mot estimation dans le sens dapproximation de la vraie valeur. Nous donnerons des dfinitions plus rigoureuses dans le chapitre 10 page 95.
5.2 Les paramtres de lvaluation

5.2.1 Sensibilit et spcificit
La sensibilit dun signe pour une maladie est la probabilit que le signe soit prsent si le sujet est atteint de la maladie considre. Il sagit donc de la probabilit conditionnelle quon peut noter : Sensibilit = Se =Pr(S / M) Un test diagnostic est donc dautant plus sensible que les sujets atteints de la maladie prsentent plus souvent le signe S. La spcificit dun signe pour une maladie est la probabilit que le signe soit absent si le sujet nest pas atteint de la maladie. De manire similaire, on a : Spcificit = Sp = Pr ( S M ) Un test diagnostic est donc dautant plus spcifique que les sujets indemnes de la maladie prsentent moins souvent le signe S. Pour un examen parfait , cest--dire neffectuant aucune erreur, les valeurs de la sensibilit et de la spcificit sont gales 1. Si la prsence du signe est dfinie par un seuil de positivit , on observe que ces deux paramtres varient en sens inverse lorsquon fait varier ce seuil. Ceci explique quun seul de ces deux paramtres ne suffise pas valuer un examen. Supposons par exemple quon sintresse au signe temprature vis vis de la grippe. On considre que le signe est prsent si la temprature dpasse un certain seuil, par exemple 39C. Si on augmente le seuil pour le porter 40C, la probabilit de dpasser le seuil (chez les sujets gripps) va diminuer, donc la sensibilit diminue. En revanche, la probabilit dtre en dessous du seuil (chez les sujets non gripps) va augmenter, donc la spcificit augmente. Un test diagnostique de bonne sensibilit conduit un rsultat positif chez presque tous les malades. Il est donc utilisable pour un dpistage. Si le test possde une bonne spcificit, il conduit un rsultat ngatif chez presque tous les non-malades. Il pourrait donc tre utilis en tant quexamen de confirmation du diagnostic. Ces considrations sont bien sr schmatiques, dautres lments intervenant dans lvaluation, 43/175
2010 - 2011
comme la frquence de la maladie (prvalence), les risques lis la maladie, lexamen, lexistence et les performances dautres examens concurrents...
5.2.2 Valeurs prdictives

En pratique, quand un mdecin reoit le rsultat dun examen complmentaire, positif ou ngatif, il ne sait pas si le patient souffre de laffection quil cherche diagnostiquer ou non, et les probabilits qui lintressent sexpriment de la manire suivante : quelle est la probabilit de prsence de la maladie M chez ce patient, sachant que lexamen a donn un rsultat positif (ou ngatif) ? Ces probabilits sont appeles valeurs prdictives. Plus prcisment, on a : la valeur prdictive positive dun signe pour une maladie est la probabilit que le sujet soit atteint de la maladie si le signe est prsent ; la valeur prdictive ngative dun signe pour une maladie est la probabilit que le sujet soit indemne de la maladie si le signe est absent.
On peut noter ces paramtres : VPP = Pr ( M S ) VPN = Pr ( M S ) Comme les sensibilit et spcificit, les valeurs prdictives positive et ngative varient en sens inverse, et doivent donc tre considres simultanment. Les valeurs prdictives peuvent sexprimer en fonction du couple sensibilit - spcificit, et de la frquence de la maladie dans la population (cette probabilit Pr(M) sappelle la prvalence de la maladie). Il suffit dutiliser le thorme de Bayes : Pr ( S M )Pr ( M ) VPP = Pr ( M S ) = ----------------------------------------------------------------------------------Pr ( S M )P ( M ) + Pr ( S M )Pr ( M ) Se Pr ( M ) = ------------------------------------------------------------------------------------------Se Pr ( M ) + ( 1 Sp ) ( 1 Pr ( M ) ) Pr ( S M )Pr ( M ) VPN = Pr ( M S ) = ----------------------------------------------------------------------------------Pr ( S M )P ( M ) + Pr ( S M )Pr ( M ) Sp ( 1 Pr ( M ) ) = ------------------------------------------------------------------------------------------( 1 Se ) Pr ( M ) + Sp ( 1 Pr ( M ) )
5.2.3 Comparaison des deux couples de paramtres

En situation clinique, on a vu que les valeurs prdictives correspondent aux proccupations des mdecins, et elles pourraient sembler les meilleurs paramtres dvaluation. Pourtant, en ralit, cest la sensibilit et la spcificit qui sont le plus souvent utilises pour valuer les examens com-
44/175
2010 - 2011
plmentaires. La raison en est la suivante : la sensibilit dun examen pour une affection repose sur la dfinition de la population des malades , et est donc caractristique de la maladie et du signe. En particulier, elle nest pas susceptible de varier dun centre lautre (dun service hospitalier spcialis une consultation de mdecin gnraliste, par exemple). Le mme raisonnement peut sappliquer la spcificit, si on considre quelle repose aussi sur la dfinition de la maladie. Les valeurs prdictives, au contraire, sont fonctions des proportions respectives de malades et de non-malades dans la population (de la prvalence de la maladie). Or ces proportions sont dpendantes des centres considrs ; les valeurs prdictives des examens varient donc dun centre lautre pour une mme maladie, ce qui explique quelles sont moins utilises comme paramtre dvaluation, mme si elles sont intressantes connatre pour un centre donn.
5.2.4 Choix dun seuil : courbes ROC

Lorsquun examen fournit des rsultats de type continu, il faut dterminer le meilleur seuil entre les valeurs pathologiques et les valeurs normales. Lidal serait dobtenir une sensibilit et une spcificit gales 1. Ce nest gnralement pas possible, et il faut tenter dobtenir les plus fortes valeurs pour ces deux paramtres, sachant quils varient en sens inverse. On saide pour ce choix dun outil graphique, la courbe ROC (Receiver Operating Characteristics). Une courbe ROC est le trac des valeurs de la sensibilit Se en fonction de 1-Sp.
2010 - 2011
45/175
Cet exemple (tir du livre de A.J. Valleron) montre 3 courbes ROC correspondant 3 examens diffrents. La courbe A est celle obtenue pour lexemple prcdent de la temprature et de la grippe. Le point de la courbe le plus proche du coin suprieur gauche du carr contenant la courbe (ici Se = 0,65, Sp = 0,75, et temprature = 39C)) est celui qui permet dobtenir un bon compromis entre sensibilit et spcificit (le coin suprieur gauche correspond Se = Sp = 1). En ralit, on ne choisira pas toujours ce point, car il faut aussi tenir compte des cots des erreurs diagnostiques : il peut par exemple tre beaucoup plus grave de ne pas dtecter une maladie, que de traiter tort. La courbe B correspond un examen qui napporte rien au diagnostic, puisque les variables signe et maladie sont ici indpendantes : Se = Pr ( S M ) = 1 Sp = Pr ( S M ) La courbe C correspond un bon critre diagnostic pour lequel on peut obtenir simultanment des valeurs leves de sensibilit et de spcificit.
46/175
2010 - 2011
5.3 Estimation des paramtres de lvaluation

5.3.1 Un chantillon reprsentatif
5.3.1.1 Les donnes
Quand on a un chantillon reprsentatif dune population, on peut rsumer les donnes de lexprience par un tableau de contingence 22, sur lequel sont indiqus les effectifs suivants : VP (Vrais Positifs) : ce sont les individus malades (M) et chez lesquels le signe est prsent {S} ; FP (Faux Positifs) : la maladie est absente { M } et le signe est prsent {S} ; FN (Faux Ngatifs) : la maladie est prsente {M) et le signe est absent { S } ; VN (Vrais Ngatifs) : la maladie est absente { M } et le signe est absent { S }. Tableau 1 M S S VP FN M FP VN
5.3.1.2 Estimation de la sensibilit et de la spcificit

Par dfinition, sensibilit = Se = Pr(S / M) On estime cette probabilit conditionnelle par le rapport des effectifs correspondants sur le tableau de contingence observ : VP Se -------------------VP + FN Note : On notera de manire identique, suivant un usage tabli, les paramtres vrais, qui sont des probabilits conditionnelles, et leurs estimations, qui sont des rapports deffectifs observs. VN Spcificit = Sp = Pr ( S M ) -------------------VN + FP Par exemple, calculons les estimateurs de ces paramtres dans le cas o on cherche diagnostiquer un diabte partir dun signe de la forme la glycmie mesure jeun est suprieure ... ). Pour deux seuils donns S1 et S2, on obtient les tableaux de contingence ci-dessous : a. Seuil S1 47/175
2010 - 2011
Tableau 2 M S S b. Seuil S2 Tableau 3 M S S 50 50 M 25 475 90 10 M 200 300
On peut estimer les sensibilits et spcificits correspondant aux deux seuils par : Se1 90 / 100 = 0,90 ; Sp1 300 / 500 = 0,60 Se2 50 / 100 = 0,50 ; Sp2 475 / 500 = 0,95. On retrouve ici le fait que sensibilit et spcificit varient en sens inverse. On constate dautre part que le seuil S1 correspond une bonne sensibilit (lexamen est positif chez 90 % des malades), mais une spcifit mdiocre (lexamen est positif chez 40 % des nonmalades ) ; il peut donc tre utilis pour un examen de dpistage, le diagnostic devant tre confirm ultrieurement par un examen plus spcifique. Le seuil S2, en revanche, induit un test dune sensibilit qui pourrait tre juge trop faible pour un examen de dpistage. En revanche, sa spcificit peut tre acceptable pour un examen de confirmation.
5.3.1.3 Estimation des valeurs prdictives

Les estimations sobtiennent partir du mme tableau des donnes : VP VPP = Pr ( M S ) ------------------VP + FP VN VPN = Pr ( M S ) --------------------VN + FN Par exemple, pour les tableaux de contingence vus ci-dessus, on a : VPP1 90 / 290 = 0,31 ; VPN1 300 / 310 = 0,97 VPP2 50 / 75 = 0, 67 ; VPN2 475 / 525 = 0,90 Ces rsultats peuvent sinterprter ainsi : en affirmant le diagnostic sur la base de la positivit de lexamen, on se trompe dans 69 % des cas avec le seuil S1 et 33 % des cas avec le seuil S2 ; et en liminant le diagnostic en constatant la ngativit de lexamen, on se trompe dans 3 % des cas avec 48/175
2010 - 2011
le seuil S1 et 10 % des cas avec le seuil S2.
5.3.2 Deux chantillons reprsentatifs

Linconvnient du schma exprimental ci-dessus (un seul chantillon) est que, si la maladie est peu frquente ou rare, il faut constituer un chantillon de trs grande taille pour obtenir un nombre suffisant de malades. Les non-malades, au contraire, seront trop nombreux. Cest pourquoi on constituera souvent, en pratique, deux chantillons, un chantillon de malades et un chantillon de non-malades. On peut encore rsumer les rsultats par un tableau comme celui du tableau 1 page 47, mais ce tableau doit tre interprt diffremment, les proportions respectives des malades et non-malades ne correspondant plus la ralit : le rapport entre le nombre de malades et le nombre de non-malades du tableau dpend des tailles respectives choisies pour les deux chantillons, et na aucun lien avec la frquence de la maladie dans la population (la prvalence). On peut toujours estimer la sensibilit et la spcificit comme ci-dessus. En effet, la sensibilit par exemple est estime uniquement partir de VP et FN, donc de la rpartition des malades entre ceux qui prsentent le signe et les autres. Or lchantillon des malades respecte cette rpartition. En revanche, lestimation prcdente des valeurs prdictives utilisait la rpartition entre malades et non malades, que le tableau actuel ne reprsente pas correctement. Lestimation des valeurs prdictives reste cependant possible condition de connatre la prvalence de la maladie Pr(M). On utilisera les formules introduites section 5.2.2 page 44 : Se Pr ( M ) VPP = ------------------------------------------------------------------------------------------Se Pr ( M ) + ( 1 Sp ) ( 1 Pr ( M ) ) Sp ( 1 Pr ( M ) ) VPN = ------------------------------------------------------------------------------------------( 1 Se ) Pr ( M ) + Sp ( 1 Pr ( M ) ) On remplacera dans ces formules la sensibilit et la spcificit par leurs estimations.
2010 - 2011
49/175
50/175
2010 - 2011
Variables alatoires
Chapitre 6 Variables alatoires

6.1 Dfinition dune variable alatoire
Considrons un ensemble fondamental E correspondant une certaine exprience. Les lments de E, rsultats possibles de lexprience, ne sont gnralement pas des nombres. Il est cependant utile de faire correspondre un nombre chaque lment de E, en vue de faire ensuite des calculs. Pour un jet de d, il semble naturel de faire correspondre la face obtenue par le jet, le nombre de points quelle porte, mais ce nest pas une obligation. Si on jette 2 ds, on sintressera par exemple la somme des points obtenus. Pour une carte jouer, il faut convenir dune valeur pour chaque carte. Une variable alatoire X, sur un ensemble fondamental E, est une application de E dans : tout rsultat possible de lexprience ( tout lment de E), la variable alatoire X fait correspondre un nombre. Lorsque E est fini ou infini dnombrable, toute application de E dans est une variable alatoire. Lorsque E est non dnombrable, il existe certaines applications de E dans qui ne sont pas des variables alatoires. En effet, la dfinition rigoureuse dune variable alatoire X impose que tout intervalle de soit limage dun vnement de E par lapplication X. Cette condition est vrifie pour toute application X si E est fini ou dnombrable, puisque toute partie de E est un vnement. Ce nest plus vrai si E est non dnombrable. Heureusement, les applications choisies naturellement sont des variables alatoires. On parle de variable alatoire discrte lorsque la variable est une application de E dans un sousensemble discret de , le plus souvent N ou une partie de N. On parle sinon de variable alatoire continue. Pour un nombre rel a donn, lvnement constitu de tous les rsultats dexprience tels que X() = a est not [X() = a], ou, en abrg, X = a. Pour deux nombres rels a et b (a b), lvnement constitu de tous les rsultats dexprience tels que a X() b est not [a X() b] ou, en abrg, a X b. Si X et Y sont des variables alatoires dfinies sur le mme ensemble fondamental E, et si k est une constante, on peut montrer que les fonctions suivantes sont aussi des variables alatoires : (X + Y)() = X() + Y() (X + k)() = X() + k (kX)() = kX() (XY)() = X() Y() pour tout lment de E.
2010 - 2011
51/175
Variables alatoires
6.2 Variables alatoires finies

Considrons maintenant le cas le plus simple dune variable alatoire finie, que nous gnraliserons dans un second temps une variable alatoire infinie dnombrable, puis continue. Soit X une variable alatoire sur un ensemble fondamental E valeurs finies : X(E) = {x 1, x 2, ..., xn }. X(E) devient un ensemble probabilis si lon dfinit la probabilit Pr(X = xi ) pour chaque xi , que lon note pi . Lensemble des valeurs pi = Pr(X = xi ) est appel distribution ou loi de probabilit de X. Puisque les pi sont des probabilits sur les vnements {X=x 1, X=x 2, ..., X=xn }, on a :
n
( i ), p i 0 et
pi
i=1
= 1.
6.2.1 Reprsentation dune loi de probabilit finie

On peut reprsenter la loi de probabilit pi par une table : x1 p1 Ou par un diagramme en btons : pi x2 p2 ........ ........ xn pn
x1
x2
x3
x4
xn
xi
o la hauteur du bton positionn en xi a pour valeur pi .
6.2.2 Esprance mathmatique dune variable finie

Lesprance mathmatique cherche traduire la tendance centrale de la variable alatoire. Il sagit dune moyenne o chacune des valeurs xi intervient dautant plus que sa probabilit est importante, cest--dire dun barycentre ou dun centre de gravit. On dfinit alors la moyenne thorique (parfois aussi appele vraie), ou esprance mathmatique dune variable X par
n
X = E ( X ) =
xi pi
i=1
= x 1 p 1 + x 2 p 2 + ... + x n p n .
52/175
2010 - 2011
Variables alatoires
X peut tre note sil ny a pas de confusion possible. Exemple On considre lexprience qui consiste jeter deux ds parfaitement quilibrs. Lespace fondamental est constitu par lensemble des couples ordonns E = {(1, 1), (1, 2), (1, 3), ..., (6, 6)} Cest un espace quiprobable (tous les couples rsultats lmentaires du tirage sont quiprobables). Considrons la variable alatoire dfinie comme suit : soit r = (a, b) un lment quelconque de E ; on pose X(r) = X(a, b) = max(a, b) (la valeur de X(r) est gale a si a > b et b dans le cas contraire). X est une variable alatoire sur E avec X(E) = {1, 2, 3, 4, 5, 6}, et la loi de probabilit p 1 = Pr(X = 1) = Pr({(1, 1)}) = 1/36 ; p 2 = Pr(X = 2) = Pr({(1, 2), (2, 1), (2, 2)}) = 3/36 ; p 3 = 5/36 ; p 4 = 7/36 ; p 5 = 9/36 ; p 6 = 11/36. Soit : xi pi 1 1/36 2 3/36 3 5/36 4 7/36 5 9/36 6 11/36
E(X) = 1/36 + 6/36 + 15/36 + 28/36 + 45/36 + 66/36 = 161/36 4,47 pi
1 Thormes 1.
E(X)
xi
2.
Soit X une variable alatoire et k une constante relle. On a : E(kX) = kE(X) E(X + k) = E(X) + k Soient X et Y deux variables alatoires dfinies sur le mme espace fondamental E. On a : E(X + Y) = E(X) + E(Y)
2010 - 2011
53/175
Variables alatoires
On en dduit que pour n variables alatoires Xi , dfinies sur le mme espace fondamental : n n = E X i E ( Xi ) i = 1 i=1 (lesprance de la somme est la somme des esprances). Exemple Considrons lexprience du jeu de ds o E = {1, 2, 3, 4, 5, 6} uniforme (quiprobable). Soit X(E) une premire variable alatoire dfinie par X(E) = {1, 2, 3, 4, 5, 6} et pX 1 = pX 2 = pX 3 = pX 4 = pX 5 = p X6 = 1/6 E(X) = (1 + 2 + 3 + 4 + 5 + 6) / 6 = 21/6 Soit Y(E) une seconde variable alatoire telle que Y(E) = 1 si le chiffre tir est impair Y(E) = 2 si le chiffre tir est pair. Donc Y(E) = {1, 2} pY 1 = Pr({1, 3, 5}) = 1/2 pY 2 = Pr({2, 4, 6}) = 1/2 E(Y) = 1/2 + 1 = 1,5 Calculons maintenant la loi de (X + Y)(E) (X + Y)(r) = X(r) + Y(r) Pour r = 1, (X + Y)(1) = X(1) + Y(1) = 1 + 1 = 2 Pour r = 2, (X + Y)(2) = X(2) + Y(2) = 2 + 2 = 4 Pour r = 3, (X + Y)(3) = X(3) + Y(3) = 3 + 1 = 4 Pour r = 4, (X + Y)(4) = X(4) + Y(4) = 4 + 2 = 6 Pour r = 5, (X + Y)(5) = X(5) + Y(5) = 5 + 1 = 6 Pour r = 6, (X + Y)(6) = X(6) + Y(6) = 6 + 2 = 8 On a donc (X + Y)(E) = {2, 4, 6, 8} et Pr((X + Y) = 2) = 1/6, Pr((X + Y) = 4) = 2/6, Pr((X + Y) = 6) = 2/6, Pr((X + Y) = 8) = 1/6 E(X + Y) = 2/6 + 8/6 + 12/6 + 8/6 = 30/6 Or on retrouve bien ce rsultat en utilisant E(X) + E(Y) = 21/6 + 3/2 = 30/6. Remarque Lorsquon doit calculer lesprance dune fonction g(X), il faut tudier la variable Y = g(X) dont les valeurs sont y 1 = g(x 1), y 2 = g(x 2), ..., yn = g(xn ). Alors : Pr(Y = yi ) = Pr[g(X) = g(xi )] Si g est une fonction monotone, on a g(X) = g(xi ) X = xi Do Pr(Y = yi ) = Pr(X = xi ) = pi n n Donc : E ( g ( X ) ) = E ( Y ) = y i Pr ( Y = y i ) = g ( x i )p i On montre que ce rsultat reste valide, mme si g nest pas monotone. Par exemple, si lon doit calculer E(X 2), on considre la variable Y = X 2 dont les valeurs sont y 1 = x 12, y 2 = x 22, ..., yn = xn 2. Alors :
i=1 i=1
54/175
2010 - 2011
Variables alatoires
E(X ) = E(Y) =
yi Pr ( Y = yi )
i=1
xi pi
2 i=1
On constate que pour calculer lesprance dun carr, il faut lever les valeurs x i au carr, mais pas les probabilits pi associes.
6.2.3 Variance et cart-type dune variable finie

Aprs avoir traduit la tendance centrale par lesprance, il est intressant de traduire la dispersion autour de lesprance par une valeur (la variance ou lcart-type). 2 La variance (vraie ou thorique) de X, note var(X) ou X , est dfinie par : X = var ( X ) = E ( ( X X ) ) o X = E ( X ) Lcart-type de X, not ( X ) ou X , est dfini par ( X ) = X = X peut tre note sil ny a pas de confusion possible. Remarques : 1. On dmontre facilement que var ( X ) = E ( X ) X n n En effet : 2 2 2 2 E ( ( X X ) ) = ( x i X ) p i = ( x i 2 X x i + X )p i
i=1 n n 2 xi pi i=1 2 X n 2 2 2 2
var ( X ) .
E ( ( X X ) ) = E ( ( X X ) ) = 2. 3.
2 2
i=1 n i=1
2 X x i p i +
i=1 2 2
pi
i=1 2 2
xi pi 2X + X
2
= E ( X ) X
X 0 , par dfinition Soit X une variable alatoire de moyenne et de variance 2. X On dfinit la variable centre rduite par Y = ------------ .
4.
On peut montrer facilement (faites lexercice) que E(Y) = 0 et var(Y) = E(Y 2) = 1. Si a est une constante, on montre que var(X + a) = var(X) et var(aX) = a 2var(X).
6.2.4 Loi de probabilit produit

Soient X et Y deux variables alatoires finies sur le mme espace fondamental E ayant pour image respective : X(E) = {x 1, x 2, ..., xn }
2010 - 2011
55/175
Variables alatoires
Y(E) = {y 1, y 2, ..., ym }. Considrons lensemble produit X(E)Y(E) = {(x 1, y 1), (x 1, y 2), ..., (xn , ym )} (ensemble des couples (xi , yj ) pour i = 1, ..., n et j = 1, ..., m) Cet ensemble produit peut tre transform en ensemble probabilis si on dfinit la probabilit du couple ordonn (xi , yj ) par Pr ( [ X = x i ] [ Y = y j ] ) que lon note p xi,yj . Cette loi de probabilit de X, Y est appele distribution jointe de X et Y. X x1 p x1,y1 p x1,y2 x2 p x2,y1 x3 xn
.....
i = 1, n
xi
y1 y2 ..... ym
p y1 p y2
p x1,ym yj p x1
m
j = 1, m n
p x2
Les probabilits p xi =
pxi, yj et pyj
j=1
pxi, yj
i=1
sont souvent appeles lois de probabilit marginales de X et de Y. Il sagit simplement de leurs distributions. La loi de probabilit p xi,yj possde, bien entendu, les proprits dune loi : 1. 2. p xi, yj 0 ,i, j
n m
pxi, yj
i = 1j = 1
= 1
Soient X et Y les esprances de X et de Y, X et Y leurs cart-types. On montre facilement que var(X + Y) = X 2 + Y 2 + 2cov(X, Y), o cov(X, Y) reprsente la covariance de X et Y et est dfinie par :
n m
cov ( X, Y ) = E [ ( X X ) ( Y Y ) ] =
( xi X ) ( yj Y )pxi, yj
i = 1j = 1
De mme que pour la variance (voir section 6.2.3), on a : cov(X, Y) = E(X Y) - X Y La covariance de X et Y se note aussi XY . Une notion drive de la covariance est celle de corrlation entre X et Y, dfinie par : cov ( X, Y ) ( X, Y ) = ----------------------X Y 56/175
Biostatistique - Carrat, Mallet, Morice 2010 - 2011
Variables alatoires
On peut vrifier que (X, Y) = (Y, X) 1 ( X, Y ) 1 (X, X) = 1 (aX + b, cY + d) = (X, Y) si a et c non nuls
6.2.5 Variables alatoires indpendantes

Soient X et Y deux variables alatoires sur un mme espace fondamental E. X et Y sont indpendantes si tous les vnements X = xi et Y = yj sont indpendants : Pr ( [ X = x i ] [ Y = y j ] ) = Pr ( X = x i ) Pr ( Y = y j ) pour tous les couples (i, j). Autrement dit, si p xi et p yj sont les distributions respectives de X et Y, les variables sont indpendantes si et seulement si on a p xi,yj = p xi p yj (la probabilit conjointe est gale au produit des probabilits marginales). Il en dcoule les proprits importantes suivantes : si X et Y sont indpendantes, on a (attention la rciproque nest pas toujours vraie) 1. 2. 3. E(XY) = E(X)E(Y) var(X + Y) = var(X) + var(Y) cov(X, Y) = 0 et (X, Y) = 0
6.2.6 Fonction de rpartition

Si X est une variable alatoire, on dfinit sa fonction de rpartition F(x) par F ( x ) = Pr ( X x ) pour tout x Si X est une variable alatoire discrte on a F ( x ) = Pr ( X = x i ) = p i Dans tous les cas, F(x) est une fonction monotone croissante, cest--dire F ( a ) F ( b ) si a b De plus lim F ( x ) = 0 et lim F ( x ) = 1
x x xi x xi x
2010 - 2011
57/175
Variables alatoires
Cet exemple montre la distribution de probabilits dune variable alatoire finie et la fonction de rpartition correspondante. La fonction de rpartition est une fonction en escalier. Les discontinuits se produisent pour les valeurs x possdant des probabilits non nulles. Pour chacune de ces valeurs de x, la hauteur dune discontinuit est la probabilit de x.
6.3 Variables infinies dnombrables (hors programme)

Tout ce qui a t vu prcdemment dans le cas o E est fini (E = {s 1, s 2, ..., sn }) se gnralise (nous ne verrons pas les dmonstrations) au cas o E est infini dnombrable ; on aura par exemple
58/175
2010 - 2011
Variables alatoires
X = E ( X ) =
xi pi
i=1
La somme converge linfini vers E(X), toutes les autres proprits sont conserves, les sommes devenant des sries.
6.4 Variables alatoires continues

La gnralisation au continu est dlicate et mme difficile si on ne dispose pas doutils mathmatiques hors du champ de ce cours. Nous nous contenterons de procder par analogie avec le cas discret. Une variable alatoire X dont lensemble image X(E) est un intervalle de est une variable alatoire continue (continue par opposition discrte, cf supra). Rappelons que, par dfinition dune variable alatoire, a X b est un vnement de E dont la probabilit est bien dfinie. On dfinit la loi de probabilit de X, ou distribution de X, laide dune fonction f(x), appele densit de probabilit de X, telle que
a f ( x ) dx
1.
= Pr ( a X b )
Remarques Si f est donne, la probabilit Pr ( a X b ) est la surface sous la courbe entre a et b Pr ( a X b ) f(x)
a 2.
Le passage du discret au continu transforme les sommes en intgrales
et p i en f(x)dx.
2010 - 2011
59/175
Variables alatoires
Ainsi, soit X une variable alatoire discrte et p i sa distribution pi
xi p i est analogue Pr ( a X b ) =
La formule Pr ( x k X x n ) =
i=k
a f ( x ) dx
En utilisant cette analogie, on admettra les dfinitions suivantes pour une variable alatoire X, continue, de distribution f(x) : 1. 2. 3. 4. 5. 6. 7. f ( x ) 0 (analogue p i 0 ) f ( x ) dx = 1 (analogue pi = 1 )
X = E ( X ) =
2 2
X = var ( X ) = X = var ( X ) = ( X ) = X =
xf ( x ) dx (analogue
2 2 2
xi pi )
i
( x X ) f ( x ) dx (analogue x f ( x ) dx X (analogue
x i
( xi X )
i 2 2
pi )
xi pi X )
var ( X )
F ( x ) = Pr ( X x ) =
f ( ) d (analogue pi )
xi x
Les proprits de la fonction de rpartition donnes section 6.2.6 page 57 sont conserves : fonction monotone croissante, partant de 0 pour x- et atteignant 1 pour x+. 8. Pr ( a X b ) =
a f ( x ) dx
= F(b) F(a)
60/175
2010 - 2011
Variables alatoires
Cet exemple montre la densit de probabilit et la fonction de rpartition dune certaine variable alatoire continue. La probabilit de lintervalle [a b] est la surface sous la courbe de densit limite par cet intervalle. Cest aussi la diffrence des hauteurs F(b)-F(a) si on utilise la fonction de rpartition. Contrairement au cas des variables discrtes, la fonction de rpartition est ici continue. Pour rsumer lanalogie entre le cas discret et le cas continu, un point du domaine discret correspond un intervalle dans le cas continu, la somme discrte correspond lintgrale.
6.5 Extension de la notion de variable alatoire

Une variable alatoire, telle quelle est dfinie dans ce chapitre, ne peut prendre que des valeurs numriques. Il est pourtant souvent pratique de sintresser directement aux rsultats dune exprience, quils soient numriques ou non, cest dire dviter le codage numrique de ces rsultats. Par abus de langage, dans la suite du cours, on pourra parler de variables alatoires alors quil sagit de rsultats dexprience. Dans ce contexte, la classification antrieure des variables (discrtes ou continues) doit tre tendue :
2010 - 2011
61/175
Variables alatoires
Variables quantitatives variables dont les valeurs sont numriques. Cest lunique possibilit dans le cas de variables alatoires au sens strict. On distingue deux types de variables quantitatives : variables discrtes, dont les valeurs sont discrtes, en gnral des nombres entiers. Exemple : nombre dtudiants dans un amphi. variables continues, pour lesquelles toutes les valeurs sont possibles, au moins sur un intervalle. Exemples : le poids ou la taille.
Variables qualitatives Variables dont les valeurs ne sont pas numriques. On en distingue deux types : variables ordinales, dont les valeurs peuvent tre ordonnes. Exemple : intensit dune douleur qui peut aller de absente trs intense. variables catgorielles ou nominales, dont les valeurs ne peuvent pas tre ordonnes. Exemple : couleur des yeux.
62/175
2010 - 2011
Chapitre 7 Exemples de distributions

7.1 Lois discrtes
Les lois dcrites ici ne concernent que des variables dont les valeurs sont des nombres entiers.
7.1.1 Loi de Bernoulli

On considre une exprience nayant que deux rsultats possibles, par exemple succs et chec (ou prsence et absence dune certaine caractristique). On introduit la variable alatoire X qui associe la valeur 0 lchec (ou labsence de la caractristique) et la valeur 1 au succs (ou la prsence de la caractristique). Cette variable alatoire est appele variable de Bernoulli. Distribution de X Appelons la probabilit de lvnement succs : Pr({succs}) = Pr(X = 1) = do Pr({chec}) = Pr(X = 0) = 1 - Esprance de X X = E ( X ) = x i Pr ( X = x i ) = 1 Pr ( X = 1 ) + 0 Pr ( X = 0 ) = Variance de X 2 2 2 2 X = var ( X ) = E [ ( X X ) ] = E ( X ) X X = [ 1 Pr ( X = 1 ) + 0 Pr ( X = 0 ) ] X = = ( 1 )
2 2 2 2 2 2
7.1.2 Loi binomiale

Dfinition Soient les preuves rptes et indpendantes dune mme exprience de Bernoulli. Chaque exprience na que deux rsultats possibles : succs ou chec. Comme prcdemment,
2010 - 2011
63/175
appelons la probabilit de lvnement lmentaire succs. A cette exprience multiple on associe une variable alatoire X qui mesure le nombre de succs obtenus. Distribution de X On montre aisment que la probabilit davoir k succs lors de n preuves rptes est n! - k nk P ( X = k pour n essais ) = ---------------------- ( 1 ) k! ( n k )! Rappel n! = 1 2 n pour tout n entier positif 0! = 1 par dfinition Remarques a. La probabilit de navoir aucun succs au cours de n preuves (k = 0) est (1-)n ; la probabilit davoir au moins un succs est donc 1 - (1-)n (un succs ou plus) n n! ---------------------- est souvent not ou C k n k k! ( n k )! n Les sappellent coefficients du binme. k En effet ils interviennent dans le dveloppement du binme selon la formule
n
b.
(a + b) =
r=0
n a n r b r r
c.
Exercice : 4 4 3 2 2 3 4 utiliser cette formule pour vrifier que ( a + b ) = a + 4a b + 6a b + 4ab + b En appliquant la formule du binme prcdente on retrouve que la somme des probabilits pour toutes les valeurs de X est gale 1 :
n
k=0
k ( 1 )
k
nk
= [ + (1 )] = 1 = 1
Exemples 1. On jette 6 fois une pice bien quilibre ; on suppose que face est un succs. On a donc = 1/2 et n = 6 a. Probabilit que lon ait exactement 2 faces 6! - 1 2 1 4 1 2 3 4 5 6 1 1- Pr ( 2 faces parmi 6 jets ) = --------- -- -- = ------------------------------------------------ -- ----2!4! 2 2 1 2 1 2 3 4 4 16 56 15 15 Pr ( 2 faces parmi 6 jets ) = ----------------------- = -------------- = ----2 4 16 4 16 64 b. Probabilit davoir 4 faces ou plus (au moins 4 faces) Cest aussi la probabilit davoir au plus 2 piles (0, 1 ou 2 piles) 6! - 1 4 1 2 1 2 3 4 5 6 1- 1 p 4 = Pr ( 4 faces ) = --------- -- -- = ------------------------------------------------ ----- -- = 15 ----2!4! 2 2 1 2 1 2 3 4 16 4 64 64/175
Biostatistique - Carrat, Mallet, Morice 2010 - 2011
6! 1 5 1 123456 1 1 6 - - - p 5 = Pr ( 5 faces ) = --------- -- -- = ------------------------------------------------ ----- -- = ----1!5! 2 2 12345 32 2 64 6! 1 6 1 0 1- p 6 = P r ( 6 faces ) = ---- -- -- = ----6! 2 2 64 Pr ( au moins 4 faces ) = p 4 + p 5 + p 6 = 15 + ----- + ----- = 11 ----- 6- 1----64 64 64 32 2. On jette 7 fois un d quilibr et on considre que tirer 5 ou 6 est un succs. Calculer a. la probabilit pour quon ait 3 succs exactement Pr ( succs ) = Pr ( { 5, 6 } ) = 2 = 1 --6 3 7! - 1 3 2 4 560Pr ( 3 succs ) = --------- -- -- = ----------3!4! 3 3 2187 b. la probabilit de navoir aucun succs 2 7 7 128Pr ( aucun succs ) = ( 1 ) = -- = ---------- 3 2187 Proprits La fonction de probabilit Pr(X= k) dpend des 2 paramtres (ou constantes) n et . Cest une distribution discrte qui prend les valeurs suivantes : k Pr(X= k) 0 (1-)n 1 n ( 1 ) n 1 1 2 n ( 1 ) n 2 2 2 ........ n n
On dit que X est distribue selon une loi binomiale B(n, ). On peut montrer que Distribution binomiale B(n, ) Esprance Variance Ecart-type
2
= n = n ( 1 ) = n ( 1 )
2010 - 2011
65/175
7.1.3 Loi de Poisson

La loi de Poisson (due Simon Denis Poisson en 1837) est la loi du nombre dvnements observ pendant une priode de temps donne dans le cas o ces vnements sont indpendants et faiblement probables. Elle peut sappliquer au nombre daccidents, lapparition danomalies diverses, la gestion des files dattentes, au nombre de colonies bactriennes dans une bote de Ptri, etc. Dfinition Soit X la variable alatoire reprsentant le nombre dapparitions indpendantes dun vnement faiblement probable dans une population infinie. La probabilit davoir k apparitions de lvnement est Pr ( X = k ) = e ---k! Cette loi dpend dun paramtre , nombre rel strictement positif. Les nombres k possibles sont toutes les valeurs entires 0, 1, 2, etc. Cependant, lorsque k est suffisamment grand, la probabilit correspondante devient extrmement faible. Proprits On peut montrer que Loi de Poisson P ( ) Esprance Variance Ecart-type
k k
= = = = e ---k!
2
La dmonstration utilise le fait que
k=0
Si deux variables alatoires indpendantes X 1 et X 2 sont distribues selon des lois de Poisson de paramtres 1 et 2, alors la variable X 1+X 2 est distribue selon une loi de Poisson de paramtre 1+2.
Remarques Si on connat la probabilit de nobserver aucun vnement Pr(X=0) = p : 0 Daprs la formule, p = e ---- = e 0! On en dduit : = ln p Pr ( X = 1 ) = e ---- = p , 1!
1
66/175
2010 - 2011
Pr ( X = 2 ) = e ---- = Pr ( X = 1 ) -- , 2! 2 3 ---- = Pr ( X = 2 ) , -Pr ( X = 3 ) = e 3! 3 ...... Pr ( X = k ) = Pr ( X = k 1 ) -k

On peut ainsi calculer facilement de proche en proche les probabilits des diverses valeurs de k. Lien avec la loi binomiale Si une variable alatoire X est distribue selon une loi binomiale B(n, ), on montre que si est petit (en pratique infrieur 0,1) et n assez grand (suprieur 50), la loi binomiale peut tre approxime par une loi de Poisson de paramtre =n. Les calculs sont plus simples avec la loi de Poisson quavec la binomiale. Notons que puisque X est distribue selon une loi binomiale, ses valeurs possibles ne peuvent dpasser n, alors que lapproximation par la loi de Poisson autorise des valeurs suprieures. Cependant le calcul fournit des probabilits trs faibles pour ces valeurs aberrantes.
7.2 Lois continues

7.2.1 Loi normale
7.2.1.1 Dfinition
La distribution normale, ou de Laplace-Gauss, appele aussi gaussienne, est une distribution continue qui dpend de deux paramtres et . On la note N(, 2). Le paramtre peut tre quelconque mais est positif. Cette distribution est dfinie par : 1 f ( x ; , ) = -------------- e 2 Cest une des lois les plus importantes, sinon la plus importante comme vous le verrez loccasion du thorme central limite.
1 ( x ) -- -----------------2 2
2
7.2.1.2 Proprits
Allure de la courbe La loi normale, note N(, 2), est symtrique par rapport la droite dabscisse . Exemples :
2010 - 2011
67/175
Figure 2 : N(, 1) pour les valeurs de -2 ; 0 et 2
Figure 3 : N(0, 2) pour les valeurs de 0,3 ; 1 et 2 Caractristiques
Loi normale N(, 2) Esprance Variance Ecart-type 2
La distribution normale centre rduite On dit que la distribution est centre si son esprance est nulle ; elle est dite rduite si sa variance 2(et son cart-type ) est gale 1. La distribution normale centre rduite N(0, 1) est donc dfinie par la formule
68/175
2010 - 2011
1 t ---------- e 2 f ( t ; 0, 1 ) = 2
1 --
Figure 4 : loi normale centre rduite N(0, 1) Les probabilits correspondant aux divers intervalles ont t calcules et regroupes dans une table numrique. Ainsi la table A.1 (en fin de polycopi) permet, partir dune probabilit donne, de trouver les bornes -u , +u dun intervalle symtrique autour de 0, tel que Pr ( t [ z ; +z ] ) = ou encore, partir de u , de trouver . Do par exemple : Pr ( t [ z ; +z ] ) = 1 Pr ( t > z ) = Pr ( t < z ) = 2 On observe ainsi que environ 68 % de la surface est comprise entre (-1 et +1), 95 % entre (-2 et +2) et 99 % entre (-3 et +3) (la table A.1 ne permet pas de trouver des valeurs aussi prcises que celles de la figure 4). Transformation dune loi normale quelconque en loi normale centre rduite Soit une variable X distribue selon une loi normale desprance et dcart-type . X Alors la variable t = ------------ est distribue selon une loi normale centre rduite. Les probabilits obtenues pour la loi centre rduite permettent de calculer les probabilits pour une loi normale quelconque, laide de cette transformation : t = X . ----------- Soit par exemple calculer Pr ( a X b ) . Pr ( a X b ) = Pr ( c t d ) avec c = a et d = b . -------------------- La probabilit cherche, sur la variable X, revient donc lire sur la table de la loi centre Par la transformation, on a
2010 - 2011
69/175
rduite (variable t), la probabilit de se trouver entre c et d. On remarque en particulier que Pr ( 2 t 2 ) = Pr ( 2 X + 2 ) 0 ,95 Approximation de la distribution binomiale par la loi normale Lorsque n est grand, et que et 1 ne sont pas trop proches de 0 (en pratique si n 5 et n ( 1 ) 5 ), alors on constate que la distribution binomiale tend vers la distribution normale de moyenne n et de variance n(1) ; plus prcisment, pour une variable K distribue selon une loi binomiale B(n, ) et une variable X distribue selon une loi normale N( = n, 2 = n(1)), on a : Pr ( K = k ) = Pr ( k ) = Pr ( k 0 ,5 K k + 0 ,5 ) Pr ( k 0 ,5 X k + 0 ,5 ) On choisit lartifice de reprsenter graphiquement Pr(k) par un rectangle dont la base est [k - 0,5, k + 0,5] et la surface est Pr(k) pour comparer la loi discrte Pr(k) et la loi normale continue.
Pr(4) = surface du rectangle = Pr ( k 0 ,5 K k + 0 ,5 ) aire sous la gaussienne correspondante
1 2 3 4 5 Approximation de la loi de Poisson par la loi normale Lorsque son paramtre est grand (en pratique suprieur 25), une loi de Poisson peut tre approche par une loi normale desprance et de variance . Le principe est analogue celui utilis pour lapproximation de la loi binomiale par la loi normale.
7.2.2 Loi du 2 (chi-2)

7.2.2.1 Dfinition
Cest une loi drive de la loi normale, trs importante pour ses applications en statistiques comme nous le reverrons dans les tests. Soient X 1, ..., Xn des variables alatoires indpendantes, chacune tant distribue selon une loi normale centre rduite : i, X i N ( 0, 1 ) La distribution de S = X 1 + X 2 + + X n (somme des carrs des Xi ) est appele loi de 2 n degrs de libert (en abrg d. d. l.), que lon note 2(n) o n est le nombre de d. d. l., seul paramtre
2 2 2
70/175
2010 - 2011
de la loi. Loi du 2(n) Esprance Variance Ecart-type n 2n 2n
7.2.2.2 Proprits
a. Allure de la distribution de 2(n) pour diffrentes valeurs de n
b.
Pour n = 1, la courbe dcrot de + vers zro de faon monotone ; pour n = 2, la courbe dcrot de faon monotone de 0,5 zro ; pour n > 2, la courbe part de 0, a son maximum pour x = n - 2, puis redescend vers zro. Proprit asymptotique La loi dune variable X suivant un 2(n) tend vers une loi normale lorsque n + . On a donc, aprs avoir centr et rduit cette variable : Xn ----------- N ( 0, 1 ) 2n NB : Dans la pratique, on utilise plutt la variable Y = 2X 2n 1 dont on montre quelle est peu prs distribue selon une loi normale centre rduite ds que n > 30. Tables De mme que pour la loi normale centre rduite, une table existe pour la loi du 2 (voir en fin de polycopi, table A.4). Cette table indique pour une probabilit donne, et un degr de libert n donn, la valeur Kn, telle que Pr ( X > K n, ) = .
c.
7.2.3 Loi de Student (hors programme)

Il sagit encore dune loi drive de la loi normale, trs utilise dans les tests statistiques. On con-
2010 - 2011
71/175
sidre une premire variable alatoire X, distribue selon une loi normale centre rduite, puis une seconde variable Y, indpendante de X, distribue selon un 2 n degrs de libert. Alors la variable alatoire Z = note t(n). Xn ------ est distribue selon une loi de Student n degrs de libert, Y Loi de Student t(n) Esprance Variance Ecart-type 0 n ----------n2 n ----------n2
La courbe correspondante est symtrique autour de 0, et son allure est proche de celle de la loi normale. n Cette loi est centre, mais non rduite : la variance, ----------- , est suprieure 1. n2 Lorsque n crot, en pratique pour n > 30, la variance peut tre prise gale 1, et la distribution assimile celle dune loi normale centre rduite.
7.2.4 Loi exponentielle (hors programme)

Cette loi dcrit par exemple le processus de mortalit dans le cas o le risque instantan de dcs est constant. La loi correspondante est : f ( x ) = e avec > 0 et x 0 o x est la dure de vie. Loi exponentielle Esprance Variance Ecart-type 1 1
2 x
72/175
2010 - 2011
Chapitre 8 Statistiques descriptives

Les statistiques descriptives visent reprsenter des donnes dont on veut connatre les principales caractristiques quantifiant leur variabilit.
8.1 Rappels et complments

On suppose que lon sintresse une caractristique particulire observable chez des individus issus dune population ; cette caractristique sera appele variable ; si cette caractristique peut varier entre les individus, sans pouvoir lanticiper, on lappellera variable alatoire. Le dispositif permettant dobtenir une valeur de la variable est lexprience alatoire. Cette dfinition image est compatible avec la dfinition du chapitre 6. Rappel Il existe deux grands groupes de variables : a. Les variables quantitatives qui sont des variables ordonnes, productives de nombres. Exemples : nombre denfants dans une famille, glycmie, taille dun individu, nombre de colonies bactriennes dans un milieu de culture. Parmi ces variables quantitatives, certaines prennent un continuum de valeurs (entre deux valeurs possibles, il existe toujours une troisime valeur possible) ; ces variables sont dites continues. Dautres ne prennent que des valeurs discontinues ; elles sont dites discrtes, finies ou non. Les variables qualitatives qui produisent des valeurs non numriques. Exemples : sexe, couleur des cheveux, appartenance au groupe des fumeurs ou des non fumeurs, prsence ou absence dune maladie. Les valeurs peuvent tre ordonnes ; on parle alors de variable qualitative ordinale. Exemple : intensit dune douleur (faible, moyenne, forte). Si les valeurs ne peuvent pas tre ordonnes, il sagit dune variable catgorielle (ou nominale).
b.
Remarque Lindividu voqu ci-dessus, sur lequel on observe les caractristiques dintrt, la variable, nest pas ncessairement un individu physique. Cest lentit sur laquelle sopre lobservation de la variable dintrt. Exemples : famille, colonies bactriennes. Dfinition Lentit sur laquelle peut sobserver la variable alatoire sappelle lunit statistique.
2010 - 2011
73/175
Connatre le phnomne mettant en jeu cette variable, ou connatre cette variable, cest connatre la probabilit pour quun individu tir au hasard dans la population prsente telle valeur de la variable. On peut apprcier la probabilit dun vnement alatoire grce linterprtation suivante de la notion de probabilit. Cette interprtation est cohrente avec les cours prcdents. On interprtera la probabilit dun vnement alatoire comme la valeur limite de la frquence avec laquelle lvnement se ralise au cours dun nombre croissant de rptitions de lexprience. Autrement dit comme la valeur limite du rapport du nombre de fois o lvnement sest ralis et du nombre de rptitions de lexprience. Remarques Ce qui prcde peut tre vu comme une interprtation de la notion de probabilit (voire comme une dfinition). En dpit de cette interprtation, la probabilit dun vnement alatoire reste une fiction du domaine thorique. pour approcher une probabilit on est amen rpter une exprience, les frquences se substituent aux probabilits ; elles seront les contreparties des probabilits.
Mais cette interprtation a deux consquences :
On va donc rpter une exprience un nombre fini de fois, not n ; on aura donc observ une sous-population appele chantillon. Chaque exprience alatoire produit un rsultat xi ; on disposera donc de x 1, ..., xn , ensemble appel chantillon de valeurs de la variable tudie X. De faon plus formelle, on dfinit un chantillon dune variable alatoire de la manire suivante : Un chantillon de taille n dune variable alatoire X est un ensemble X 1, X 2, ..., Xn de n variables alatoires, indpendantes entre elles, et ayant chacune la mme distribution que X. On peut donc dire quun chantillon de valeurs de X est une ralisation de lchantillon de la variable X tel quil vient dtre dfini.
8.2 Reprsentation complte dune srie dexpriences

8.2.1 Cas dune variable qualitative
La variable est dcrite par la suite des probabilits des diffrentes modalits. Si lon connaissait ces probabilits, on produirait le diagramme en btons (ou rpartition vraie ) de cette variable ; on va produire la rpartition observe par substitution aux probabilits inconnues des frquences ob74/175
2010 - 2011
serves. Si la variable est ordinale, on respectera cet ordre dans lnumration des modalits portes en abscisses.
Frquences
modalit 1 modalit 2
.......
Dautres types de reprsentation sont utiliss : par exemple la reprsentation en camembert o les diffrentes modalits sont reprsentes par secteurs angulaires dangles au centre proportionnels aux frquences observes. D
A C
8.2.2 Cas dune variable quantitative discrte

La situation est similaire si ce nest quil existe un ordre et une chelle naturels en abscisses ; la
2010 - 2011
75/175
rpartition observe se nomme galement histogramme en btons.

Frquences
valeur 1
valeur 2
.......
8.2.3 Cas dune variable quantitative continue. Notion dHISTOGRAMME

Dans le cas de variables continues, on va choisir de reprsenter les donnes graphiquement dune faon qui soit proche de la reprsentation dune densit de probabilit dune variable alatoire continue. Pour cela on dcoupe lensemble du domaine des valeurs possibles de la variable tudie en intervalles contigus dont on choisit le nombre et les bornes. Afin dobtenir une reprsentation proche dune densit de probabilit, on dcide de reprsenter indirectement la frquence des valeurs observes comprises entre deux bornes conscutives par la surface dun rectangle dont la base sera prcisment cet intervalle. Autrement dit la hauteur de ce rectangle sera le rapport de la frquence observe de ces valeurs et de la diffrence entre ces bornes (diffrence galement appele largeur de la classe).
(m-1)
1,2 1,0 0,8 0,6 0,4 0,2 0 0,5 1,75

taille (m)
Les bornes sont choisies arbitrairement ; nanmoins, pour que lhistogramme ait un sens il est ncessaire que la taille de chaque classe constituant un intervalle comprenne un nombre suffisamment grand de valeurs observes, de telle faon que la surface dun rectangle lmentaire puisse tre interprte comme approchant la probabilit pour que la variable prenne une valeur comprise dans lintervalle du rectangle. Si la taille de lchantillon crot, la surface de chaque rectangle tend
76/175
2010 - 2011
vers la probabilit que la variable ait une valeur incluse dans lintervalle correspondant. De plus, si la taille n de lchantillon est grande, on peut alors sans inconvnient construire un plus grand nombre de classes, cest--dire construire par exemple deux fois plus de rectangles, chacun ayant un support deux fois plus petit. En rptant cette opration, n croissant, on peut comprendre que lhistogramme tend (dune faon que nous ne prciserons pas ici) vers la densit de probabilit de la loi qui a gnr lchantillon.
8.3 Reprsentation simplifie dune srie dexpriences

On a dfini certains indicateurs pour reprsenter, de faon plus rsume que ci-dessus, un chantillon de valeurs issues dune variable alatoire. Les indicateurs prsents ci-dessous ne concernent que les variables quantitatives.
8.3.1 Indicateurs de localisation des valeurs

Mdiane observe Cest la valeur qui partage lchantillon en deux groupes de mme effectif ; pour la calculer, il faut commencer par ordonner les valeurs (les ranger par ordre croissant par exemple) Exemple : soit la srie 12 3 24 1 5 8 7 on lordonne : 1 3 5 7 8 12 24 7 est la mdiane de la srie Moyenne observe Cest lindicateur de localisation le plus frquemment utilis. La moyenne observe dun chantillon de n valeurs x 1, ..., xn est dfinie comme la moyenne arithmtique de ces valeurs ; on la note souvent mx , ou simplement m sil ny a pas de confusion possible : 1 m = -- x i n Avec la srie prcdente, qui comporte n = 7 valeurs, on obtient : 1 m = -- x i = 12 + 3 + 24 + 1 + 5 + 8 + 7 = 8, 57 ---------------------------------------------------------------7 7
i=1 7 i=1 n
8.3.2 Indicateurs de dispersion des valeurs

Variance observe La variance observe dun chantillon {xi } i = 1, ..., n est donne par 1 2 s = ----------- ( x i m ) n1
2 i=1
2010 - 2011 Biostatistique - Carrat, Mallet, Morice
77/175
Attention : on divise par n -1 et non par n pour que la variance observe soit un bon estimateur de la variance thorique de la loi (nous reverrons ce point dans la suite). Une autre expression de s 2, quivalente, est indique dans le rsum de ce chapitre. Ecart-type observ 2 Lcart-type observ, not s, est dfini par s = s .
8.4 Reformulation de la moyenne et de la variance observes

8.4.1 Reformulation de la moyenne observe
Prenons le cas dune variable quantitative discrte. Les donnes sont notes x 1, ..., xn . Les k valeurs possibles de la variable sont notes val1,val2, ...., valk . Exemple dun jet de d : val1 = 1, ..., val6 = 6 Chaque donne xi concide avec une certaine valeur val j Par exemple pour le jet de d, on peut avoir jet n1 ; x 1 = 1 = val1 jet n2 ; x 2 = 1 = val1 jet n3 ; x 3 = 4 = val4 jet n4 ; x 4 = 3 = val3 jet n5 ; x 5 = 6 = val6 jet n6 ; x 6 = 1 = val1 jet n7 ; x 7 = 2 = val2 jet n8 ; x 8 = 5 = val5 jet n9 ; x 9 = 6 = val6
n k
Alors :
xi
i=1
nj valj
j=1
o nj est le nombre de fois o une observation concide avec valj Dans notre exemple du jet de d, on a : n 1 = 3, n 2 = 1, n 3 = 1, n 4 = 1, n 5 = 1, n 6 = 2 1 Finalement m = -- x i = n
i=1 n k
j=1
nj --- val j n
78/175
2010 - 2011
nj Mais --- est une approximation de Pr(face marque = valj ) n Ainsi m est une estimation - une apprciation - de :
valj Pr ( valeur de la variable = valj )

j
cest--dire une apprciation de lesprance mathmatique de la variable. On raccorde ainsi une moyenne observe une grandeur descriptive du phnomne tudi, une grandeur dite thorique ou vraie . On peut dire ceci : la rptition des expriences vise estimer Pr(valeur de la variable = certain niveau). La moyenne observe permet destimer quelque chose de plus grossier, une combinaison de toutes ces probabilits, prcisment lesprance mathmatique = val j Pr ( valeur de la variable = val j )
j
Cest la raison pour laquelle dans la suite on utilisera galement la terminologie MOYENNE VRAIE ou MOYENNE THEORIQUE de la variable pour parler de lesprance mathmatique. Retenons : ESPERANCE MATHEMATIQUE, MOYENNE VRAIE , MOYENNE THEORIQUE sont SYNONYMES. Ce sont des grandeurs thoriques. Remarque La mme analyse peut tre faite - mais lexpression est un peu plus dlicate - dans le cas dune variable quantitative continue. La moyenne observe approxime l encore lesprance mathmatique.
8.4.2 Reformulation de la variance observe

De la mme faon on peut obtenir le rsultat suivant : s2 est une approximation de la grandeur 2 2 = ( val j ) Pr ( valeur de la variable = val j )
j
Cette expression, introduite dans le chapitre 6 sous le nom de variance sera souvent dnomme dans la suite VARIANCE VRAIE ou VARIANCE THEORIQUE de la variable. Dans le cas dune variable continue, la variance observe s2 approxime : 2 2 = ( x ) f ( x ) dx
LES DIFFERENCES ENTRE CES NOTIONS DE MOYENNE ET VARIANCE VRAIES , ET DE MOYENNE ET VARIANCE OBSERVEES SONT ESSENTIELLES ; NOUS ENGAGEONS LE LECTEUR A BIEN LES COMPRENDRE AVANT DE POURSUIVRE. 79/175
2010 - 2011
8.5 Cas particulier dune variable deux modalits - Proportion

On est trs souvent amen considrer des variables deux modalits, cest--dire des expriences alatoires deux vnements lmentaires. Exemples : maladie : maladie prsente - maladie absente signe clinique : prsent - absent traitement : individu trait - individu non trait
Or on peut transformer une telle variable en variable quantitative, sans restriction de gnralit, par un artifice de codage : une des modalits est code avec la valeur numrique 0 ; lautre modalit est code avec la valeur numrique 1.
Une telle variable sappelle variable de Bernoulli. Notons X cette variable. Elle est compltement dcrite par la donne de Pr(valeur de la variable = 1) car Pr(valeur de la variable = 1) + Pr(valeur de la variable = 0) = 1. On utilise la notation conventionnelle suivante : Pr(valeur de la variable = 1) SE NOTE .
8.5.1 Expression de lesprance mathmatique de X

Utilisant lexpression gnrale de lesprance mathmatique, et remarquant que val1 = 0, val2 =1, on obtient : = val j Pr ( valeur de la variable = val j ) = 0 ( 1 ) + 1 = Ainsi, = = Pr(valeur de la variable = 1) = probabilit de la modalit code 1 = PROPORTION VRAIE des individus prsentant la modalit 1.
j
8.5.2 Expression de la variance de X

=
2
( valj )
j
Pr ( valeur de la v.a. = val j ) = ( 0 ) ( 1 ) + ( 1 ) = ( 1 )
80/175
2010 - 2011
8.5.3 Interprtation de la moyenne observe

1 1 nombre de fois o X = 1 m = -- x i = -- [ 0 + 0 + 1 + 0 + 1 + 1 + ] = ---------------------------------------------------------n n n
i
Ainsi, m concide avec la frquence observe de la modalit code 1. Cette frquence sera note p et sappelle de faon naturelle PROPORTION OBSERVEE dindividus prsentant la modalit 1. Exemple Dans le cas de ltude dun signe clinique, en codant 1 la prsence du signe clinique, m (donc p) sera la frquence observe de la prsence du signe ou encore le pourcentage des individus prsentant le signe ( un facteur 100 prs). En rsum si X est une variable de Bernoulli, sa moyenne vraie = sa variance vraie = (1 - )
UNE PROPORTION OBSERVEE EST UNE MOYENNE OBSERVEE.
8.6 Conclusion : la variable alatoire moyenne arithmtique

On a jusquici associ une valeur de moyenne observe une srie de n ralisations dune variable alatoire quantitative X. Mais chaque exprience consistant recueillir n ralisations de la variable X permet de calculer une valeur, diffrente chaque exprience, de moyenne observe. Autrement dit, la moyenne observe doit tre vue comme une nouvelle variable alatoire que nous appellerons moyenne arithmtique ; on la notera M. Dans certains cas, afin de rappeler que cette variable dpend de n, on notera Mn la variable construite partir de n ralisations de X. 1 M n = -- X i n On utilisera la terminologie suivante : on dira que M (ou Mn si ncessaire) est la VARIABLE ALEATOIRE MOYENNE ARITHMETIQUE DEDUITE DE LA VARIABLE ALEATOIRE X, FONDEE SUR n REPETITIONS ou, de faon quivalente que M (ou Mn si ncessaire) est la VARIABLE ALEATOIRE MOYENNE ARITHMETIQUE ASSOCIEE A LA VARIABLE ALEATOIRE X, FONDEE SUR n REPETITIONS Remarque Dans le cas o X est une variable de Bernoulli, Mn sera note P n (et M simplement P). Il sagit
i=1 n
2010 - 2011
81/175
dune variable alatoire proportion dont on connat dj pratiquement la distribution puisque nP n ~ B(n, ) (voir section 7.1.2 page 63).
82/175
2010 - 2011
Rsum du chapitre
1. 2. Une variable alatoire est une variable observable au cours dune exprience et dont la valeur peut varier dune exprience lautre de faon non prvisible. Reprsentation dune variable rpartition dun chantillon variable qualitative variable quantitative discrte variable quantitative continue 3. rpartition observe histogramme en btons histogramme reprsentation de la population rpartition vraie rpartition vraie densit de probabilit
Moyennes (variables quantitatives + variables de Bernoulli) moyenne observe variable discrte 1 m = -- x i n

i=1 n
esprance, ou moyenne vraie

k
valj Pr ( variable = valj )

j=1
variable continue variable de Bernoulli 4.
1 m = -- x i n
i=1
xf ( x ) dx
m est note p
= Pr ( variable = 1 ) est note
Variances (variables quantitatives) variances observes variable discrte n - 1 2 2 s = ----------- -- x i m n1 n

2 i=1 n n k
variances vraies =
2
( valj )
j=1
Pr ( variable = valj )
variable continue
n - 1 2 2 s = ----------- -- x i m n1 n
2 i=1
(x )
f ( x ) dx
2010 - 2011
83/175
5.
Variables centre et centre rduite associes une variable X Si X est une variable alatoire de moyenne et de variance 2, la variable (X - ) est dite variable centre associe X, X la variable ------------ est dite variable centre rduite associe X.
84/175
2010 - 2011
Chapitre 9 Fluctuations de la moyenne observe : la variable alatoire moyenne arithmtique

On conserve le contexte dtude du chapitre prcdent, cest--dire lexamen de la variabilit dune grandeur (variable alatoire) dans une population dindividus ou units statistiques. Mais on sintresse ici la variable alatoire moyenne arithmtique .
9.1 Premire proprit de la variable alatoire moyenne arithmtique

9.1.1 Un exemple
Prenons nouveau le cas dune variable discrte pouvant prendre les deux valeurs 0 et 1 [cest-dire variable associe prsence-absence ou oui-non]. Supposons que lon ait des raisons de penser que Pr(X = 0) = Pr(X = 1) = 1/2. On a vu quune telle variable a pour esprance 1/2, pour variance vraie 1/4. On peut, par le calcul, pronostiquer le rsultat dune rptition dexpriences. En particulier, calculer la rpartition de la variable moyenne arithmtique calcule sur un chantillon de deux individus , note M 2, ici deux lancers de pice. On isole cette variable. Quelles valeurs peut-elle prendre, avec quelles probabilits ?
jet 1 : rsultats 0 0
Proba jet 1 1/2 1/2
Proba jet 2 1/2 1/2
Proba jet1, jet2 1/4 1/4
M2 1/2(0+0) = 0 1/2(0+1) = 1/2
2010 - 2011
85/175
Proba jet 1 1/2 1/2
Proba jet 2 1/2 1/2
Proba jet1, jet2 1/4 1/4
M2 1/2(1+0) = 1/2 1/2(1+1) = 1
Ainsi, Pr ( M 2 = 0 ) = 1, Pr M 2 = 1 = 1 + 1 = 1, Pr ( M 2 = 1 ) = 1 ---- -- -- - - 4 2 4 4 2 4 Alors : 1 1 1 1 - - moyenne vraie de M 2 = 0 -- + -- -- + 1 -- = 1 = moyenne vraie de X -4 2 2 4 2
2 1 1 1 1 1 2 1 1 2 1 1 - - - - variance vraie de M 2 = 0 1 -- + -- -- -- + 1 -- -- = -- = -- --- 4 2 2 2 4 2 4 2 8 2 Ainsi la variance vraie de la moyenne arithmtique est plus faible que la variance vraie de la variable dorigine (la moiti ici). Lesprance reste inchange. Et ainsi vont les choses si la taille des chantillons (ici 2) qui constituent les units statistiques augmente. La dispersion de M diminue au fur et mesure que M se trouve calcule sur la base dun chantillon de taille croissante. Le comment de cette situation peut tre rsum ainsi : les valeurs de la moyenne arithmtique deviennent de plus en plus probables dans un voisinage de lesprance car le nombre de situations pouvant donner une valeur observe proche de lesprance augmente dans ce voisinage. Cela est d au fait que lesprance mathmatique est au milieu des valeurs possibles. On le voit sur lexemple ci-dessus o lesprance est obtenue dans les deux cas (0, 1) et (1, 0). Cest encore plus perceptible sur lexemple dun d. Pour que la moyenne observe calcule sur deux jets de d soit 6, il faut obtenir le rsultat (6, 6) ; pour quelle soit 3, il faut un total de 6, cest--dire (5, 1), (4, 2), (3, 3), (2, 4), (1, 5), soit un vnement 5 fois plus probable. Il est possible de quantifier tout cela. On peut gnraliser ce qui a t obtenu avec deux jets de pices et on obtient, quelle que soit la distribution de la variable tudie - quelle soit continue ou discrte - les rsultats fondamentaux suivants.
9.1.2 Gnralisation
i. Lesprance mathmatique, ou moyenne vraie , de la variable alatoire moyenne arithmtique calcule sur un chantillon de taille n concide avec la moyenne vraie de la variable tudie, ce que lon peut rsumer par : E ( Mn ) = E ( X ) ii. La variance vraie de la variable alatoire moyenne arithmtique calcule sur un chantillon de taille n est gale la variance vraie de la variable DIVISEE PAR n, ce que lon peut rsumer par :
86/175
2010 - 2011
1 2 2 ( M n ) = -- ( X ) n do la relation entre carts-types : 1 ( M n ) = ------ ( X ) n iii. Dans le cas o X est une variable de Bernoulli de paramtre (Pr(X = 1) = ), les relations prcdentes deviennent : (Pn ) =
2 (P n) = ( 1 ) ---------------------n
9.2 Seconde proprit de la variable alatoire moyenne arithmtique : le thorme central limite
On souhaiterait comparer, par curiosit, les distributions de plusieurs moyennes arithmtiques, correspondant diverses variables alatoires. Par exemple la taille, la glycmie. Ces distributions sont diffrentes, ne serait-ce qu cause des diffrences entre moyennes et variances vraies . Pour sabstraire de ces premires diffrences, considrons la variable centre rduite associe, soit pour chaque variable considre : Mn ( X ) Mn ( Mn ) ---------------------------- soit ------------------------ ( Mn ) (X) ----------n Maintenant toutes ces variables ont en commun leur esprance (0) et leur variance (1). Il se passe quelque chose dextraordinaire : lorsque n est suffisamment grand, elles finissent par avoir en commun leur distribution, leur densit de probabilit. Cela signifie que les distributions de toutes ces variables (moyennes arithmtiques centres rduites issues de variables alatoires diffrentes) finissent par concider, lorsque n est suffisamment grand, avec une distribution particulire unique. Cette distribution sappelle LOI NORMALE, et puisque sa moyenne vraie est nulle et sa variance vraie est 1, on lappelle LOI NORMALE CENTREE REDUITE ou encore distribution de Gauss ou de Laplace-Gauss (1800). On la notera schmatiquement N(0, 1) o 0 rappelle la valeur de la moyenne vraie , 1 la valeur de la variance vraie .
2010 - 2011
87/175
Donc la proprit ci-dessus - connue sous le nom de thorme central limite - snonce : THEOREME CENTRAL LIMITE Soit X une variable alatoire quantitative desprance mathmatique , de variance vraie 2. Soit Mn la variable alatoire moyenne arithmtique associe X construite sur n rptitions. Mn La distribution limite de la variable alatoire ---------------- est la distribution -----n normale centre rduite note N(0,1). Il faut bien mesurer la porte de cette proprit. Quel que soit le phnomne tudi - apprci par la variable alatoire que lon tudie - il suffit de connatre la moyenne et la variance de la variable pour dduire la distribution (la densit de probabilit) - cest--dire lexpression la plus acheve des proprits de variabilit - de la variable alatoire moyenne arithmtique calcule sur un chantillon de taille suffisante. Nous reviendrons plus loin, au paragraphe rsum et prcisions (voir page 89), sur cette notion vague taille suffisante . Or cest peu de connatre moyenne, variance (ou cart-type) seulement - ex. : pour le poids la naissance = 3 kg, = 1,2 kg.
9.3 Etude de la distribution normale (rappel)

La distribution limite que lon a mise en vidence dpeint une variable alatoire desprance mathmatique 0 et de variance vraie 1, que lon a appele distribution normale centre rduite ou N(0, 1). 2 1 La densit de probabilit est donne par une fonction dquation f ( x ) = ---------- e 2 est reprsente sur la figure 5. Ses principales caractristiques morphologiques sont les suivantes : elle est symtrique, elle prsente deux points dinflexion en x = 1 et x = -1
x ---2
et dont lallure
Par ailleurs, pour faciliter les calculs de probabilit relatifs cette variable, des tables ont t construites qui donnent le lien entre et u , o ces valeurs ont le sens suivant (voir figure 5) : Pr ( X [ u ; +u ] ) = En particulier, pour = 0,05, la valeur u lue dans la table est 1,96, do u 0,05 = 1,96 On peut voir facilement que toute probabilit Pr ( X [a,b] ) sobtient partir dune telle table, quelles que soient les valeurs de a et b.
88/175
2010 - 2011
Figure 5 : loi normale centre rduite Remarque Sur la base de cette loi centre rduite, on dfinit toute une famille de lois de la faon suivante : Si X est distribue selon une loi normale centre rduite (notation X ~ N (0, 1)), alors la variable Y = X + , dont lesprance est et la variance 2, est distribue selon une loi normale desprance et de variance 2. On crit Y ~ N (, 2) A linverse, si on dit que X ~ N (, 2) X cela veut dire que ------------ N ( 0, 1 ) (variable centre rduite associe). Exemple La figure 6. prsente laspect de deux distributions normales lune N(0, 1), lautre N(2,9 , 4).
Figure 6 : exemple de lois normales Rsum et prcisions (thorme central limite) Si n est suffisamment grand, X ayant pour moyenne vraie , pour variance vraie 2, alors : Mn ---------------- N ( 0, 1 ) ( peu prs) -----n
89/175
ou, de faon quivalente, M n N , ----- ( peu prs) n o la notation ~ se lit : est distribu comme ou suit une distribution . a. b. La distribution de Mn est exactement une loi normale (la mention peu prs est inutile), quel que soit n, si X elle-mme est gaussienne (i.e. est distribue normalement). si X nest pas gaussienne : si X est une variable quantitative autre que Bernoulli, la condition de validit usuelle est n 30 si X est une variable de Bernoulli (valeurs 0 et 1), la condition usuelle de validit est n 5 et n(1 ) 5 En outre dans ce cas, = , 2= (1 - ) si bien que lon aura : Pn --------------------------- N ( 0, 1 ) ( peu prs) (1 ) ---------------------n (1 ) ou, de faon quivalente, P n N , ---------------------- ( peu prs) n
9.4 Application du thorme central limite. Intervalle de Pari (I. P.)

9.4.1 Dfinition de lintervalle de pari (I. P.) dune moyenne observe
On considre une variable alatoire de moyenne vraie et de variance vraie 2. On sait que pour n grand (n 30, ou n et n(1 - ) 5) : Mn la variable Z = ---------------- est approximativement distribue selon N (0, 1). -----n On se pose le problme suivant. On sapprte raliser une srie dexpriences, cest--dire mesurer la variable X sur un chantillon de n individus. Peut-on construire un intervalle [a, b] tel que la probabilit pour que la moyenne observe que lon sapprte calculer appartienne cet inter-
90/175
2010 - 2011
valle ait une valeur donne ? Il sagit donc de construire un intervalle qui contienne avec une probabilit fixe la valeur observe que lon va obtenir. Il sagit donc de trouver deux valeurs a et b telles que Pr ( a M n b ) = valeur donne = 1 . Exemple : Pr ( a M n b ) = 0, 95 Un tel intervalle [a, b] sappelle INTERVALLE DE PARI (I. P.) de niveau 1 - , ou encore intervalle de pari au risque , ou encore INTERVALLE DE FLUCTUATION La figure 7 illustre le problme pos.
Figure 7 : le problme de lintervalle de pari Ce problme admet plusieurs solutions : sauf besoin spcifique on choisit un intervalle symtrique autour de (ce qui est naturel compte tenu de la distribution de Mn ). Rsolution : a = ------ et b = + -----n n La valeur inconnue doit vrifier : Pr ------ M n + ------ = 1 n n Pr ------ M n ------ = 1 n n Mn Pr ---------------- = 1 ----- n Si le thorme central limite sapplique, lexpression ci-dessus suit une loi N(0, 1) ; notons-la Z. Alors doit vrifier Pr ( Z ) = 1 . Cest le u de la table. Finalement : = u Pr u ------ M n + u ------ = 1 et n n
2010 - 2011
91/175
IP 1 = u ------ ; + u -----n n Intervalle de Pari (I. P.) de la moyenne observe dune variable de moyenne vraie , de variance vraie 2 construite sur un chantillon de taille n Exemple : = 0,05 u = 1,96 IP 0 ,95 = 1 ,96 ------ ; + 1 ,96 -----n n Les conditions de validit de cette construction sont celles du thorme central limite, cest--dire n 30 pour les variables continues non normales et n, n(1 - ) 5 pour les variables de Bernoulli. Cas dune variable de Bernoulli : est note , 2 = (1 - ). Donc IP 0 ,95 = 1 ,96 ( 1 ) ; + 1 ,96 ( 1 ) ------------------------------------------n n Linterprtation de lintervalle de pari est fondamentale. Si cet intervalle est bien calcul, on est quasi sr, avec une probabilit 1 - (ici 0,95), dobtenir une valeur de la moyenne observe comprise dans cet intervalle. En pariant que la valeur va tomber dans cet intervalle, on se trompera (en moyenne) dans cinq pour cent des expriences. Exemple : On a des raisons de penser que la frquence dune maladie dans la population est = 0,2. Lintervalle de pari de la moyenne observe (proportion observe) calcule sur 64 individus au niveau 0,95 est : 1 ,96 0 ,2 ( 1 0 ,2 ) IP 0 ,95 = 0 ,2 -------------------------------------------- ; 0 ,2 + 1 ,96 0 ,2 ( 1 0 ,2 ) = [ 0 ,10 ; 0 ,30 ] -------------------------------------------64 64 Il y a 95 chances sur 100 pour que la proportion observe tombe dans cet intervalle.
9.4.2 Les facteurs de dpendance de la longueur de lintervalle de pari (IP)

La longueur de lIP est 2u -----n la longueur dpend de Si ' < , la longueur de IP 1 ' est suprieure la longueur de IP 1 Exemple = 0,05 u 0,05 = 1,96 = 0,01 u 0,01 = 2,57
92/175
2010 - 2011
la longueur dpend de n La longueur de IP 1 dcrot avec n. Cest le reflet du fait connu selon lequel les fluctuations dchantillonnage sestompent avec n Exemple Dans le cas ci-dessus, si on remplace n = 64 par n = 6400, on obtient IP 0 ,95 = [ 0 ,19 ; 0 ,21 ] Remarque Pour rduire dans un rapport 2 la longueur de lIP, il faut un chantillon 4 fois plus grand (22).
9.4.3 Lintervalle de pari dune variable alatoire

Ce que lon a dit pour une moyenne observe peut senvisager pour une variable X quelconque dont on connat la distribution. LIP de niveau 1 - est lintervalle [a, b] tel que Pr ( a X b ) = 1 . Exemple : X ~ N(0, 1) IP 1 = [ u ; u ] Une valeur numrique retenir : pour une variable alatoire normale centre rduite IP0,95 = [-1,96 ; 1,96]
2010 - 2011
93/175
Rsum du chapitre
1. Proprits de la moyenne arithmtique Mn dune variable alatoire X, moyenne calcule sur n units statistiques : moyenne vraie de Mn = moyenne vraie de X variance vraie de X variance vraie de Mn = -----------------------------------------------------n 2. Thorme central limite Si X a pour moyenne vraie , pour variance vraie 2, Mn est, lorsque n est suffisamment grand (n 30, ou n et n(1 - ) 5), peu prs distribue comme une variable normale 2 de moyenne vraie et de variance vraie n , ce que lon crit :
2 , ----- ou M n N ( 0, 1 ) ---------------Mn N n -----n
3.
Intervalle de pari (I. P.) Lorsque les conditions ci-dessus sont satisfaites, lintervalle IP 1 = u ------ ; + u -----n n a la proprit suivante : Pr ( M n IP 1 ) = 1 Cet intervalle sappelle intervalle de pari (I. P.) de niveau 1-, ou intervalle de pari au risque .
94/175
2010 - 2011
Estimation - Intervalle de confiance
Chapitre 10 Estimation - Intervalle de confiance

10.1 Introduction
Le problme de lestimation statistique est le suivant : on cherche connatre les valeurs de certaines caractristiques dune variable alatoire grce des observations ralises sur un chantillon. Un grand nombre de problmes statistiques consistent en la dtermination de la moyenne vraie , sur la base dobservations ralises sur un chantillon. Cependant, on peut aussi chercher connatre les valeurs dautres caractristiques, comme par exemple les variances (exemple c. ci-dessous). Exemples : a. b. c. quelle est la frquence de survenue de tel type de cancer chez les souris ? quelle est la vraie valeur de la glycmie de ce patient ? quelle est la variance de la glycmie mesure chez ce patient ?
Il est bien sr impossible de rpondre ces questions au sens strict. On y apporte gnralement deux types de rponses : 1. 2. On produit une valeur qui nous semble tre la meilleure possible : on parle alors destimation ponctuelle. On produit un intervalle de valeurs possibles, compatibles avec les observations. Cest la notion dintervalle de confiance ou destimation par intervalle.
Dans la suite on note X la variable alatoire dont on cherche estimer une caractristique, aussi appele paramtre, dont la valeur est note . Par exemple le paramtre peut tre la glycmie, et sa valeur celle du patient considr.
2010 - 2011
95/175
10.2 Estimation ponctuelle

10.2.1 Dfinition
A partir dun chantillon (X 1, X 2, ..., Xn ) de la variable alatoire X, on construit une nouvelle variable alatoire t(X 1, X 2, ..., Xn ) dont les ralisations se rapprochent de la valeur . Cette nouvelle variable est appele estimateur de . Pour simplifier, cette variable t(X 1, X 2, ..., Xn ) est note n Tn ou T. 1 Par exemple t(X 1, X 2, ..., Xn ) = M n = -- X i se rapproche de lesprance de X (voir chapitre n 9). i=1 Cest un estimateur naturel de E[X].
10.2.2 Proprits
Les estimateurs sont des fonctions des chantillons : ce sont donc des variables alatoires qui possdent une densit de probabilit, et le plus souvent, une moyenne (esprance mathmatique) et une variance. Ces deux grandeurs permettent de comparer, dans une certaine mesure, les estimateurs entre eux.
Figure 8 : densit de probabilit de 3 estimateurs T1, T2 et T3 La figure 8 reprsente les densits de probabilit de 3 estimateurs T1, T2 et T3 dune moyenne .
10.2.2.1 Biais
On voit sur la figure 8 que T1 et T2 sont centrs autour de , tandis que T3 a pour moyenne ' infrieure . Cette notion est dfinie plus prcisment de la manire suivante : Le biais dun estimateur, not B(T), est la diffrence moyenne entre sa valeur et celle de la quantit quil estime. On a :
96/175
2010 - 2011
B(T) = E(T - ) = E(T) - Ici, on a : B(T1) = E(T1 - ) = E(T1) - = 0 de mme : B(T2) = 0 mais : B ( T3 ) = E ( T3 ) = E ( T3 ) = ' < 0 On dit que T1 et T2 sont des estimateurs sans biais de , et que T3 est un estimateur biais de .
10.2.2.2 Variance
La variance dun estimateur est dfinie de la manire usuelle : var(T) = E[T - E(T)]2 Si deux estimateurs sont sans biais, le meilleur est celui qui a la variance la plus petite : en effet, ses valeurs sont en moyenne plus proches de la quantit estime. Par exemple, sur la figure ci-dessus, on voit que var(T1) < var(T2). On peut donc conclure que T1 est un meilleur estimateur de que T2. Quand des estimateurs sont biaiss, en revanche, leur comparaison nest pas aussi simple : un estimateur peu biais, mais de variance trs faible, pourrait mme, en pratique, tre prfr un estimateur sans biais, mais de variance grande.
10.2.2.3 Erreur quadratique moyenne

Lerreur quadratique moyenne est une grandeur permettant de comparer des estimateurs entre eux, quils soient biaiss ou sans biais. Elle est dfinie de la manire suivante : EQM(T) = E[(T - )2] On dmontre facilement quon peut relier lerreur quadratique moyenne, lesprance et la variance dun estimateur par lexpression suivante : EQM(T) = var(T) + [E(T) - ]2 = var(T) + B(T)2 En particulier, lerreur quadratique moyenne des estimateurs sans biais est gale leur variance. Lorsquon compare deux estimateurs, on considre que le meilleur est celui qui prsente lerreur quadratique moyenne la plus faible.
10.2.3 Exemple
On a souvent utilis, dans ce cours, les quantits m, moyenne observe, et s 2, variance observe. La variable alatoire moyenne arithmtique, note Mn , a t tudie au chapitre 8. De la mme manire, tudions la variable alatoire variance Sn 2, dfinie par : n 2 2 S n = ----------- [ M 2, n M n ] n1 o M 2, n est la variable alatoire moyenne arithmtique de X 2 .
2010 - 2011
97/175
On va calculer E(Sn 2). On rappelle que si U est une variable alatoire, la variable moyenne arithmtique dfinie sur U a les proprits suivantes : E ( M U, n ) = E ( U ) 1 (1) et var ( M U, n ) = -- var ( U ) n (2)
On a par ailleurs : var(U) = E(U 2) - [E(U)]2 et donc E(U 2) = var(U) + [E(U)] 2
(3).
On peut maintenant calculer E(Sn 2). Soit X une variable alatoire desprance E(X) = et de variance var(X) = 2. On a : n 2 2 E ( S n ) = ----------- [ E ( M 2, n ) E ( M n ) ] n1 Mais E ( M 2, n ) = E ( X ) = + daprs (1) et (3),
2 ----= var ( M n ) + [ E ( M n ) ] = - + daprs (3), (2) et (1), n 2 n - 2 2 2 ----------- + ----- 2 = 2 . et finalement : E ( S n ) = n1 n 2 et E ( M n ) 2 2 2 2 2
Sn 2 est donc un estimateur sans biais de 2.
10.3 Estimation par intervalle - Intervalle de confiance

Bien que des intervalles de confiance soient dfinissables pour toute quantit estime, leur dtermination est le plus souvent difficile. Nous nous limiterons donc dans ce cours la dfinition des intervalles de confiance des moyennes (et proportions) vraies .
10.3.1 Exemple dune proportion

Lide directrice est la suivante : on souhaite associer une valeur observe p un intervalle appel INTERVALLE DE CONFIANCE qui ait de bonnes chances de contenir la valeur vraie de la proportion. Que signifie de bonnes chances ? Si lon effectue un grand nombre de fois lexprience - chaque exprience produisant un pourcentage observ p - on construit autant dintervalles de confiance. On voudrait quun grand nombre de ces intervalles contienne la valeur vraie . Par exemple que 95 % des intervalles en gros contiennent . On parlera alors dintervalle de confiance DE NIVEAU 0,95 ou dintervalle de confiance AU RISQUE 0,05. On considrera gnralement des intervalles de confiance de niveau 1-. La valeur sera alors le risque - ou la probabilit - pour quun intervalle de confiance ne contienne pas la proportion vraie .
98/175
2010 - 2011
DE FACON GENERALE, LINTERVALLE DE CONFIANCE AU RISQUE DUNE VALEUR QUE LON CHERCHE A ESTIMER EST UN INTERVALLE QUI CONTIENT AVEC UNE PROBABILITE 1 - LA VALEUR CHERCHEE ; IL SAGIT DUN INTERVALLE QUE LON DEVRA ETRE EN MESURE DE CONSTRUIRE A LISSUE DUNE EXPERIENCE PORTANT SUR UN ECHANTILLON. Comment construire de tels intervalles ? Cest facile graphiquement.
Figure 9
2010 - 2011
99/175
Figure 10 Considrons la figure 9. On a port en abscisses une chelle 0-1 de mesure de proportions vraies , en ordonnes une chelle de mesure de proportions observes. Donnons nous une valeur de proportion vraie ; on sait associer cette valeur un intervalle de pari de niveau 0,95 de la proportion observe que lon est susceptible dobtenir au cours dune exprimentation conduite sur n individus. Cet intervalle de pari peut tre reprsent sur lchelle verticale. Si lon opre cette reprsentation pour toutes les valeurs possibles dune proportion vraie , on obtient un domaine limit par les deux courbes reprsentes sur la figure. Considrons alors un problme mettant en jeu une proportion vraie , . Supposons que nous fassions un ensemble dexpriences, chaque exprience portant sur n individus tant productive dune valeur de proportion observe p. On peut associer chacune de ces expriences un point de coordonnes (, p) sur la figure 9. Compte tenu de la construction prcdente, on peut affirmer que ces points appartiendront 95 fois sur cent (cest--dire dans 95 % des expriences) au domaine limit par les deux courbes, et ceci quelle que soit la valeur de . Maintenant supposons quune exprience unique ait t ralise, produisant une valeur de proportion, p. Le problme est, sur la base de cette valeur, de dfinir un intervalle ayant de bonnes chances de contenir la valeur inconnue de la proportion vraie . La solution, immdiate, est fournie par la figure 10. Il suffit de trancher le domaine limit par les deux courbes DANS LAUTRE SENS. Cet intervalle contiendra 95 fois sur cent la vritable valeur de la proportion. Ainsi, si on adopte cette stratgie de construction, on aura pour chaque valeur observe p un intervalle qui contiendra avec la probabilit 0,95. Le problme est rsolu. Maintenant, ce qui est simple sur un dessin est compliqu en termes de calcul et il existe des tables dintervalles de confiance et des formules toutes faites permettant de former des intervalles de confiance approchs.
100/175
2010 - 2011
10.3.2 Intervalle de confiance approch dune proportion vraie

On montre quune bonne approximation de lintervalle de confiance de niveau 1 - de , fond sur la valeur observe p, p tant calcule sur n individus, est donne par lintervalle ci-dessous : IC 1 = p u p ( 1 p ) ; p + u p ( 1 p ) ------------------------------------n n Notons min et max les bornes de cet intervalle. Cette approximation nest juge satisfaisante que sous les CONDITIONS DE VALIDITE suivantes : nmin 5, n(1-max) 5 LORSQUE LES CONDITIONS DE VALIDITE NE SONT PAS REMPLIES, IL FAUT AVOIR RECOURS A DES TABLES (hors programme). Exemple : n = 100, = 0,05, p = 0,12 IC 0 ,95 = 0 ,12 1 ,96 0 ,12 0 ,88 ; 0 ,12 + 1 ,96 0 ,12 0 ,88 = [ 0 ,06 ; 0 ,18 ] ----------------------------------------------------100 100 conditions de validit 100 0,06 = 6 5. 100 (1 - 0,18) = 82 5.
10.3.3 Intervalle de confiance approch dune moyenne vraie (variable continue)

De mme, il existe une expression approche pour lintervalle de confiance de niveau 1 - dune moyenne vraie , intervalle fond sur la valeur observe m obtenue aprs une exprience portant sur n individus. Le calcul de cet intervalle suppose en outre le calcul de la variance observe s 2. Lexpression est la suivante : ssIC 1 = m u ------ ; m + u -----n n Lapproximation ci-dessus nest juge satisfaisante que sous la CONDITION DE VALIDITE : n 30. Lorsque cette condition nest pas remplie, on ne sait plus former dintervalle de confiance sauf si lon peut supposer que la variable primitive X dintrt est normale. Si la variable tudie est NORMALE, alors, et sans autre condition de validit, un intervalle de confiance de niveau 1 - a pour expression : ssIC 1 = m t ------ ; m + t -----n n
2010 - 2011
101/175
o t est associ une nouvelle distribution, dite de Student, (n-1) degrs de libert (voir section 7.2.3 page 71). La notation t sapparente la notation u et est explicite table A.6 page 175. Remarque (pour une variable normale encore) Si la variance vraie de la variable tudie, 2, est connue, lintervalle de confiance a la forme suivante : IC 1 = m u ------ ; m + u -----n n
10.3.4 Applications
Lintervalle de confiance exprime fondamentalement, comme son nom lindique, la confiance que lon peut attribuer un rsultat exprimental. IDEALEMENT TOUT PROBLEME DESTIMATION DEVRAIT ETRE PRODUCTIF DUN INTERVALLE DE CONFIANCE. Ne donner quune estimation ponctuelle masque lincertitude qui accompagne tout rsultat. Exemple : supposons qutudiant la frquence dun vnement, on ait obtenu une frquence observe p gale 0,12. Supposons que cette valeur ait t obtenue sur la base de 8 individus (lvnement tudi sest donc ralis une fois). On peut lire dans une table spcialise que lintervalle de confiance de la frquence vraie est, au risque 0,05 [0,003 ; 0,527]. Cela signifie que cette valeur observe de 12 % sur si peu dindividus ne fait quindiquer ceci : la frquence vraie se situe dans le domaine 3 , 52,7 %. Supposons que cette mme valeur 12 % ait t obtenue sur la base de 100 individus (lvnement tudi sest ralis 12 fois au cours des 100 essais). Lintervalle de confiance associ est alors proche de [0,06 ; 0,18]. Sur la base de cette valeur 12 %, on est maintenant en mesure daffirmer, acceptant toujours un risque derreur de 5 pour cent, que la frquence vraie se situe dans le domaine 6 %, 18 %, domaine beaucoup plus troit que le prcdent. De faon gnrale, la longueur de lintervalle de confiance indique la prcision obtenue. Les deux exemples qui suivent montrent lusage que lon peut en faire.
10.3.4.1 Prcision dun sondage

Supposons que lon sapprte raliser un sondage pour estimer la prvalence dune maladie, cest--dire la proportion de la population atteinte par cette maladie la date du sondage. On souhaite un rsultat prcis, cest--dire que lon souhaite par exemple que lintervalle de confiance rsultant ait une longueur au plus gale 0,04, avec un risque derreur de 5 %. On remarque que la longueur de lintervalle de confiance ne dpend que dune seule grandeur contrlable, le nombre dindividus. La question est donc : combien dindividus faut-il inclure dans le sondage ? Ce problme est simple, puisque la longueur de lintervalle de confiance stablit : 102/175
2010 - 2011
2 1 ,96 p ( 1 p ) quon arrondit ici 4 p ( 1 p ) ------------------------------------n n Leffectif de lchantillon devra donc tre au moins 10000 p(1 - p). Toutefois, cet effectif dpend de p, inconnu avant lexprience. Lusage de ces calculs supposera donc que lon ait une ide du rsultat attendu, grce un sondage exploratoire par exemple ou grce une connaissance pralable du phnomne tudi. De faon gnrale, si lon souhaite obtenir un intervalle de confiance dune proportion de longueur 2i, il est ncessaire dinclure un nombre dindividus au moins gal : p( 1 p) 2 p(1 p) 4 ------------------- au risque 0,05 (ou u ------------------- au risque ) 2 2 i i REMARQUE Lorsque le sondage est ralis, un intervalle de confiance lui est associ. Dans le langage courant, les instituts de sondage nomment ces intervalles de confiance des FOURCHETTES.
10.3.4.2 Prcision dune moyenne

Dans le cas o lon sintresse la moyenne vraie dune variable quantitative, on peut effectuer le mme type de calcul. Pour obtenir un intervalle de confiance de longueur 2i, il faut inclure un nombre dindividus au moins gal : n = i Lexploitation de ce calcul ncessite ici une connaissance, mme approximative, de la variance de la variable tudie pour se donner a priori s 2- ou mieux 2. Exemple trs important : les problmes de dosage. Soit doser la glycmie ; on a devant soi un chantillon de sang. Quelle est la concentration en glucose ? Si on fait plusieurs dosages, on va obtenir plusieurs rsultats. Cela est d, non la variabilit de la glycmie, mais aux erreurs analytiques. On assimile la glycmie vraie la moyenne vraie de la variable alatoire rsultat du dosage . Supposons que lon connaisse la variance des rsultats, car on connat bien la technique analytique. Par exemple, = 10 mg.l-1. Supposons en outre que les rsultats exprimentaux soient distribus normalement. Si on effectue un dosage donnant 90 mg.l-1, on a pour intervalle de confiance approch ( tant connu) : IC0,95 = [90 - 2 ; 90 + 2] = [70 ; 110] soit un intervalle de longueur 40. Si on effectue deux dosages donnant 90 et 96 mg.l-1, on a IC 0 ,95 = 93 2 ------ ; 93 + 2 ------ = [ 78 ,9 ; 107 ,1 ] 2 2 soit un intervalle damplitude 28,2.
2 2s ---u 2
2010 - 2011
103/175
Si lon effectue trois dosages donnant 90, 96 et 93 mg.l-1 on a IC 0 ,95 = 93 2 ------ ; 93 + 2 ------ = [ 81 ,5 ; 104 ,5 ] 3 3 soit un intervalle damplitude 23,0. Ces calculs objectivent le fait bien connu selon lequel la rptition des dosages permet dattnuer les consquences des erreurs exprimentales. Certains dosages - certaines mesures (tension artrielle) - sont rpts avant quune valeur soit indique.
104/175
2010 - 2011
Les tests dhypothses. Principes
Chapitre 11 Les tests dhypothses. Principes

Les tests dhypothses sont fonds sur les intervalles de pari.
11.1 Un exemple concret (emprunt Schwartz)

Une varit de souris prsente des cancers spontans avec un taux (une frquence ou proportion dans la population) constant bien connu, = 20 %. On se demande si un traitement donn modifie ce taux (en plus ou en moins), cest--dire est actif. Pour rpondre cette question on procde une exprience sur 100 souris ; il sagira, au vu du pourcentage observ p danimaux cancreux, de dire si le traitement est actif. Il nest pas possible de rpondre au sens strict cette question. Supposons que le traitement soit sans effet ; alors chaque souris traite aura toujours 20 chances sur 100 de devenir cancreuse. Mais le pourcentage de souris cancreuses, calcul sur un chantillon de 100 souris sera soumis aux fluctuations dchantillonnage que lon a tudies. Le pourcentage observ (moyenne observe) pourra prendre a priori, cest--dire avant exprience, plusieurs valeurs, mme si les valeurs voisines de 0,2 sont les plus probables. Des valeurs de 0 ou 100 % pourraient mme tre observes. Ainsi mme si le pourcentage observ est trs diffrent de 20 %, il est possible que le traitement soit sans effet. Supposons maintenant que le traitement soit actif ; la probabilit de cancer pour chaque souris (ou la proportion vraie de souris cancreuses dans une population fictive de souris traites) est 1, diffrente de 0,2. Encore cause des fluctuations dchantillonnage, on pourra trs bien, peut tre de faon peu probable, obtenir une frquence observe gale 20 %. Ainsi mme si le pourcentage observ est 20 %, il est possible que le traitement soit actif. On ne peut donc rpondre avec certitude la question pose. Pourtant ne pas rpondre serait renoncer considrer tous les problmes lis la variabilit, cest-dire tous les problmes biologiques. Alors on rpondra, mais en acceptant un risque derreur. Rpondre correspond la dmarche que chacun adopterait ; par exemple, dclarer le traite-
2010 - 2011
105/175
ment actif si le taux observ de cancers aprs traitement scarte nettement de 20 %. Cest le sens que lon peut donner ce nettement qui est le fondement du principe des tests. Dans le cas tudi, on aurait tendance sy prendre de la faon suivante. Deux hypothses sont en prsence : le traitement est inactif, le traitement est actif.
La premire hypothse est plus fine que la seconde car elle porte en elle une interprtation numrique : le pourcentage vrai de souris cancreuses parmi les souris traites est 0,2 - lautre hypothse indiquant seulement que ce pourcentage est diffrent de 0,2 ; ce qui est plus vague. Supposons alors vraie lhypothse la plus fine. Il devient possible de faire des dductions : sachant ce qui se passe au niveau de la population des souris traites on peut en dduire ce qui se passera au niveau dun chantillon. En particulier, on sait construire les intervalles de pari centrs de niveau 1 - pour la frquence observe. Par exemple, prenant = 0,05 et n = 100 souris, on obtient IP0,95 = [0,12 ; 0,28] Cela signifie, rappelons-le, que si = 0,2 (frquence suppos vraie ), 95 % des valeurs des moyennes observes calcules sur 100 individus appartiendront lintervalle [0,12 ; 0,28]. On adopte alors la stratgie suivante : si la valeur observe de la frquence de souris cancreuses parmi les 100 traites appartient cet intervalle, on considre que cette valeur est compatible avec les fluctuations dchantillonnage et lactivit du traitement nest pas prouve. Si la valeur observe nappartient pas cet intervalle, le traitement sera considr comme actif. Dans ce dernier cas le raisonnement est le suivant. Cet vnement (la frquence observe est lextrieur de lintervalle de pari) avait moins de 5 chances sur 100 de se produire et pourtant il sest produit ; donc je ne crois plus lhypothse qui ma permis de dduire ces 5 % de chances. Remarque : reformulation des calculs Notons p la proportion observe de souris traites dveloppant un cancer, sur les n souris traites. Le rsultat du test sera de conclure ou non lactivit du traitement selon que p ou IP 1 cest--dire : 0 ( 1 0 ) 0 ( 1 0 ) p ou 0 u ------------------------- ; 0 + u ------------------------n n o 0 est la proportion hypothtique (0,2 dans lexemple) et u la borne de lintervalle de pari au risque de p. On suppose ici que les conditions du thorme central limite sont satisfaites. On conclut donc selon
106/175
2010 - 2011
que 0 ( 1 0 ) 0 ( 1 0 ) p 0 ou u ------------------------- ; u ------------------------n n ou encore selon que p 0 ------------------------------ ou [ u ; u ] 0 ( 1 0 ) ------------------------n On reconnat dans la dernire expression lintervalle de pari IP 1 dune variable alatoire N(0, 1), intervalle indpendant de lexprience projete. Cest comme cela que lon abordera gnralement les tests ; on cherchera construire une variable alatoire dont on connaisse, si lhypothse fine est vraie, la distribution, pour pouvoir construire un intervalle de pari ; ici il sagirait de la variable alatoire Z dduite de la variable alatoire moyenne arithmtique selon : Pn 0 Z = -----------------------------0 ( 1 0 ) ------------------------n avec 0 = 0,2 (transcription de lhypothse). Une telle variable alatoire sappelle usuellement paramtre du test et est note conventionnellement Z. Ici on sait que Z ~ N(0, 1) et lon construit lintervalle de pari de niveau 1 - pour Z. Par exemple avec = 0,05 , IP0,95= [-1,96 ; 1,96]. Puis on ralise lexprience ce qui permet dobtenir p, valeur observe de Pn , donc une valeur observe de Z, note u : p 0 z = -----------------------------0 ( 1 0 ) ------------------------n On pourrait alors sexprimer comme ceci (une terminologie plus prcise sera indique plus loin) : si z IP 0, 95 on ne peut pas dire que le traitement est actif si z IP 0, 95 le traitement est actif.
Nous allons, la lumire de cet exemple, numrer les tapes de mise en uvre dun test et revenir sur diffrents aspects (sens de par exemple) avant de donner dautres exemples de tests usuels
2010 - 2011
107/175
11.2 Principe gnral des tests dhypothses

La mise en uvre dun test statistique ncessite plusieurs tapes.
11.2.1 Les tapes de mises en uvre

Etape 1 Avant le recueil des donnes. Dfinir avec prcision les deux hypothses en prsence H0 et H1. H0 et H1 jouent toujours des rles dissymtriques. Le plus souvent, une des hypothses est prcise, ou fine. Elle engage une galit gnralement ; cest elle qui sera H0 et on lappellera hypothse nulle, H0 : hypothse nulle Exemple : la frquence vraie dapparition du cancer chez les souris traites est 0,2, ce qui se transcrit par = 0,2 (plus gnralement = 0). Le principe des tests est dadmettre cette hypothse H0 sauf contradiction flagrante entre ses consquences et les rsultats exprimentaux. Lautre hypothse est toujours plus vague ; elle regroupe toutes les hypothses, hormis H0. Cest H1 et on lappellera hypothse alternative, H1 : hypothse alternative Exemple : la frquence vraie dapparition du cancer chez les souris traites est diffrente de 0,2, qui se transcrit par 0,2 (gnralement 0). Remarque : la formulation de ces hypothses ncessite gnralement une traduction et une simplification du problme mdical sous-jacent. Etape 2 Avant le recueil des donnes. On suppose que H0 est vraie et on cherche dfinir une variable alatoire (ou paramtre) dont on connait alors la distribution. En dautres termes, on cherche construire une fonction des donnes venir dont on connait la distribution si H0 est vraie. Soit Z cette variable alatoire. Pn 0 Exemple : Z = ------------------------------ N ( 0, 1 ) 0 ( 1 0 ) ------------------------n
108/175
2010 - 2011
Si possible, vrifier les conditions de validit. Etape 3 Avant le recueil des donnes. Choisir un seuil. Typiquement = 0,05 (une quasi obligation en pratique) Construire un intervalle de pari (pour le paramtre Z) de niveau 1 - , not IP 1 . Rappelons quil sagit dun intervalle tel que si H0 est vraie, alors P ( Z IP 1 ) = 1 Exemple : IP 1 pour Z ci-dessus = [-1,96 ; 1,96] Dfinition : lextrieur de lintervalle de pari IP 1 sappelle rgion critique du test au seuil . Etape 4 Avant le recueil des donnes. Dfinir la rgle de dcision. Les donnes vont permettre de calculer une valeur de Z, que lon note z. p rellement observ 0 Exemple : z = -----------------------------------------------0 ( 1 0 ) ------------------------n Alors dcider que : si z appartient la rgion critique, remettre en cause H0, la rejeter, et conclure H1 est vraie, ou dire : au risque , H0 est rejete . si z nappartient pas la rgion critique, mais lintervalle de pari IP 1 , dire que lon ne conclut pas, ou dire que lon ne rejette pas lhypothse nulle H0.
Etape 5 Recueil des donnes Raliser lexprience. On recueille les donnes x 1, ..., xn ; calculer z et conclure. Si non fait ltape 2, vrifier les conditions de validit. Etape 6 Interprtation des rsultats Cette tape concerne linterprtation des rsultats en des termes compatibles avec le problme mdical initialement soulev, et concerne en particulier le problme de la causalit. Ce point sera dtaill au chapitre 15. Exemple : dans le cas des souris, et en cas de conclusion au rejet de lhypothse nulle, la question serait de savoir si ce rejet exprime vritablement une activit du traitement.
2010 - 2011
109/175
11.2.2 Justification de la rgle de dcision. Choix de

11.2.2.1 Interprtation de
On a dj vu une interprtation de avec lexemple des souris. De faon gnrale, est la probabilit pour que la valeur observe - ou calcule - z appartienne la rgion critique si H0 est vraie. Si cet vnement se ralise, on rejette H0. Cela ne se justifie que si est petit car alors on dit : voil un vnement qui avait 100 % chances de se raliser (5 % par exemple) - donc peu de chances et qui pourtant sest ralis : les rsultats ne sont pas conformes lhypothse doit tre petit. Une autre interprtation de montre encore mieux que doit tre petit. A nouveau, lorsque H0 est vraie, la probabilit dobtenir un rsultat z dans la rgion critique est . Mais alors on dit H1 est vraie . Donc = probabilit de conclure H1 alors que H0 est vraie Cest un risque derreur quil convient de situer dans des valeurs acceptables (petites). Cette valeur sappelle RISQUE DE PREMIERE ESPECE. Cela veut dire que sur un grand nombre dexpriences, en admettant , on conclura tort dans 100 % des cas (5 % des cas par exemple). Pourquoi alors ne pas choisir un microscopique ?
11.2.2.2 Effet dun changement de valeur de

Les intervalles de pari croissent lorsque leur niveau augmente, cest--dire lorsque diminue. IP = 0,1 = 0,05 = 0,01 [ [ IP [ IP ] ] ]
Donc, toutes choses gales par ailleurs, la rgion critique diminue lorsque dcrot. Donc on rejette moins frquemment H0. A vouloir commettre moins derreurs, on conclut plus rarement. On sexpose donc un autre risque : celui de ne pas conclure alors quil le faudrait car H0 est fausse. A la limite, si on se fixe = 0, on ne conclut jamais, H0 nest jamais rejete. Prendre une dcision, cest accepter un risque. Pour finir avec ce problme de il faut retenir :
110/175
2010 - 2011
La valeur de doit tre fixe a priori : jamais en fonction des donnes Pire que cela, on choisit la valeur = 0,05 qui est un compromis entre le risque de conclure tort et la facult de conclure, compromis adopt par lensemble de la communaut scientifique.
11.2.3 Justification des conclusions du test. Puissance dun test

On comprend maintenant la partie de la rgle de dcision conduisant au rejet de H0 lorsque la valeur calcule du paramtre nappartient pas lintervalle de pari. On a par ailleurs indiqu (voir ltape 4 de mise en uvre des tests) que lorsque la valeur calcule du paramtre appartient lintervalle de pari, cest--dire lorsque les rsultats exprimentaux ne sont pas contradictoires avec lhypothse nulle, on sexprime avec beaucoup de prcautions oratoires puisquon demande de dire : on ne conclut pas ou on ne rejette pas lhypothse nulle . Pourquoi ne pas affirmer plus directement lhypothse nulle est vraie ? Premier lment En faisant cela, on adopte une dmarche qui sapparente la dmarche scientifique qui consiste admettre une thorie jusqu la preuve de son chec. Lorsque lon dit admettre on ne signifie pas que la thorie est vraie mais quelle rend compte pour linstant - jusqu plus ample inform - des expriences. Exemples la mcanique gnrale admise jusqu la thorie de la relativit la mcanique cleste
Second lment Supposons que lon mette en parallle les deux tests suivants : H0 : = 0,2 H1 : 0,2 Les paramtres calculs, soit 0,2 0,200001 H0 : = 0,200001 H1 : 0,200001
p observe 0 z = ------------------------------0 ( 1 0 ) ------------------------n seront extrmement voisins, donc les conclusions pratiquement toujours les mmes.
2010 - 2011
111/175
Considrons alors une exprience au cours de laquelle z IP 0, 95 pour les deux valeurs calcules. Peut-on conclure la fois = 0,2 et = 0,200001 ? Pourtant on peut remarquer quil ny a pas de vice de fond au niveau de la formulation des hypothses car il existe bien une valeur vraie , cest--dire quil y a vraiment une hypothse vraie du type = quelque chose. On retient : les tests ne sont pas faits pour dmontrer H0, mais pour la rejeter. Cela ne veut pas dire que lon est toujours content de rejeter H0. Exemples cas des souris traites. L on aimerait probablement rejeter H0, cest--dire conclure lactivit du traitement. cas dun test dhomognit. On vous livre un nouveau lot de souris ou des souris dun autre levage. Vous voulez continuer vos recherches. La premire chose faire est de tester lhypothse selon laquelle ces nouvelles souris sont similaires aux prcdentes vis--vis du taux de cancer, H0 : = 0,2. Mais l vous esprez bien ne pas rejeter H0. Cest cette condition que vous pouvez continuer.
PUISSANCE DUN TEST Revenons la conclusion lactivit du traitement nest pas dmontre . Sous entendu compte tenu de lexprience effectue. Cela na de sens de sexprimer comme cela que sil est pensable quune autre exprience, plus complte par exemple, puisse montrer cette efficacit si elle existe. Cest le cas, en effet. Laptitude dun test rejeter lhypothse nulle alors quelle est fausse est limite. Prcisment : On appelle PUISSANCE DUN TEST P la probabilit de rejeter lhypothse nulle, face une hypothse alternative, alors quelle est fausse. La valeur complmentaire 1 de cette puissance, cest--dire la probabilit de ne pas rejeter lhypothse nulle alors que lhypothse alternative est vraie, sappelle le RISQUE DE DEUXIEME ESPECE et se note conventionnellement : = 1 - P. Le calcul de la puissance dun test est une opration complexe. La difficult tient essentiellement au fait que lhypothse alternative est vague. Pour contourner cette difficult et apprcier plus troitement cette notion de puissance, considrons le cas dune hypothse alternative fine. Par exemple, reprenant lexemple des souris, supposons que lhypothse H1 soit = 0,3, lhypothse H0 restant inchange, cest--dire = 0,2. Dans ces conditions, il est possible de calculer la distribution de la proportion observe, non plus seulement sous lhypothse nulle, mais galement sous lhypothse alternative. On obtient : 0 ,2 ( 1 0 , 2 ) sous lhypothse nulle ( = 0,2) : P n N 0 ,2, ----------------------------- n 0 ,3 ( 1 0 , 3 ) sous lhypothse alternative ( = 0,3) : P n N 0 ,3, ----------------------------- n
112/175
2010 - 2011
Figure 11 : risque de deuxime espce dun test La figure 11 prsente les deux distributions correspondantes, pour une certaine valeur de n. Supposons alors juste lhypothse H1 ; la valeur observe p sera issue de la distribution de droite, et lon conclura tort au non rejet de H0 avec une probabilit gale laire grise, puisque cette aire est la probabilit pour que la valeur observe appartienne lintervalle de pari associ au test, sachant que cette valeur observe est gouverne par la distribution associe H1. Ainsi la valeur de cette aire grise exprime le risque de deuxime espce , son complmentaire 1 la puissance du test. Supposons pour fixer les ides que la valeur de cette aire soit 0,4. Cela signifie que si les hypothses sont = 0,2 et = 0,3, on aura 6 chances sur dix seulement de rejeter lhypothse = 0,2 lorsque sera gal 0,3. Autrement dit, 4 fois sur dix, on sera incapable de dtecter que vaut 0,3 et non 0,2.
Figure 12 : risque de deuxime espce dun test Par ailleurs, on peroit que plus les hypothses H0 et H1 sont contrastes (par exemple les hypothses = 0,2, = 0,4 sont plus contrastes que les hypothses = 0,2, = 0,3), plus les distributions de P n sous ces deux hypothses sont loignes , et plus la puissance est grande. Cest la raison pour laquelle on dit souvent que la notion de puissance est proche de la notion de pouvoir discriminant entre hypothses.
2010 - 2011
113/175
La figure 12 reproduit les conditions de la figure 11, mais avec une valeur de n accrue. Autrement dit le mme test est mis en uvre, mais sur un nombre dunits statistiques suprieur. On constate sur cette figure que le risque de deuxime espce est trs faible. Ce rsultat est gnral : TOUTES CHOSES EGALES PAR AILLEURS, LA PUISSANCE DUN TEST AUGMENTE AVEC LA TAILLE DE LECHANTILLON Remarque Les calculs de puissance bauchs ci-dessus, joints au rsultat prcdent, permettent de rpondre des questions du type : combien de sujets est-il ncessaire dinclure dans un essai pour avoir de bonnes chances (9 chances sur dix par exemple) de mettre en vidence une diffrence entre proportions vraies dau moins 0,1 ? si je dispose de 100 sujets, quelle diffrence minimum entre proportions vraies suis-je capable de dtecter avec une probabilit de 0,9 ?
Des formules de la relation entre puissance et taille des chantillons seront donnes dans le chapitre 12. Les dveloppements ci-dessus montrent que lorsque vous navez pas rejet lhypothse nulle, vous pouvez toujours dire que cest un manque de puissance du test puisque H0 est sans doute fausse (pensons = 0,2 exactement). On peut donc dire quavec un plus grand nombre dindividus vous auriez rejet H0. Cela justifie lexpression lactivit du traitement nest pas dmontre . Cependant il faut tre raliste : reprenons lexemple des souris traites ou non traites. Vous avez ralis votre exprience sur un chantillon de 1000 souris. Rsultat du test : non rejet de H0 cest--dire lactivit nest toujours pas dmontre. Il nest pas raisonnable dans ces conditions dvoquer un manque de puissance du test ; ce rsultat suggre plutt une trs faible activit du traitement, si elle existe.
11.2.4 Amlioration de linterprtation du rejet de H0

11.2.4.1 Notion de degr de signification
Supposons que lon ralise un test au risque ou seuil = 0,05. Considrons deux expriences conduisant au rejet de H0, pour lesquelles on a obtenu des valeurs calcules du paramtre z 1 et z 2 reprsentes ci-dessous. On aurait envie de rejeter plus fortement H0 dans le second cas que dans le premier. En effet, considrons des intervalles de pari pour z, de niveau croissant partir de 0,95.
114/175
2010 - 2011
z1 IP0,95 IP0,97 IP0,99 IP0,999 [ [ [ [ ] ] ]
z2
On observe que z 1 est lextrieur des intervalles de pari jusquau niveau 0,97, que z 2 est lextrieur des intervalles de pari jusquau niveau 0,999. Cela signifie que, en ce qui concerne la premire exprience, H0 aurait t rejete mme si on avait limit le risque derreur 1 - 0,97 = 0,03 (soit 3 %), et que, en ce qui concerne la seconde, H0 aurait t rejete mme si on avait limit le risque derreur 1 - 0,999 = 0,001 (soit 1). Cest ce pseudo risque derreur que lon appelle degr de signification et qui mesure la force avec laquelle on rejette H0. Ce degr de signification est not p : plus il est petit, plus confortable est le rejet. Si lon veut une dfinition plus prcise : Dfinition Lorsque H0 est rejete, on appelle degr de signification dun test le risque associ au plus grand intervalle de pari qui ne contient pas le paramtre calcul z. Calcul pratique du degr de signification On cherche dans la table la valeur de p pour laquelle up = z, up tant du type u Exemple: z = 2,43. On trouve dans la table u 0,02 = 2,32 et u 0,01 = 2,57 alors p [ 0 ,01 ; 0 ,02 ] La valeur exacte ne se trouve pas dans la table : on dira p < 0,02. Le plus grand intervalle de pari ne contenant pas z est de niveau > 0,98, ou au risque < 0,02. La plupart des rsultats de tests sexpriment avec ce degr de signification : On ralise le test (avec un risque = 0,05) Si H0 est rejete, on calcule ou on value le degr de signification p Si H0 nest pas rejete, on ne calcule pas p.
11.2.4.2 Orientation du rejet

Le rejet de H0 correspond gnralement lune des deux situations : rejet car z est trop petit (infrieur la borne infrieure de lintervalle de pari) rejet car z est trop grand (suprieur la borne suprieure de lintervalle de pari)
2010 - 2011
115/175
Dans le cadre de lexemple prcdent, chacune de ces situations correspond gnralement des commentaires radicalement diffrents. Par exemple : z est trop petit le traitement est efficace z trop grand le traitement est nuisible
11.3 Rappels et prcisions

1. LES TESTS PRENNENT EN COMPTE DES HYPOTHESES SYNTHETIQUES On a vu que les tests reposent sur lnonc de deux hypothses exclusives. Il y a parfois beaucoup de chemin parcourir entre la formulation dun problme mdical et sa formulation en termes statistiques. Reprenons lexemple des souris de ce chapitre. Le problme fondamental est celui de lactivit du traitement. Cette activit peut avoir bien dautres manifestations que la modification de la frquence dapparition des cancers. On peut penser un effet portant sur lge de survenue de la maladie, portant sur la vitesse de dveloppement des tumeurs etc On ne peut rpondre simultanment toutes ces questions, par lintermdiaire dun test du moins : les tests ne permettent de rpondre qu des questions simples. 2. ON NE CHOISIT PAS LE SEUIL DE SIGNIFICATION Que dirait-on dun mdecin annonant : jaime le risque alors jai choisi un risque de 0,4 et le traitement que je propose est efficace (ou actif) ce risque ? = 0,05 est conventionnel 3. ON NE DIT PRATIQUEMENT JAMAIS : LEXACTITUDE DE LHYPOTHESE NULLE EST DEMONTREE ON NENCHAINE PAS LES TESTS DE FAON INCONSIDEREE En effet, les risques de conclusion tort augmentent alors. Par exemple, supposons que lon veuille tester lgalit une valeur donne de deux proportions (ex : succs dune intervention chirurgicale dans deux services hospitaliers, le pourcentage de succs sur la France tant par ailleurs connu (donnes de lanne prcdente par exemple)). Que se passe-t-il si lon effectue deux tests successifs dont les hypothses nulles sont : service 1 : 1 = 0 ; puis service 2 : 2 = 0. Le risque de premire espce global de la procdure exprime la probabilit de dire au moins une fois (soit au cours du premier test soit au cours du second) H1 alors que H0 est vraie les deux fois : Pr(conclure H1 au moins une fois si H0 est vraie) = 1 - Pr(ne rejeter H0 aucune des deux fois si H0 est vraie)
4.
116/175
2010 - 2011
Or Pr(ne pas rejeter H0 si H0 est vraie) = 1 - Donc Pr(ne rejeter H0 aucune des deux fois si H0 est vraie) = (1 - )2 do un risque total = 1 - (1 - )2 Exemple Si = 0,05, le risque global est environ 0,10. Cette situation saggrave si le nombre de tests saccrot. Ainsi, dans le cas de 3 services le risque global est 0,14 10 services le risque global est 0,40 100 services le risque global est 0,994
Cela signifie par exemple que dans le cas o 10 services sont comparer une rfrence il y a 4 chances sur 10 pour quau moins une frquence observe scarte de faon significative de la valeur de rfrence, alors quen ralit tous les rsultats sont homognes. Si lon prend la frquence observe la plus diffrente de la valeur de rfrence, le test permettra de conclure, tort, avec une probabilit suprieure 0,4. En fait, lorsque lon dsire faire des comparaisons multiples, des tests spcifiques doivent tre utiliss de faon que les conclusions puissent tre tires avec un risque derreur global de 5 %. 5. IL EST DANGEREUX ET ERRONE DE CHOISIR LES HYPOTHESES AU VU DES DONNEES Lorsque lon opre de cette faon, on a en ralit ralis plus ou moins consciemment un nombre indtermin de tests que lon a jugs non concluants. LA STRATEGIE DANALYSE DES DONNEES DOIT ETRE FIXEE CLAIREMENT AVANT LA REALISATION DE LEXPERIENCE
2010 - 2011
117/175
Rsum du chapitre
A. Etapes de mise en uvre des tests : 1. Examiner le problme mdical, aboutir une formulation sous forme dune question simple mettant en jeu deux hypothses H0 (prcise, dite hypothse nulle) et H1 (contraire de H0, dite hypothse alternative). Enoncer ces hypothses. Construire un paramtre dpendant des donnes venir dont on connaisse la distribution si H0 est juste. Choisir le seuil ; = 0,05 Mettre en place la rgle de dcision sur la base dun intervalle de pari au risque . Faire lexprience, les calculs et conclure sur le plan statistique. En particulier indiquer le degr de signification du test en cas de rejet de lhypothse nulle. Se livrer une interprtation mdicale des rsultats du test (ce point sera revu au chapitre 15).
2. 3. 4. 5. 6.
B.
Vrifier les conditions de validit ltape 2 ou ltape 5. Mettre en uvre un test cest accepter deux risques derreur : le risque de premire espce, , chiffrant la probabilit de rejeter H0 alors quelle est vraie, le risque de deuxime espce, , chiffrant la probabilit de ne pas rejeter H0 alors quelle est fausse.
La valeur 1- sappelle la puissance du test et mesure laptitude du test dtecter un cart entre la ralit et lhypothse nulle. Cette puissance augmente avec la taille des chantillons sur lesquels a t mis en uvre le test.
118/175
2010 - 2011
Quelques tests usuels
Chapitre 12 Quelques tests usuels

12.1 Tests concernant des variables de Bernoulli
12.1.1 Test dgalit dune proportion vraie une valeur donne (ou test de comparaison dune proportion observe une valeur donne)
12.1.1.1 Mise en place du test
Exemple : les souris du chapitre prcdent 1. Les hypothses en prsence H0 (hypothse nulle) : la proportion vraie (de souris cancreuses dans la population des souris traites) est gale 0 (proportion hypothtique ou suppose quon se donne pour le test). H1 (hypothse alternative) : la proportion vraie est diffrente de 0. Notations : H 0 : = 0 H 1 : 0 2. Dfinition du paramtre Pn 0 Z = -----------------------------0 ( 1 0 ) ------------------------n o P n reprsente la variable alatoire proportion. Sous H0, Z est peu prs distribue selon N(0, 1)
2010 - 2011
119/175
[conditions de validit : n0 5 et n(1 - 0) 5] 3. Choix dun seuil de signification Construction de lintervalle de pari de niveau 1 - : IP 1 Exemple : = 0,05 IP0,95= [-1,96 ; 1,96] (lu dans la table de la distribution normale) 4. Mise en place de la procdure de dcision Lorsque les donnes seront disponibles on obtiendra une valeur du paramtre Z, soit : p 0 z = -----------------------------0 ( 1 0 ) ------------------------n Si z IP 1 on rejette H0 et on dit : au risque lhypothse dgalit de la proportion vraie et de la valeur donne est fausse ; ou, au risque , la proportion vraie est diffrente de la valeur donne. Si z IP 1 on ne rejette pas H0 ou on ne conclut pas . 5. Recueil des donnes. Conclusion Rappelons les conditions de validit : n0 5 et n(1 - 0) 5
12.1.1.2 Autre interprtation du paramtre z

Regardons la forme du paramtre z. On conclut (cest--dire on rejette H0) si z [ u ; u ] cest-dire si z > u soit si : 0 ( 1 0 ) p 0 > u ------------------------n cest--dire si la proportion observe p est suffisamment diffrente de 0. Voil pourquoi on dit que lon compare p et 0. Cest pourquoi on dit aussi, lorsque H0 est rejete : La proportion observe est significativement diffrente de la valeur donne, au risque (0,05), ou encore : la diffrence entre p et 0 est significative. Ce qui indique une diffrence entre la valeur donne et la proportion vraie . Lorsque H0 nest pas rejete, on dit : la proportion observe nest pas significativement diffrente de la valeur donne. Trs important : une mme diffrence |p - 0| peut tre ou non significative selon la valeur de n. Si lon vous demande : p = 0,25 et 0,2, sont-elles significativement diffrentes, ne rpondez-pas ; demandez : quelle est la taille de lchantillon sur lequel p a t calcul, quel risque ?
120/175
2010 - 2011
12.1.1.3 Nombre de sujets ncessaires

Si on considre quen ralit = 1, le nombre de sujets ncessaires pour obtenir une puissance 1 - ( < 0,5) est approximativement donn par [ 1, 96 0 ( 1 0 ) + u 2 1 ( 1 1 ) ] n = ----------------------------------------------------------------------------------------------2 [ 0 1 ] Conditions de validit : n0 5 et n(1 0) 5
2
12.1.2 Test dgalit de deux proportions vraies (ou test de comparaison de deux proportions observes)
12.1.2.1 Mise en place du test
Reprenons lexemple des souris mais en supposant maintenant que lon ne connat plus la frquence vraie de cancer chez les souris non traites (le 0,2 dalors). On se pose toujours la mme question relative lactivit du traitement. On est amen reformuler lgrement le problme et identifier labsence dactivit du traitement lgalit des proportions vraies de souris cancreuses dans deux populations, lune traite lautre non traite, et lactivit une diffrence entre ces deux pourcentages. On notera A et B les deux populations, A et B les frquences vraies de souris cancreuses dans ces deux populations, nA et nB les tailles des chantillons sur lesquels on calculera p A et p B , les frquences observes correspondantes. Mettons en place le test. 1. Les hypothses en prsence H0 hypothse nulle : les frquences vraies sont gales A = B H1 hypothse alternative : les frquences vraies sont diffrentes A B 2. Construction dun paramtre dont on connaisse la loi sous lhypothse nulle (i.e. si H0 est vraie) Cest une tape un peu dlicate (le lecteur peu curieux peut passer rapidement sur ces dveloppements). Essayons de nous ramener un cas connu : comparaison dun pourcentage observ une valeur donne, problme associ aux hypothses suivantes : H 0 : = 0 H 1 : 0 On y parvient en reformulant les hypothses H 0 : A - B = 0 H 1 : A - B 0 Il sagit donc de comparer 0 la diffrence A - B . Pn 0 Auparavant on formait le paramtre -----------------------------0 ( 1 0 ) ------------------------n
121/175
v.a. proportion valeur thorique qui peut sinterprter comme ------------------------------------------------------------------------------cart-type de la v.a. proportion diffrence des v.a. proportions valeur thorique Alors on va former --------------------------------------------------------------------------------------------------------------------cart-type des diffrences des v.a. proportions P nA P nB soit ------------------------------------------------------------------------------------------------------------cart-type des diffrences des v.a. proportions La difficult est de former lexpression de lcart type des diffrences des % exprimentaux. Remarquons dabord que les variables alatoires P nA et P nB sont indpendantes ; cette indpendance rsulte du fait que ce nest pas parce que lon a trouv une souris cancreuse dans la population des souris traites que lon a plus ou moins de chances de trouver une souris cancreuse ou non dans la population non traite. Alors : var(P nA - P nB ) = var(P nA ) + var(-P nB ) = var(P nA ) + var(P nB ) (voir chapitre 6) Par ailleurs, sous lhypothse nulle, les moyennes vraies A de P nA et B de P nB sont identiques, et leur valeur commune, inconnue, est note . Do : ) var ( P nA ) = ( 1 - et var ( P nB ) = ( 1 ) ----------------------------------------nA nB si nA et nB sont les tailles des chantillons sur lesquels P nA et P nB sont calcules. Donc : var ( P nA P nB ) = ( 1 ) + ( 1 ) -------------------- ---------------------nA nB Maintenant, reste inconnu ; il sagit de la valeur vraie commune des pourcentages. Le mieux pour lestimer est de mlanger les deux populations - elles contiennent sous H0 le mme pourcentage de souris cancreuses - et dire : proche de = nombre de souris cancreuses dans les deux chantillons --------------------------------------------------------------------------------------------------------------------------------------nombre total de souris nA pA + nB pB soit : = -----------------------------nA + nB Finalement on adopte le paramtre suivant : P nA P nB Z = ----------------------------------------------------- ( 1 ) ( 1 ) -------------------- + ---------------------nA nB nA pA + nB pB avec = -----------------------------nA + nB Sous lhypothse nulle Z est peu prs distribue selon N(0, 1). Conditions de validit : n A 5, n A ( 1 ) 5 n B 5, n B ( 1 ) 5
122/175
2010 - 2011
3.
Choix dun seuil de signification ( = 0,05). Construction de lintervalle de pari IP 1 lu dans une table. ex. : IP0,95 = [-1,96 ; 1,96]
4.
Mise en place de la procdure de dcision Si z, dont on connatra la valeur une fois lexprience ralise IP0,95 on ne conclut pas IP0,95 on rejette H0 : une proportion est alors plus grande que lautre.
5.
12.1.2.2 Nombre de sujets ncessaires
pA pB Ralisation de lexprience, calcul de z = ------------------------------------------------------ , conclusion. ( 1 - + ( 1 ) ) -------------------- ---------------------nA nB
Pour obtenir une puissance 1 - ( < 0,5) sur la base de 2 chantillons de mme taille n, la valeur minimale de n est donne par la formule approche suivante 2 2 ( 1 ) A + B n = [ 1, 96 + u 2 ] ------------------------avec = -----------------2 2 [ A B ] Conditions de validit : nA 5, n(1 A) 5, nB 5 et n(1 B) 5
12.2 Tests concernant des variables quantitatives

12.2.1 Tests impliquant une valeur donne
Ces tests concernent les variables quantitatives continues et permettent de traiter les types de questions suivantes : 1. la moyenne vraie de la taille des individus dans une sous-population est-t-elle gale la moyenne vraie de la taille des individus dans la population gnrale, cette taille moyenne tant connue par ailleurs. la distribution de la taille des individus dans cette sous population est-elle dissymtrique par rapport cette moyenne vraie , cest--dire tmoigne-t-elle dune ingalit de frquences entre les petites tailles et les grandes tailles , ce qui est le cas par exemple si la frquence des 20-25 cms de moins que la moyenne est diffrente de celle des 20-25 cms de plus que la moyenne ?
2.
Ces deux tests sont apparents dans la mesure o le premier met lpreuve E(X) = 0, lautre le
2010 - 2011
123/175
fait que X - 0 et 0 - X ont la mme densit de probabilit. Cette dernire condition, qui entrane alors E(X) - 0 = 0 - E(X) et donc E(X) = 0, tant plus contraignante que la premire.
12.2.1.1 Test dgalit dune moyenne vraie une valeur donne (ou test de comparaison dune moyenne observe une valeur donne)
Ce cas concerne les variables quantitatives continues et nest valide que lorsque n 30. 1. Les hypothses en prsence : H0 : la moyenne vraie est gale avec la valeur donne 0 : = 0 H1 : 0 2. Construction du paramtre Mn 0 Z = -----------------2 s ---n Z est peu prs distribu selon N(0, 1). Cela rsulte du thorme central limite, ceci prs que s 2 est utilis la place de 2. On admettra que Z est tout de mme distribu selon une distribution normale. 3. Choix du seuil ; = 0,05 Construction de lintervalle de pari centr IP 1 IP 1 = [ u ; u ] ; u 0,05 = 1,96 4. Dfinition de la rgle de dcision La rgle de dcision est tout fait similaire au cas des proportions. Si z IP 1 , rejet de H0. On dit alors : au risque la moyenne vraie diffre de la valeur donne ou, pour les mmes raisons que pour les proportions : la moyenne observe est significativement diffrente, au risque , de la valeur donne ; ou encore : la moyenne observe et la valeur donne sont significativement diffrentes, au risque . Si z IP 1 , on ne conclut pas. La moyenne observe nest pas significativement diffrente de la valeur donne. m 0 Recueil des donnes. Calcul de z = --------------- . Conclusion. 2 s ---n
5.
Nombre de sujets ncessaires

2
Pour rejeter H0 avec une puissance 1 - ( < 0,5), lorsque = 1 et que X a pour variance 2, il faut constituer un chantillon dont la taille minimale est donne par la formule approche suivante 2 n = [ 1, 96 + u 2 ] -----------------------2 [ 0 1 ]
124/175
2010 - 2011
Condition de validit : n 30
12.2.1.2 Test de symtrie dune variable (X) par rapport une valeur donne (0) : test de Wilcoxon
1. Les hypothses en prsence : H0 : les variables X - 0 et 0 - X ont mme densit de probabilit H1 : les variables X - 0 et 0 - X nont pas la mme densit de probabilit 2. Construction du paramtre Le paramtre est construit partir des valeurs ordonnes par ordre croissant des valeurs absolues des xi - 0 o les xi sont les valeurs de X observes dans lchantillon ; chaque valeur on associe son rang de classement et lon garde la mmoire de son signe. On attribue aux ventuels ex-quo un rang commun gal la moyenne des rangs quils occupent. Exemple Si les valeurs observes (qui ne seront disponibles quaprs ralisation de lexprience) sont : -2,3 ; 4 ; 1 ; 5,6 ; -1,2 Le classement sera : 1 (+) ; 1,2 (-) ; 2,3 (-) ; 4 (+) ; 5,6 (+) On sintresse alors la somme des rangs des places occupes par les valeurs positives, appele T +. Ici la valeur de T + serait 1+4+5 = 10. Le paramtre du test est : T n(n + 1) 4 Z = -----------------------------------------------------n ( n + 1 ) ( 2n + 1 ) 24 La variable Z a une distribution connue : 3. Lorsque n > 15 cette distribution est peu prs N(0, 1). Pour n 15, il sagit dune distribution faisant lobjet dune table spcifique, la table du test de Wilcoxon.
+
Choix du seuil ; = 0,05 Construction de lintervalle de pari centr IP 1 IP 1 = [ W ; W ] ; lorsque n > 15, W = u
4.
Dfinition de la rgle de dcision Si z IP 1 , rejet de H0. On dit alors : au risque la densit de probabilit de X nest pas symtrique par rapport 0 ; selon le signe de z, on conclura que X est plutt plus grand que 0 , ou que X est plutt plus petit que 0 . Si z IP 1 , on ne conclut pas ; on ne rejette pas H0.
2010 - 2011
125/175
5.
Recueil des donnes, calcul de z, conclusion.
Remarque : si n < 6 ce test ne permet jamais de rejeter H0
12.2.2 Tests de comparaison de variables quantitatives

Ces tests concernent les variables quantitatives continues et permettent de traiter les types de questions suivantes : 1. la moyenne vraie de la taille des individus dans une sous-population A est-t-elle gale la moyenne vraie de la taille des individus dans une autre sous-population B, ces moyennes vraies ntant pas connues. la distribution de la variable alatoire taille des individus dans la population A concide-t-elle avec la distribution de la variable alatoire taille des individus dans la population B.
2.
Ces deux tests sont apparents, lhypothse dgalit des distributions tant plus contraignante que lhypothse dgalit des moyennes vraies seules. Dans les deux cas on va raliser une exprience mettant en jeu deux chantillons issus des deux populations, lissue de laquelle on disposera de deux sries de valeurs de taille (les nombres de valeurs observes sont nots respectivement nA et nB ).
12.2.2.1 Test dgalit de deux moyennes vraies (ou test de comparaison de deux moyennes observes)
Ce test nest valide que lorsque nA et nB sont 30, cas dit des grands chantillons. Il sagit dun problme trs proche du problme trait en 12.2.1.1 1. Les hypothses en prsence H0 hypothse nulle : les moyennes vraies dans les deux populations sont gales A = B H1 hypothse alternative : A B 2. Construction du paramtre : cette construction suit les mmes lignes que prcdemment et on obtient M nA M nB Z = -------------------------2 2 sA sB ----- + ----nA nB Z est peu prs distribue selon N(0, 1). 3. Choix dun seuil de signification (0,05) Construction de lintervalle de pari IP 1 (IP0,95)
126/175
2010 - 2011
4. 5.
Rgle de dcision Mise en uvre de lexprience. Calculs :

nA
nA
1 1 2 2 m A = ----- x iA et s A = -------------- ( x iA m A ) nA nA 1
i=1 nB i=1 nB
1 1 2 2 m B = ----- x iB et s B = -------------- ( x iB m B ) nB nB 1 les xiA et xiB tant les valeurs de tailles observes dans les chantillons des populations A et B respectivement. mA mB z = ---------------------2 2 sA sB ----- + ----nA nB Conclusion.
i=1 i=1
Nombre de sujets ncessaires

Pour dtecter une diffrence de moyennes avec une puissance 1 - ( < 0,5) il faut constituer deux chantillons, chacun de taille au moins gale n, valeur donne par la formule approche suivante o A2 et B2 sont les variances dans les populations A + B n = [ 1, 96 + u 2 ] ------------------------2 [ A B ] Condition de validit : n 30
2 2 2
12.2.2.2 Test dgalit de deux distributions (ou test de comparaison de deux distributions observes) : test de Mann-Whitney-Wilcoxon
1. Les hypothses en prsence H0 les densits de probabilit concident dans les deux populations : fA = fB H1 les densits de probabilit ne concident pas : fA fB 2. Construction du paramtre : cette construction suit les mmes lignes que celles du test de Wilcoxon dcrit section 12.2.1.2. Par convention, on considre que nA nB . On ordonne par valeurs croissantes lensemble des donnes observes (dont on disposera aprs ralisation de lexprience). On attribue aux ventuels ex-quo un rang commun gal la moyenne des rangs quils occupent. Puis on calcule la somme des rangs de classement occups par les donnes issues de lchantillon de la population A, soit TA .
2010 - 2011
127/175
nA ( nA + nB + 1 ) On calcule galement = T A -------------------------------------- . 2 Puis TA de la faon suivante : si > 0 TA = TA - 0,5 si < 0 TA = TA + 0,5
Exemple Si les valeurs observes sont : Echantillon de population A : 1,7 ; 6,1 ; 3,2 ; 1,5 Echantillon de population B : 4,3 ; 0,5 ; 1,1 ; 2,7 ; 5,4
Le classement conduit 0,5 (B) ; 1,1 (B) ; 1,5 (A) ; 1,7 (A) ; 2,7 (B) ; 3,2 (A) ; 4,3 (B) ; 5,4 (B) ; 6,1 (A) et TA = 3+4+6+9 = 22. Enfin = 22-410/2 = 2. Donc TA = 21,5. Le paramtre du test est : TA nA ( nA + nB + 1 ) 2 Z = ---------------------------------------------------------- lorsque nA et nB 10 n A n B ( n A + n B + 1 ) 12 T A nA ( nA + nB + 1 ) 2 Z = ------------------------------------------------------------- lorsque nA ou nB > 10 n A n B ( n A + n B + 1 ) 12
Z a une distribution connue : 3. Lorsque nA ou nB >10 cette distribution est peu prs N(0,1). Lorsque nA et nB 10, il sagit dune distribution faisant lobjet dune table spcifique, la table du test de Mann-Whitney-Wilcoxon.
Choix du seuil ; = 0,05 Construction de lintervalle de pari IP 1 Cet intervalle est du type IP 1 = [ M ; M ] Exemple : si nA = 3 et nB = 5, on a M 0,05 = 2,117
4.
Rgle de dcision Si z IP 1 , rejet de H0. On dit alors : au risque la densit de probabilit de la variable tudie nest pas la mme dans les populations A et B ; selon le signe de z, on conclura que la variable est plutt plus grande dans A que dans B , ou que la variable est plutt plus petite dans A que dans B . Si z IP 1 , on ne conclut pas ; on ne rejette pas H0.
5.
Mise en uvre de lexprience ; calcul de z ; conclusion.
128/175
2010 - 2011
Remarque : si nA < 3 ou nB < 4, ce test ne permet jamais de rejeter H0
12.2.3 Cas des sries apparies

Jusqu prsent on a suppos que les tirages (la constitution) des chantillons des populations A et B taient indpendants. Il arrive que cette condition ne soit pas vrifie, que les individus des deux chantillons soient lis. Ceci se produit dans les exemples suivants : pour comparer le niveau de svrit de deux examinateurs, on fait corriger 100 copies par chacun deux, cest--dire chacun corrigeant chacune de ces copies, et il sagit de comparer les notes moyennes. pour comparer deux mthodes de dosage de la glycmie on dose 100 prlvements de sang par chacune de ces deux mthodes et lon souhaite comparer les valeurs moyennes vraies .
La procdure indique plus haut ne convient plus. A un moment de la mise en place des tests on avait calculer la variance de la diffrence des moyennes observes. On avait dit quelle concide avec la somme des variances de chacune des moyennes. Ici, cest faux ; on peut sen convaincre facilement. Supposez quun correcteur accorde systmatiquement un point de plus que son collgue toutes les copies. Alors, quoi quil arrive, la diffrence des moyennes observes sera 1, donc cette diffrence nest pas soumise aux fluctuations dchantillonnage ; sa variance est nulle, donc na rien voir avec les variances de chacune des moyennes qui, elles - ces variances -refltent les diffrences de qualit entre les copies. On montre que le bon abord du problme est de travailler sur les diffrences des paires de valeurs obtenues par unit statistique (diffrence des notes, diffrence des glycmies par individu). Cela revient au problme de la comparaison dune moyenne (moyenne des diffrences) zro ou la question de la symtrie dune distribution (celle des diffrences) par rapport zro. On se ramne ainsi des tests que lon connat (cf. section 12.2.1). On note d la variable alatoire diffrence entre rsultats pour un mme sujet.
12.2.3.1 Test de comparaison de deux moyennes observes sur sries apparies

Ce test nest valide que si n 30 Les tapes de mise en uvre du test sont les suivantes : 1. 2. H0 : la moyenne vraie de d est nulle, soit = 0. H1 : la moyenne vraie de d est non nulle, soit 0. Construction du paramtre M nd Z = --------2 s ---n o s2 1 2 est la variance observe des diffrences, soit s = ----------- ( d i m d ) n1
2 i=1
129/175
n est le nombre de paires Mnd est la variable alatoire moyenne arithmtique des diffrences et md est la moyenne observe des diffrences. On montre que Z est peu prs distribue selon N(0, 1). Les tapes se succdent alors de faon ordinaire : md choix de , construction de lIP, dfinition de la rgle de dcision, calcul de z = -------- , conclusion. 2 s Pour le nombre de sujets ncessaires, se reporter la section 12.2.1.1 page 124 ---n Remarque Si les notes attribues par chacun des correcteurs varient gnralement dans le mme sens - cest-dire une copie mieux note quune autre par le premier examinateur le sera galement par le second - alors la valeur absolue de z calcule sur la base de lappariement est suprieure la valeur absolue que lon aurait obtenue en oubliant lappariement. Ainsi, toutes choses gales par ailleurs, on conclura plus frquemment au rejet de lhypothse nulle : le test ainsi mis en place est plus puissant. On a exploit plus dinformation. On a gomm une source de fluctuations, celle lie la disparit de la qualit des copies. Si cet effet de variation dans le mme sens nest pas rel (ex. : lorsque lun note la copie x, lautre la note 20 - x) le problme dans son ensemble na plus beaucoup de sens.
12.2.3.2 Test de symtrie de la distribution des diffrences

Ce test est un cas particulier du test vu au paragraphe 12.2.1.2. car les hypothses considres dans ce cas sont les suivantes : 1. Hypothses en prsence H0 : La densit de probabilit de la variable alatoire d est symtrique par rapport zro. H1 : La densit de probabilit de la variable d nest pas symtrique par rapport zro ; il existe des domaines de valeurs de d plus probables que leur oppos (par exemple si le domaine [2,1 ; 2,4] est plus probable que le domaine [-2,4 ; -2,1]). Construction du paramtre Le paramtre se construit comme en 12.2.1.2 : on range dans lordre croissant de leurs valeurs et sans tenir compte de leur signe les n diffrences di .
2.
La suite se droule comme en 12.2.1.2.
130/175
2010 - 2011
Rsum du chapitre
1. Comparaison dune proportion observe une valeur donne p 0 z = ------------------------------ ; v.a. ~ N(0, 1) ; validit n0 5 et n(1 - 0) 5 0 ( 1 0 ) ------------------------n Comparaison de deux proportions observes pA pB nA pA + nB pB z = ------------------------------------------------------ ; v.a. ~ N(0, 1) ; = -----------------------------nA + nB ( 1 ) ( 1 ) -------------------- + ---------------------nB nA validit : n A 5, n A ( 1 ) 5, n B 5, n B ( 1 ) 5 Comparaison dune moyenne observe une valeur donne m 0 z = --------------- ; v.a. ~ N(0, 1) ; validit n 30 2 s ---n Test de symtrie dune variable par rapport une valeur donne Ordonner les valeurs absolues des carts la valeur donne et calculer T +, somme des rangs des carts positifs. T n( n + 1) 4 z = ------------------------------------------------------ ; v.a. ~ N(0, 1) si n > 15 ; v.a. Wilcoxon sinon. n ( n + 1 ) ( 2n + 1 ) 24 Comparaison de deux moyennes observes mA mB z = ---------------------- ; v.a. ~ N(0, 1) ; validit nA et nB 30 2 2 sA sB ----- + ----nA nB 6. Test dgalit de deux distributions (on suppose nA nB ) nA ( nA + nB + 1 ) Ordonner les valeurs. TA = somme des rangs des donnes A. = T A -------------------------------------- . 2 TA = TA - 0,5 si > 0, TA = TA + 0,5 sinon T A nA ( nA + nB + 1 ) 2 z = ------------------------------------------------------------- N ( 0, 1 ) lorsque nA ou nB > 10 n A n B ( n A + n B + 1 ) 12 TA nA ( nA + nB + 1 ) 2 z = ---------------------------------------------------------- Mann-Whitney-Wilcoxon si nA et nB 10 n A n B ( n A + n B + 1 ) 12 Comparaison de deux moyennes observes sur sries apparies On utilise le test 3 en comparant la moyenne de la variable diffrence d 0 Test de symtrie des diffrences (sries apparies) On utilise le test 4 de symtrie de la variable d par rapport 0.
+
2.
3.
4.
5.
7. 8.
2010 - 2011
131/175
132/175
2010 - 2011
Tests concernant des variables qualitatives
Chapitre 13 Tests concernant des variables qualitatives

Introduction On a jusqu prsent compltement nglig les variables qualitatives plus de deux modalits. On a en effet toujours parl de moyenne, et cette notion nexiste pas pour les variables qualitatives, sauf pour celles deux modalits grce un artifice de codage. Il ny a pas dinstrument permettant de rsumer la distribution dune variable qualitative ; il faut considrer la distribution dans son ensemble, cest--dire lensemble des probabilits pour que telle ou telle modalit se ralise. Pourtant des problmes de choix dhypothses se posent galement dans le cas de telles variables ou tels caractres (ex : la rpartition [distribution] de la couleur des cheveux diffre-t-elle chez les habitants de tel dpartement et de tel autre ?). Si la rpartition du caractre est connue dans une des deux populations, on aura comparer une rpartition observe une rpartition donne. Si les deux rpartitions sont inconnues, on aura comparer deux rpartitions observes . Ces problmes sont respectivement les homologues des tests de comparaison dune moyenne une valeur donne, de comparaison de deux moyennes. Il existe des tests adapts chacun de ces cas.
13.1 Comparaison dune rpartition observe une rpartition donne ou test du 2 dajustement
Supposons que lon souhaite savoir si la rpartition de la couleur des cheveux dans la population des habitants du dpartement A diffre de la rpartition de la couleur des cheveux dans la population franaise, cette dernire rpartition tant suppose donne. Supposons quil y ait k couleurs rpertories. On est alors amen considrer une variable qualitative k modalits. Notons i la probabilit de survenue de lvnement la i me modalit est observe . Exemple : 1 = probabilit quun individu tir au hasard dans le dpartement A ait les cheveux blonds 2 = probabilit quun individu tir au hasard dans le dpartement A ait les cheveux bruns 133/175
2010 - 2011
etc... Notons par ailleurs hi la proportion vraie de la modalit i dans la population franaise. On sapprte raliser une exprience sur n individus lissue de laquelle on disposera dun ensemble de Oi (Oi = nombre dindividus prsentant la modalit i du caractre tudi, parmi les individus de lchantillon).
13.1.1 Les tapes de mise en uvre

1. Les hypothses en prsence Deux hypothses sont en prsence : i. ii. la rpartition vraie de la variable dans la population tudie concide avec la rpartition donne (hypothse nulle H0) les rpartitions diffrent (hypothse alternative H1)
Avec les notations prcdemment introduites, cela scrit : H0 : hypothse nulle : i = hi pour tous les i de 1 k. H1 : hypothse alternative : i hi pour au moins une modalit, cest--dire pour au moins un i. 2. Construction du paramtre On a dj mis en place ce test dans le cas dune variable (0 - 1) cest--dire dune variable deux modalits. Dans ce cas, les hypothses en prsence taient bien du type ci-dessus cest-dire H0 : = h 1 et 1 - = h 2 = 1 - h 1 ce qui scrit avec les nouvelles notations : 1 = h 1 et 2 = 1 - h 1 Mais on navait retenu que la condition = h 1 (en fait = 0) car dans ce cas les deux conditions ci-dessus sont redondantes. Le paramtre calcul retenu tait : p h1 z = ---------------------------------- h1 ( 1 h1 ) -----------------------------n Calculons son carr n ( p h1 ) n ( p h1 ) n ( p h1 ) z = ------------------------------ = --------------------------- + -------------------------- h1 ( 1 h1 ) h1 1 h1
2 2 2 2 2 2 2
( np n h1 ) ( n ( 1 p ) n ( 1 h1 ) ) ( np n h1 ) ( n ( 1 p ) n h2 ) z = ------------------------------ + ---------------------------------------------------------- = ------------------------------ + -------------------------------------------n h1 n ( 1 h1 ) n h1 n h2 134/175
2010 - 2011
Or np = nombre dindividus observs prsentant la valeur 1 cest--dire la modalit 1 de la variable ; or sous H0 la probabilit de cette modalit est h1. On sattend donc observer nh 1 individus prsentant cette valeur. Ce nombre dindividus attendu sappellera effectif attendu ou calcul de la premire modalit et sera not A 1. De la mme faon, n(1 - p) = nombre dindividus observs prsentant la valeur 0 cest--dire la modalit 2 de la variable ; or sous H0 la probabilit de cette modalit est h 2 = 1 - h 1. On sattend donc observer nh 2 individus prsentant cette valeur. Ce nombre dindividus attendu sappellera effectif attendu ou calcul de la seconde modalit et sera not A 2. ( O1 A1 ) ( O2 A2 ) Do z = ------------------------- + ------------------------A1 A2
2 2 2
o les Oi reprsentent les effectifs observs dans les diffrentes modalits, les Ai reprsentent les effectifs nhi dits prvus ou calculs ou ATTENDUS dans les diffrentes modalits. GENERALISATION Lorsque les variables considres ont plus de deux modalits, on gnralise le calcul ci-dessus et on retient le paramtre suivant :
k
Q =
i=1
( Oi Ai ) ----------------------Ai
o la somme stend toutes les k modalits de la variable. On rappelle que les Oi sont les effectifs observs, et que les Ai valent nhi . On remarque que Q chiffre lcart entre ce qui est prvu par lhypothse H0 et ce qui est obtenu ; cet cart se fonde naturellement sur les diffrences Oi - nhi car nhi est le nombre attendu dindividus prsentant la modalit i. Exemple : si hi = 0,4, sur 100 individus on en attend 40 prsentant la modalit i. Cest le nombre que lon aurait si la distribution dchantillonnage concidait avec la distribution hypothtique. Par ailleurs on a pu montrer (rsultat d Pearson) que sous H0 (et si tous les Ai 5) ce paramtre a une distribution qui ne dpend que du nombre de modalits, k. Cette distribution porte le nom de DISTRIBUTION DE 2. Si bien que lon peut former - grce encore une table - un intervalle de pari de niveau donn relatif cette variable. RETENONS : CONDITIONS DE VALIDITE : TOUS LES Ai DOIVENT ETRE AU MOINS EGAUX A 5 3. Intervalle de pari tant choisi (0,05), construction de lintervalle de pari IP 1 La variable 2 a lallure prsente figure 13. On remarque quil serait stupide de choisir lin-
2010 - 2011
135/175
tervalle de pari centr dessin sur cette figure car alors des valeurs numriques voisines de zro pour la valeur Qc du paramtre Q seraient dans la rgion critique du test ; or des valeurs proches de zro sont plutt compatibles avec H0 do le choix suivant (voir figure 14) : IP 1 = [ 0 ; K ddl, ] Cest cette valeur, note K ddl, qui est lisible directement dans une table. Remarque : notez que cet intervalle, bien que non symtrique autour de la moyenne, respecte la dfinition dun intervalle de pari donne section 9.4.1 page 90.
Figure 13 : distribution de 2
Figure 14 : distribution de 2 Usage de la table Cette table comporte - comme celle du t de Student - une entre entire appele nombre de degrs de libert (ddl). On montre que pour le test envisag ici nombre de degrs de libert = nombre de modalits - 1
136/175
2010 - 2011
Exemple : K 5;0,05 (5 ddl, si 6 modalits) = 11,07 La suite de la mise en place de ce test est usuelle. 4. Rgle de dcision Si Q c K ddl, on ne conclut pas Si Q c > K ddl, H0 est rejete. Cela signifie que lon conclut que la rpartition du caractre tudi (par exemple la couleur des cheveux dans le dpartement A) ne concide pas - ou ne sajuste pas - avec la rpartition donne (par exemple la rpartition de la couleur des cheveux dans la population franaise). On admet, en formulant cette conclusion, un risque derreur gal . Recueil des donnes et conclusion Exemple numrique : le tableau ci-dessous prsente une application numrique de lexemple considr. couleur des cheveux blonds effectifs observs (Oi ) effectifs attendus (Ai = nhi ) rpartition donne (hi ) 25 14,8 0,4 bruns 9 11,1 0,3 roux 3 11,1 0,3 total 37 (n) 37 1
5.
Les conditions de validit sont vrifies (Ai 5). On obtient ici : Q c = ( 25 14 ,8 ) - + ( 9 11 ,1 ) - + ( 3 11 ,1 ) - = 13 ,3 ----------------------------- -------------------------- -------------------------14 ,8 11 ,1 11 ,1 On sait que Q est distribu selon un 2 (3-1) degrs de libert ; on lit dans la table : K 2;0,05 = 5,99. Ainsi, la valeur calcule nappartient pas lintervalle de pari : on conclut que la rpartition du caractre ne concide pas avec la rpartition donne.
2 2 2
2010 - 2011
137/175
13.1.2 Cas particulier : variable deux modalits

On a vu que le paramtre du test Q gnralise lexpression du carr du paramtre Z utilis pour la comparaison dune proportion observe une valeur donne. Dans le cas dune variable deux modalits (k = 2), ces deux paramtres sont gaux : Q = Z 2. En outre, et sinon il y aurait incohrence, on peut vrifier lgalit suivante : 2 K 1; = u Exemple : pour = 0,05 K 1;0,05 = 3,84 = (1,96)2 Ainsi, pour comparer une rpartition observe une rpartition donne, dans le cas dune variable deux modalits, on dispose de 2 tests quivalents, lun fond sur la distribution normale, lautre fond sur la distribution du 2 1 d.d.l. (qui est en fait la distribution du carr de N(0, 1)). On peut utiliser lun ou lautre de ces tests indiffremment. Exemple : Reprenons lexemple du chapitre 11 Une race de souris prsente un taux de cancers spontans de 0,2. Sur 100 souris traites on observe 34 cancers soit p = 0,34. La diffrence est elle significative ? test de comparaison : 0 ,34 0 ,2z = ------------------------- = 3 ,5 0 ,2 0 ,8 --------------------100 test du 2 : cancer rpartition thorique effectifs attendus effectifs observs
2 2
absence de cancer 0,8 80 66 100 (effectif total)
0,2 20 34
2 ( 34 20 ) ( 66 80 ) Q c = ------------------------ + ------------------------ = 12 ,25 = ( 3 ,5 ) 20 80
Remarque : On parle souvent de ce test sous la terminologie test du 2 dajustement pour exprimer quil met lpreuve lajustement - la compatibilit - entre une rpartition observe et une rpartition donne.
138/175
2010 - 2011
13.2 Comparaison de plusieurs rpartitions observes ou test du 2 dhomognit

On reprend lexemple prcdent concernant la rpartition de la couleur des cheveux mais sans plus supposer que lune de ces rpartitions est connue ; il sagit par exemple des rpartitions de ce caractre dans deux dpartements. On souhaite donc comparer deux rpartitions observes. Pour cela, on sapprte raliser une exprience mettant en jeu deux chantillons, un chantillon de n 1 individus issu de la population des habitants du dpartement 1, et un chantillon de n 2 individus issu de la population des habitants du dpartement 2. A lissue de cette exprience on disposera dun ensemble deffectifs observs, nots de la faon suivante : O 1i est le nombre dindividus du premier chantillon prsentant la modalit i de la variable. O 2i est le nombre dindividus du second chantillon prsentant la modalit i de la variable.
Le test se met en place de la faon suivante : 1. Les hypothses en prsence H0 : les rpartitions vraies de la variable sont identiques dans les deux populations H1 : les rpartitions vraies sont diffrentes Ces hypothses se schmatisent par : H0 : 1i = 2i pour toutes les modalits i. H1 : 1i 2i pour au moins une modalit i. 2. Construction du paramtre Cest encore ici le point dlicat. La solution ressemble dans son approche celle du problme de la comparaison de deux pourcentages. Cl du principe : on mlange les deux populations pour calculer une pseudo-rpartition thorique. On se retrouve alors pratiquement dans la situation du paragraphe prcdent. Cela se verra mieux sur un exemple. On va faire, pour des raisons de simplicit de calcul, une petite entorse notre faon de procder, et directement valuer le paramtre dont on connat la loi. i. On construit ce que lon appelle un tableau de contingence qui contient les rsultats exprimentaux. On a procd une exprience portant sur 37 individus issus de la population 1 et 40 individus issus de la population 2. Les rsultats sont les suivants :
2010 - 2011
139/175
Tableau 4 : effectifs observs (O 1i et O 2i ) blonds chantillon 1 chantillon 2 ii. 25 13 bruns 9 17 roux 3 10 nombre total 37 = n 1 40 = n 2
On construit une pseudo-rpartition de rfrence, en mlangeant les rsultats exprimentaux, cest--dire en oubliant leur origine (population 1 ou population 2). On obtient les rsultats suivants, en termes deffectifs (premire ligne), puis en termes de frquences (deuxime ligne). Tableau 5 : rpartition de rfrence blonds mlange frquences 38 38/77 = 0,49 bruns 26 26/77 = 0,34 roux 13 13/77 = 0,17 nombre total 77
Ces trois frquences, 0,49, 0,34, 0,17, vont jouer maintenant le rle des probabilits hypothtiques hi de la section 13.1. Pour la commodit de lcriture, on les note respectivement p 1, p 2, p 3. iii. On forme le tableau des effectifs attendus. Si lhypothse nulle est juste, cest--dire si les rpartitions de la couleur des cheveux concident dans les deux dpartements, on sattend trouver des effectifs calculs comme suit : effectif attendu pour la modalit i (modalit 1 = blond, modalit 2 = brun, modalit 3 = roux) dans lchantillon j (j = 1 ou 2) : nj multipli par pi Par exemple le nombre attendu dindividus bruns dans lchantillon de la premire population est : 37 0,34 = 12,6. En effectuant systmatiquement ces calculs, on obtient le tableau des EFFECTIFS ATTENDUS. Tableau 6 : effectifs attendus (A 1i et A 2i ) blonds chantillon 1 chantillon 2 18,1 (n 1p 1) 19,6 (n 2p 1) bruns 12,6 (n 1p 2) 13,6 (n 2p 2) roux 6,3 (n 1p 3) 6,8 (n 2p 3)
iv. On calcule finalement le paramtre du test
140/175
2010 - 2011
On montre que le paramtre adapt ce test est :

k
Q =
i=1
( O 1i A 1i ) ---------------------------- + A 1i
i=1
( O 2i A 2i ) ---------------------------A 2i
o k demeure le nombre de modalits de la variable. On a souvent recours une expression plus compacte de lexpression ci-dessus et on crit :
nombre de cases du tableau
Q =
j=1
( Oj Aj ) ----------------------Aj
MAIS ICI LA SOMMATION SETEND A TOUTES LES CASES DES TABLEAUX, numrotes grce lindice j. Exemple : dans lexemple trait il sagira donc de calculer une somme de 6 termes. On montre que, si H0 est vraie, Q est distribu comme un 2 (3 - 1) (2 - 1) degrs de libert [3 est le nombre de modalits, et 2 le nombre de rpartitions] La VALIDITE de ce rsultat suppose que tous les effectifs attendus Aj soient au moins gaux 5. GENERALISATION Les calculs ci-dessus se gnralisent un nombre quelconque de modalits k, un nombre quelconque de populations m. Le paramtre Q calculer a alors la forme ci-dessus, o la somme comprend km termes. La distribution de Q, sous H0 est alors un 2 (k - 1)(m - 1) degrs de libert. Les conditions de validit du test sont : Aj 5, 1 j km 3. La suite des tapes de mise en uvre est classique. La valeur observe de Q, note Qc , sera compare la valeur K ddl;0,05 : si Q c K ddl;0,05 on ne conclut pas. Il nest pas dmontr que les deux rpartitions vraies diffrent. si Q c > K ddl;0,05 on conclut que les deux rpartitions observes diffrent significativement.
2 2 2 2 2 2
Suite de lexemple : on obtient : Q c = ( 25 18 ,1 ) - + ( 9 12 ,6 ) - + ( 3 6 ,3 ) - + ( 13 19 ,6 ) - + ( 17 13 ,6 ) - + ( 10 6 ,8 ) ----------------------------- -------------------------- ----------------------- ----------------------------- ----------------------------- -------------------------18 ,1 12 ,6 6 ,3 19 ,6 13 ,6 6 ,8 soit : Q c = 9 ,96 Or : K 2;0,05 = 5,99 rejet de H0. Les rpartitions observes de la couleur des cheveux diffrent significativement dans les deux populations.
2010 - 2011
141/175
Remarque 1 : Ce test sappelle aussi test du 2 dhomognit de plusieurs rpartitions. Remarque 2 : Cas particulier de deux variables deux modalits : dans le cas o lon considre deux variables deux modalits, cest--dire dans le cas o le tableau de contingence est deux lignes et deux colonnes, on observe que le problme se rduit un problme de comparaison de deux proportions observes. On montre que, dans ce cas, la valeur de Q concide avec le carr de la valeur de Z, Z tant le paramtre form pour comparer directement ces proportions (voir chapitre 12).
13.3 Test dindpendance entre deux variables qualitatives

Reprenons lexemple prcdent et supposons que les populations 1 et 2, plutt que de correspondre des individus habitant le dpartement 1 et le dpartement 2, soient en fait : population 1 : population des individus ayant les yeux bleus population 2 : population des individus ayant les yeux verts
La question que lon aurait rsolue dans le paragraphe prcdent aurait t : la rpartition de la couleur des cheveux diffre-t-elle dans les populations dindividus aux yeux bleus ou verts. Ou encore, la rpartition de la couleur des cheveux diffre-t-elle selon la couleur des yeux ? Autrement dit : la variable couleur des cheveux dpend-elle statistiquement de la variable couleur des yeux ? Maintenant supposons que lon veuille rpondre cette question. Plutt que de prendre un chantillon de la population des individus aux yeux bleus et un autre chantillon issu de la population des individus aux yeux verts, autant prendre un chantillon de la population gnrale (cest--dire quelle que soit la couleur de ses yeux) et observer conjointement la couleur des cheveux et la couleur des yeux. Vues comme cela, les deux variables jouent bien des rles symtriques et le problme est donc de mettre lpreuve leur indpendance. 1. Les hypothses en prsence. On formule naturellement deux hypothses : Hypothse H0 les deux variables tudies (couleur des cheveux, couleur des yeux) sont indpendantes. Sous cette hypothse, le fait davoir observ chez un individu la couleur de ses cheveux (respectivement la couleur de ses yeux) napporte aucune information sur la couleur de ses yeux (respectivement la couleur de ses cheveux). On pourra se reporter au chapitre 6 dans lequel ont t commentes ces notions dindpendance. On notera que, comme dans tous les cas rencontrs jusquici, cette hypothse est une
142/175
2010 - 2011
hypothse fine qui engage un ensemble dgalits. En effet, on sait que lindpendance sexprime par : Pr(la modalit de la couleur des cheveux est l et la modalit de la couleur des yeux est c) = Pr(la modalit de la couleur des cheveux est l) Pr(la modalit de la couleur des yeux est c), et ceci pour tous les choix possibles de l et c. Remarque : on pourra vrifier que parmi les (nombre de modalits de la couleur des cheveux nombre de modalits de la couleur des yeux) galits qui en rsultent, certaines sont redondantes, et que (nombre de modalits de la couleur des cheveux - l) (nombre de modalits de la couleur des yeux - 1) galits suffisent exprimer les mmes conditions. Hypothse H1 les deux variables tudies ne sont pas indpendantes. Cette hypothse exprime le contraire de H0.
TRES IMPORTANT (des erreurs sont souvent commises) HYPOTHESE NULLE : LES DEUX VARIABLES SONT INDEPENDANTES HYPOTHESE ALTERNATIVE : LES DEUX VARIABLES SONT LIEES 2. Le paramtre du test Le paramtre est encore Q, et sexprime exactement comme prcdemment, cest--dire :
Q =
j=1
( Oj Aj ) ----------------------Aj
Ici le nombre de cases du tableau de contingence est gal au produit du nombre de modalits de la premire variable et du nombre de modalits de la seconde variable. Les effectifs attendus sobtiennent exactement comme dans le cas du paragraphe prcdent, ainsi quon peut le voir sur lexemple numrique ci-dessous. Un exemple numrique Le tableau ci-dessous montre un exemple de tableau de contingence (D. Schwartz, Mthodes statistiques lusage des mdecins et des biologistes, Flammarion (collection statistique en biologie et mdecine), 3e dition, p79) ; cet exemple est similaire aux prcdents, si ce nest que lon a considr un plus grand nombre de modalits pour la variable couleur des cheveux, et que la nouvelle variable introduite (couleur des yeux) comporte trois modalits. Ces modalits remplacent les chantillons considrs dans la section 13.2 page 139. Ainsi, la modalit bleu par exemple peut tre lue : chantillon issu de la population des individus aux yeux bleus . La taille de cet chantillon nest cependant plus matrise.
2010 - 2011
143/175
Couleur des yeux blonds bleus gris marrons total frquence 25 13 7 45 45/124
Couleur des cheveux bruns 9 17 13 39 39/124 roux 7 7 5 19 19/124 noirs 3 10 8 21 21/124 total 44 47 33 124 124/124
frquence
44/124 47/124 33/124
Les effectifs attendus sobtiennent comme prcdemment. Ainsi, leffectif attendu relatif au couple blonds, marrons sera : 45/12433/124124 = 11,9. REMARQUES i. Pour allger les calculs, on peut remarquer que leffectif attendu relatif la cellule localise ligne l, colonne c est gal au rapport ii. du produit du total de la ligne l et du total de la colonne c, et du total gnral.
La somme des effectifs attendus, soit en ligne, soit en colonne, concide avec les mmes sommes sur les effectifs observs. Cette remarque permet une vrification partielle des calculs. iii. Dans la prsentation des calculs, on a procd au mlange des rsultats sans plus tenir compte de la couleur des yeux (ce qui conduit sommer les lignes du tableau). On peut de faon quivalente mlanger les rsultats exprimentaux sans plus tenir compte de la couleur des cheveux, ce qui conduira sommer les colonnes du tableau de contingence pour obtenir la rpartition de rfrence. On pourra vrifier que les rsultats du calcul sont strictement les mmes, ce que lon attend compte tenu du rle symtrique jou par les deux variables tudies.
SOUS LHYPOTHESE NULLE DINDEPENDANCE entre les deux variables, Q EST DISTRIBUE SELON un 2 : (nombre de modalits de la premire variable - 1) (nombre de modalits de la seconde variable - 1) DEGRES DE LIBERTE.
144/175
2010 - 2011
Les CONDITIONS DE VALIDITE sont encore : Aj 5. 3. La suite des tapes est habituelle En particulier, la rgle de dcision stablit comme suit : si la valeur calcule de Q, note Qc , est infrieure K ddl, , on ne rejette pas lhypothse dindpendance des deux variables. si la valeur calcule Qc est suprieure K ddl, , on rejette lhypothse dindpendance des deux variables. On dira alors que les deux variables sont lies, au risque .
Exemple : Dans lexemple ci-dessus, la valeur de Qc , rsultant de la sommation de 12 termes, est 15,1. Le nombre de degrs de libert est : (4 - 1)(3 - 1) = 6, la valeur de K 6;0,05 associe tant 12,6 (lue dans une table). On rejette donc ici lhypothse dindpendance : couleur des cheveux et couleur des yeux sont lies, ou encore sont dpendantes. Voyons une illustration de cette dpendance. Sur la base des donnes observes on a : Pr(yeux bleus) = 44/124 = 0,35 Pr(yeux bleus / cheveux blonds) = 25/45 = 0,56 La connaissance de la couleur des cheveux (ici la modalit blond ) modifie la rpartition de la couleur des yeux (ici la frquence de la modalit bleu qui volue de 0,35 0,56). Le test indique que cette modification est significative. En ralit la valeur de Qc ci-dessus chiffre dans leur ensemble les diffrences entre Pr(A / B) et Pr(A), cest--dire les carts de Pr(A et B) par rapport au produit Pr(A)Pr(B), o A est un vnement relatif la couleur des yeux et B un vnement relatif la couleur des cheveux.
2010 - 2011
145/175
Rsum du chapitre
Tests du 2. Effectifs observs Oj , effectifs attendus Aj . Conditions de validit gnrales : Aj 5 Paramtre gnral :
Q =
j=1
( Oj Aj ) ----------------------Aj
Comparaison dune rpartition observe une rpartition donne (ajustement) H0 : La rpartition vraie sajuste la rpartition donne H1 : La rpartition vraie ne sajuste pas la rpartition donne Nombre de cases = nombre de modalits Q ~ 2(nombre de modalits -1) Comparaison de plusieurs rpartitions observes (homognit) H0 : Les rpartitions concident H1 : Les rpartitions diffrent Nombre de cases = nombre de modalits nombre de rpartitions Q ~ 2((nombre de modalits -1) (nombre de rpartitions -1)) Test dindpendance de deux variables qualitatives H0 : Les deux variables sont indpendantes H1 : Les deux variables sont lies Q ~ 2((nb de modalits de 1re variable - 1) (nb de modalits de 2me variable - 1)) Dans les deux derniers cas, si l est le nombre de lignes, c le nombre de colonnes du tableau de contingence, le nombre de degrs de libert des 2 est (l - 1)(c - 1).
146/175
2010 - 2011
Liaison entre deux variables continues : notion de corrlation
Chapitre 14 Liaison entre deux variables continues : notion de corrlation

14.1 Introduction
Nous avons rappel dans le chapitre prcdent la notion fondamentale dindpendance entre deux variables qualitatives et vu la faon dont cette indpendance pouvait tre mise lpreuve lors dune exprience. Dans le chapitre 12, les tests mis en uvre faisaient intervenir une variable quantitative continue et une variable qualitative encore juges dans leurs interdpendances. Il se trouve quil existe une autre classe de problmes mettant en jeu encore deux variables alatoires, mais cette fois-ci, deux variables continues. Considrons, par exemple, deux variables alatoires, linsuffisance rnale (avec deux valeurs ou modalits prsence-absence) et linsuffisance hpatique (avec les deux mmes modalits). Supposons que lon connaisse un indicateur de la fonction rnale (ou de certains de ses aspects), la clairance la cratinine par exemple et un indicateur de la fonction hpatique (ou de certains de ses aspects) la bilirubinmie et que le diagnostic dinsuffisance rnale soit port lorsque la clairance est infrieure un seuil, celui dinsuffisance hpatique lorsque la bilirubinmie est suprieure un autre seuil. On sait rsoudre (voir chapitre 13) la question de savoir si les variables insuffisance rnale et insuffisance hpatique sont indpendantes ou lies. Toutefois, compte tenu des prcisions donnes sur lorigine des diagnostics dinsuffisance rnale et dinsuffisance hpatique, on est tent de reformuler le problme pos en ces termes : y a-t-il un lien entre les variables alatoires clairance la cratinine et bilirubinmie ? Un niveau lev de lune est-il annonciateur dun niveau lev de lautre ? Ou encore : la connaissance du niveau de lune modifie-t-elle lide que lon se fait du niveau de lautre, non encore observe ? Cette dernire formulation est trs proche de la formulation utilise pour discuter de lindpendance entre vnements : la connaissance du fait quun vnement sest ralis (maintenant un niveau de clairance connu) modifie-t-elle la plausibilit dun autre vnement (maintenant la bilirubinmie) ? Les situations dans lesquelles on se pose naturellement la question de savoir si deux variables continues sont lies sont extrmement frquentes. Voil quelques exemples :
2010 - 2011
147/175
la consommation de cigarettes (quotidienne ou cumule) et la capacit respiratoire sont-elles lies ? la gastrinmie et la quantit de cellules ECL sont-elles lies ? les valeurs de glycmie obtenues selon deux mthodes de dosage sur les mmes chantillons sanguins sont-elles lies [ici, il faut lesprer].
14.2 Abord du problme

Considrons deux variables alatoires continues X (cratininmie) et Y (bilirubinmie). Imaginons que nous ayons ralis une exprience consistant en lobservation conjointe du niveau de ces deux variables sur un ensemble (chantillon) de n sujets. On dispose ainsi dun ensemble de couples de valeurs xi , yi . La reprsentation naturelle - sinon la meilleure - de ces rsultats est donne dans la figure ci-dessous ; chaque couple de valeurs obtenu chez chaque individu est reprsent par un point de coordonnes (cratininmie-bilirubinmie). On lit sur un tel dessin, au moins grossirement, le domaine des valeurs possibles de X, le domaine des valeurs possibles de Y. Intressons nous un nouvel individu ; ne mesurons chez lui que la valeur de la cratininmie, x 0. Que peut-on dire alors, sur la base de cette connaissance et sur la base de lexprience ci-dessus concernant le domaine des valeurs possibles de Y pour ce mme individu ? On peut proposer la rponse gomtrique ou visuelle indique sur la figure ci-dessous. y (bilirubinmie) domaine des valeurs de Y
xx x x x x xx x x x x x xx x x x x x x xx x x x x x x x x xxx x
domaine des valeurs de X
x (cratininmie)
y (bilirubinmie) domaine des valeurs de Y sachant x0

x x xx x x x xx x x x x x xx x x x x x xx x x x x x x x x xxx x
x0
x (cratininmie)
148/175
2010 - 2011
Le nouveau domaine possible - sachant x 0 - est trs voisin du domaine initial ; ceci se reproduit pour toute valeur de x 0. Il est alors clair que dans cet exemple, la connaissance de X napporte pas dinformation sur celle de Y. On a ici une situation visuelle dun cas o les deux variables X et Y sont indpendantes. On pourrait renverser le rle de X et Y, la conclusion serait la mme. Considrons maintenant le cas o les rsultats exprimentaux produisent la reprsentation de la figure ci-dessous. Dans ce cas, au contraire, on voit clairement que la connaissance de x 0 (respectivement y 1) modifie le domaine des valeurs possibles, donc attendues de Y (respectivement X) ; les deux variables X et Y sont lies. y domaine domaine de de Y Y sachant x0
xx x x xx x x xx x x xx x x x x xx x x x x xx x xx x x xx x
x0
y y1
xx xx x x x xx x x x xx x x x x xx x x x x xx x xx x x xx x
domaine de X sachant y1 domaine de X
La modification ici concerne aussi bien lamplitude du domaine que sa localisation en termes de valeurs. Lapprciation visuelle de la dpendance correspond lapprciation de lpaisseur de lensemble des points. Plus les points exprimentaux ont tendance se rpartir sur une courbe - non horizontale ni verticale - plutt qu remplir une partie du plan, plus les variables sont lies. Peut-on trouver un indicateur numrique de la force dune telle liaison ? Au sens strict, la rponse est non. Quelques situations de dpendance - cest--dire de liaison - sont reprsentes sur les figures ci-
2010 - 2011
149/175
dessous. y
xx x x xxx x x x xx x x xx x x xx x x xx x x xx xx xxxxxx xxx x x x x xx x x x x x xx x x x x x xx x x x x x x x xx xxxx x x xx xxx x x x x xx x x x xx x
y
x x xx xx xxx xx xxx x x x xx x x x x x x x xxx x xx x x x xx x x
On ne sait pas, en toute gnralit, rsumer en un seul nombre exprimant la liaison entre deux variables continues les rsultats dune exprience. On ne connat quun indicateur gnral prenant en compte non pas le degr de proximit une courbe quelconque mais le degr de proximit une droite : cest le coefficient de corrlation [linaire]. Il faut voir cependant que dans la plupart des situations relles au cours desquelles on sintresse lexamen de la liaison entre deux variables, la possibilit dinterprtation des rsultats est largement fonction du caractre monotone, sinon rectiligne, de la dpendance ; que dire en termes dinterprtation dune dpendance figure schmatiquement sur la figure ci-dessous ? y
14.3 Un indicateur de covariation : le coefficient de corrlation

Cherchons alors quantifier un phnomne de covariation, cest--dire un phnomne de variation couple entre X et Y. On impose naturellement lindicateur recherch une invariance par translation : les phnomnes productifs de X et Y demeurent fondamentalement inaltrs sils produisent X + a, Y + b. Ainsi lindicateur se fondera-t-il sur les valeurs x i m x et y i m y . Par ailleurs, on souhaite que lindicateur ne dpende pas des units exprimant X et Y ; alors on travaillera sur
150/175
2010 - 2011
xi mx yi my x ri = --------------- et y ri = --------------sX sY Maintenant si Y et Y prsentent un caractre de covariation, cest que de faon frquente, sinon systmatique soit les variables varient dans le mme sens, cest--dire lorsque xi est grand (i.e. xri positif par exemple), yi lest galement le plus souvent (i.e. yri positif), que lorsque xi est petit (xri < 0) yi lest galement (yri < 0) ; dans ce cas, le produit xri yri est frquemment positif. soit les variables varient en sens contraire : lorsque xi est grand, yi est petit, lorsque xi est petit, yi est grand ; dans ce cas le produit xri yri est frquemment ngatif.
Compte tenu de lanalyse prcdente, on choisit pour indicateur de la covariation ou corrlation le nombre : 1 r = ----------- x ri y ri n1
i
Ainsi si r est grand, cest le signe dune covariation dans le mme sens de X et Y ; si r est petit (cest--dire grand en valeur absolue et ngatif), cest le signe dune covariation de X et Y en sens contraire ; si r est voisin de zro, cest le signe dune absence de covariation.
Retenons, exprim sur la base des valeurs observes : 1 ----------- ( x i m x ) ( y i m y ) n1 i r = -------------------------------------------------------------sX sY Le numrateur de cette expression est appel la covariance observe des deux variables X et Y, note cov 0(X, Y), dont on montre quelle sexprime aussi sous la forme n 1 - cov 0 ( X, Y ) = ----------- -- x i y i xy n 1n i Les figures ci-dessous prsentent diverses situations relativement au coefficient de corrlation observ.
2010 - 2011
151/175
y my
xx x xx x x xxx x x x x x xx xx x xx xx xx x x x x xxx x xx x
my
x mx
my
xx x xx x x x x xx xx x x x x x xx xx x xx x x xx x x xx xx xx
y my
x mx
mx r>0, grand y
mx r<0, |r| grand y my
my
x x x x x x xxx xx xx x xxx xx x x x x xx x x x x xxxxxx x x
x mx
mx r voisin de zro Proprits numriques fondamentales de r :
r a toujours une valeur comprise entre -1 et 1 ; r prend la valeur -1 (respectivement 1) si et seulement si il existe des valeurs a et b telles quon ait pour tout i yi = axi + b avec a ngatif (respectivement a > 0).
Remarques : plus r est grand en valeur absolue, plus les variables sont dites corrles, la valeur absolue de r dcrot, lorsque sestompe le caractre rectiligne du nuage des valeurs observes, lorsque spaissit ledit nuage,
une valeur absolue trs faible du coefficient de corrlation ne permet pas de conclure lindpendance de deux variables. Deux variables indpendantes prsenteront en revanche un coefficient de corrlation observ trs faible en valeur absolue.
152/175
2010 - 2011
Quelques exemples sont prsents ci-dessous pour fixer les ides.
x xx x xx x x x xx x x x x xx xx x xx xx xx x x x x xxx xx xx
y
x x xx x x xxx xx x x x x xx xx x xx xx xx x x x x x xx x xx x
x r 0,9 y r 0,7
x xx xxx x x x x x xx x xx x x xx x x x xx xxx x x x xx x xx x
xx xx x x x x x x xx xx xxx x x x x xx xx x xx x xx x xxxx x x x xx x xx x x xx x
x r 0,7 y y r 0,6
x xx x x x xx x xxx x x xx x xxx x x xx x x xxx x x x x x x xx x x xxx xxx xx x x x xx
x x xx x x xx x x x x xx x xx xx x x xx xxxxx xx x x x x x x xx x x x xx x x x xx xx x xxx xx xxx x x x xx xx xxx xxx x xx x x x xx x
x r 0,5 r 0,5
2010 - 2011
153/175
y
x x x x xx x x x x x xx x xxx x x x x xx x x x x x xx x xx x x x xx xx xx x x x x x x x xx x x xx x x x x x x x
x xx xx xx xx xx x xx x x x xx x xx x x x xx x xxxx xx x x xx x x x xx x x x x x x xx
x r 0 Remarque complmentaire : r 0
Le coefficient de corrlation linaire est, au mme titre que toute statistique, soumis aux fluctuations dchantillonnage. La question se pose alors de savoir que faire de cet indicateur en termes dinfrences. Par exemple, avant de conclure que les deux variables sont corrles, peut-on se garantir du risque de lobservation dun coefficient de corrlation nul sur une plus grande srie dobservations ? On se retrouve dans le contexte des tests dhypothses avec ici une difficult supplmentaire qui tient au fait que lon na pas quitt le niveau exprimental, le niveau intuitif. Il convient de trouver une contrepartie vraie ce coefficient de corrlation observ r.
14.4 Le coefficient de corrlation vrai

Cherchons substituer de la faon la plus naturelle possible des grandeurs vraies aux grandeurs observes constitutives de r. On note lapparition au dnominateur de sX et sY auxquelles on substitue naturellement X et Y , les carts types vrais de X et Y. Au numrateur on remarque mx et my auxquels on substitue E(X) et E(Y) les moyennes vraies de X et Y. Reste au numrateur une moyenne observe (lisons n la place de n-1) ; on lui substitue une moyenne vraie : moyenne vraie du produit [X - E(X)][Y - E(Y)], soit E{[X - E(X)][Y - E(Y)]}. Cette moyenne vraie dpendant de X et Y la fois sappelle covariance vraie de X et Y. Finalement, on obtient la contrepartie vraie note : E{[X E(X)][Y E(Y)]} ( X, Y ) = --------------------------------------------------------------X Y Remarque : propos des notions desprance, de covariance vraie , de coefficient de corrlation vrai , voir le chapitre 6.
154/175
2010 - 2011
14.5 Test dgalit du coefficient de corrlation vrai 0

Des calculs thoriques complexes, et imposant un certain nombre de restrictions, qui, dpassant le cadre de ce cours, ne seront pas mentionns, permettent de calculer la distribution de r sous lhypothse - retenue comme hypothse nulle - de nullit du coefficient de corrlation vrai . Il sagit dune famille de distributions indexes par un entier appel nombre de degrs de libert. La mise en uvre du test est alors conventionnelle : H0 : = 0 [les variables ne sont pas corrles], H1 : 0 [les variables sont corrles] Paramtres du test : coefficient de corrlation observ 1 ----------- ( x i m x ) ( y i m y ) n1 i r = -------------------------------------------------------------sX sY sous H0, r suit une distribution connue, dite du coefficient de corrlation n-2 degrs de libert o n est le nombre de couples (xi, yi) exprimentaux. Lintervalle de pari pour r est de la forme IP 1 = [ corr ( n 2 ) ; corr ( n 2 ) ], corr ( n 2 ) tant lue dans une table. Conditions de validit Les conditions de validit sont complexes et expriment que toute combinaison linaire des variables X et Y est distribue selon une loi normale. Autrement dit, toute variable aX + bY o a et b sont deux nombres quelconques doit tre normale. Pour la commodit de lexpression, on noncera les conditions de validit sous le nologisme distribution de (X, Y) binormale . la suite de la mise en uvre est standard.
Quelques exemples numriques Au risque 5 % : n = 10, IP0,95 = [-0,632 ; 0,632], ddl = 8 n = 20, IP0,95 = [-0,444 ; 0,444], ddl = 18 n = 50, IP0,95 = [-0,280 ; 0,280], ddl = 48 Ainsi, par exemple, pour pouvoir conclure la corrlation, lorsque lon dispose de 20 observations (20 couples (xi , yi )), le coefficient de corrlation observ doit tre suprieur 0,444, ou infrieur -0,444. Autre formulation du test n2 On peut montrer que t = r ------------- est, sous H0, distribu selon une loi de Student n-2 ddl. 2 1r
2010 - 2011
155/175
Si on prfre utiliser ce paramtre plutt que r, il faut lire la table de Student pour construire lintervalle de pari.
156/175
2010 - 2011
Rsum du chapitre
1. La corrlation entre deux variables alatoires quantitatives X et Y se mesure laide du coefficient de corrlation vrai : ( X, Y ) = E { [ X E ( X ) ] [ Y E ( Y ) ] } --------------------------------------------------------------X Y Proprits : 2. ( X, Y ) [ 1 ; 1 ] Si X, Y indpendantes, alors (X, Y) = 0
Disposant dun chantillon de n couples (xi , yi ) on dfinit le coefficient de corrlation observ : n - -1 ----------- 1 x i y i m x m y ----------- ( x i m x ) ( y i m y ) n 1n n1 i i r = -------------------------------------------------------------- = -------------------------------------------------------sX sY sX sY Proprit : r [ 1 ; 1 ] Il existe un test de nullit du coefficient de corrlation vrai dont le paramtre est r. Indpendance et corrlation sont des notions diffrentes ; deux variables dont le coefficient de corrlation vrai est nul peuvent tre lies.
3. 4.
2010 - 2011
157/175
158/175
2010 - 2011
Mthodologie des tudes pidmiologiques
Chapitre 15 Mthodologie des tudes pidmiologiques

The world is richer in associations than meanings, and it is the part of wisdom to differentiate the two. John Barth
15.1 La causalit
La causalit est une thmatique centrale en philosophie des sciences et en logique, et les premiers crits sur ce sujet remontent Aristote. Jusquau 18me sicle, la causalit nait de lobservation, et les connaissances sont construites partir des observations sans ide prconues du rel (infrence dite inductive). Nous formons alors une sorte danticipation, qui nous reprsente que le second vnement (leffet) doit se produire quand le premier (la cause) se produit - mme si les mcanismes explicatifs liant ces deux vnements nous chappent. Dans la vie courante, lacquisition de nos apprentissages ou lapplication des rgles de bon sens , illustrent cette conception de la causalit. Hume, philosophe cossais, montrera pourtant les limites de ce principe et limpossibilit de prouver la relation causale de lobservation de la succession de deux vnements dont on ne peut jamais exclure la concidence. Le questionnement sur la causalit en mdecine est galement ancien. Claude Bernard crit en 1865 : Lesprit de lhomme ne peut concevoir un effet sans cause, de telle sorte que la vue dun phnomne veille toujours en lui une ide de causalit. Toute la connaissance humaine se borne remonter des effets observs leur cause. la suite dune observation, une ide relative la cause du phnomne observ se prsente lesprit ; puis on introduit cette ide anticipe dans un raisonnement en vertu duquel on fait des expriences pour la contrler. On retrouve dans ce propos une conception diffrente de la causalit : il sagit de dduire (au sens strict) les consquences dune hypothse et ensuite de comparer ces consquences aux donnes. Sil y a dsaccord, alors lhypothse est rfute. Dans le cas contraire, lhypothse nest pas prouve mais notre croyance en elle sen trouve renforce. Cette conception, de type dductif, formalise par Karl Popper au dbut du 20me sicle, sest impose comme le socle de la dcouverte scientifique. Des livres dpidmiologie entiers, dont certains trs mathmatiques utilisant les outils de la logique, traitent de ce problme de la causalit et il nest pas possible den donner une vision mme partielle. On retiendra quune relation causale entre deux caractres pourra tre voque lorsque
2010 - 2011
159/175
lun des deux est contrl . Lessai contrl est la seule mthode qui permet de mesurer leffet causal dune intervention, par exemple un traitement, sur un vnement, par exemple, la gurison dune maladie.
15.2 Dmarche exprimentale et dmarche dobservation

Caractre contrl ; caractre alatoire Dans ce qui suit, les termes caractre, caractristique, variable et facteur sont considrs comme synonymes. On dit dun caractre quil est contrl lorsque sa dtermination nous appartient. Exemple : on sintresse leffet dun traitement sur la survenue dun type de cancer chez des souris. Le caractre absence ou prsence du traitement est contrl car dtermin par lexprimentateur. Dans le cas contraire, on dit que le caractre est alatoire. Exemple : la survenue du cancer chez la souris. Lorsquon envisage un problme de liaison entre deux variables (cela recouvre tous les problmes que lon a rencontrs) un au plus des caractres peut tre contrl. Dmarche exprimentale Lorsque lexprience se conduit avec un facteur contrl, on dit que lon suit une dmarche exprimentale. Dans ce cas, au cours de la constitution de lchantillon qui permettra de mettre en uvre les tests, on dcide du choix de la valeur dun caractre (par exemple, on dcide si le Xme patient sera trait ou non, et on tudie la gurison de la maladie). Dmarche dobservation Lorsque lexprience se conduit sur la base de deux facteurs alatoires, on dit que lon suit une dmarche dobservation (par exemple, on observe si le Xme sujet est fumeur ou non, et on tudie la survenue de cancer). Principe fondamental La discussion de la causalit ne se conoit pas sans contrle dun des deux caractres tudis. Autrement dit, on ne peut mesurer un effet causal hors dune dmarche exprimentale. Seule cette dmarche, en effet, permet dassurer que les individus constituant lchantillon sont comparables en tout (homognes) sauf pour ce qui concerne le caractre contrl. Encore faut-il assurer cette homognit et la mthode de rfrence est le tirage au sort. On parle de randomisation pour lattribution par tirage au sort du caractre contrl, le traitement.
160/175
2010 - 2011
15.3 Les essais randomiss

15.3.1 Dfinition
Le but de lessai randomis est, grce une dmarche exprimentale rigoureuse, dvaluer lefficacit dune intervention de sant, par exemple un nouveau traitement - on parle alors dessai thrapeutique randomis. Il peut sagir galement dune autre intervention mdicale, par exemple une technique chirurgicale, un programme dducation pour la sant, un dispositif mdical, une mthode diagnostique. Dans un essai thrapeutique pour une maladie, on cherche le plus souvent montrer quun nouveau traitement a une efficacit suprieure celle du traitement habituellement utilis dans cette maladie, ou labsence de traitement (notamment lorsquil nexiste pas encore de traitement dusage pour la maladie tudie). Parce que lattribution du traitement est contrle et dcide par tirage au sort, on sera le cas chant en mesure de conclure quune diffrence defficacit est cause par le traitement (au risque derreur statistique choisi). La ralisation dun essai thrapeutique ncessite donc de dfinir le critre que lon utilisera pour juger de lefficacit - appel critre de jugement. Des exemples de critres de jugement sont la rgression des symptmes dune maladie, la dure de survie, la valeur dune constante biologique, un score de qualit de vie .... En pratique on distingue les critres de jugement objectifs, reposant sur une grandeur valuable par une mesure physique objective, par exemple la charge virale, la concentration de cholestrol sanguin, la survie, ... des critres de jugement subjectifs, qui peuvent tre influencs par des effets de type psychologique, par exemple la douleur, lanxit, la qualit de vie, la mesure dune impotence une preuve de marche, ... Lessai thrapeutique doit tre organis afin de limiter au maximum les biais pouvant modifier le droulement de lessai ou linterprtation du critre de jugement.
15.3.2 Comment limiter les biais dans le droulement dun essai thrapeutique randomis ? Aveugle et placebo
Le placebo est une prsentation lidentique du mdicament ltude mais qui ne contient pas le principe actif. Ainsi lorsquun essai randomis contre placebo est ralis, un sujet dans lessai recevra au hasard soit le mdicament ltude soit une copie de ce mdicament, et ni ce sujet, ni le mdecin qui le prend en charge dans ltude, ni la personne (souvent le mdecin) qui valuera le critre de jugement ne sauront ce qui est rellement pris. On parle dans ce cas de mise en insu ou daveugle. Les sujets recevant le placebo constituent ce que lon appelle le groupe tmoin (ou groupe contrle par anglicisme). Laveugle est justifi pour deux raisons principales : 1) dune part, parce quil garantit que les patients seront a priori pris en charge et suivis de la mme manire dans lessai quel que soit le groupe dans lequel ils ont t randomiss. En labsence daveugle, un patient recevant, par exemple, un placebo, pourrait tre amen plus facilement interrompre rapidement sa participation dans lessai (puisquil a le placebo) pour pouvoir bnficier dun autre traitement, contrairement un patient recevant le traitement ltude ; un patient recevant le traitement ltude pourrait faire lobjet de plus dattention que celui du groupe placebo et 2)
2010 - 2011
161/175
dautre part, parce quil permet dviter une interprtation tendancieuse ou biaise du critre de jugement si celui-ci est subjectif. Lvaluateur dune douleur rsiduelle 6 mois aprs le dbut de lessai sera invitablement influenc dans son jugement sil connat le groupe du patient, et aura tendance trouver une plus grande efficacit sur la douleur chez les patients qui reoivent le traitement ltude que chez les patients du groupe tmoin. Dailleurs, en cas dabsence daveugle, le simple fait de soumettre un sujet un traitement amliore souvent un critre de jugement subjectif, mme si ce traitement na aucune efficacit intrinsque : cest leffet placebo. Leffet placebo est dfini comme lcart positif constat entre leffet thrapeutique observ et leffet pharmacologique propre dun mdicament. Si lon donne une substance inerte sur le plan pharmacologique, on observera uniquement un effet placebo. On considre ainsi que lhomopathie ou dautres mdecines douces , relvent uniquement de leffet placebo et donc que leffet de ces thrapeutiques est exclusivement subjectif. Dans un essai en aveugle, leffet placebo est rparti de la mme manire entre les deux groupes de patients, et la diffrence observe est donc imputable aux seules proprits pharmacologiques du traitement. Un essai contre placebo en aveugle peut porter sur dautres interventions que le seul mdicament. Un exemple clbre rcent porte sur la chirurgie du genou chez les sujets obses. Jusque rcemment, tous les essais indiquaient une amlioration franche de la douleur et de la mobilit chez les sujets randomiss dans le groupe ayant subi lintervention chirurgicale ligamentaire par rapport ceux randomiss dans le groupe sans intervention. Jusquau jour o un essai fut conduit comparant des sujets chez qui lintervention sur les ligaments tait ralise, des sujets endormis et chez lesquels un simulacre dintervention (ouverture/fermeture simple de la cavit articulaire) tait ralis. Le rsultat montrait lamlioration de la douleur dans les deux groupes (leffet placebo), et labsence de diffrence entre les deux groupes (donc labsence defficacit intrinsque de lintervention).
15.3.3 Comment limiter les biais dans lanalyse dun essai thrapeutique randomis ? Intention de traiter
Lanalyse des rsultats dun essai thrapeutique est effectue grce la mthode statistique. Ce sont les tests statistiques qui permettent de conclure si les diffrences observes entre le groupe de sujets traits et le groupe de sujets non traits ou recevant le placebo permettent de rejeter ou non lhypothse dgalit de traitement, cest--dire de conclure quun traitement est ou non meilleur que lautre. De faon tout fait gnrale, les tests employs sont des tests bilatraux. De faon tout aussi gnrale, dans ce type dessai de supriorit ou defficacit, lanalyse statistique est effectue selon le principe de lintention de traiter. Ce principe consiste considrer le patient dans lessai littralement tel quon avait lintention de le traiter , cest dire, dans le groupe dans lequel il avait t randomis - peu importe ce qui a t rellement pris. Par exemple, un patient randomis dans le groupe placebo pourrait en ralit recevoir le traitement lessai pendant toute la dure de ltude, par simple erreur au moment de la dlivrance du mdicament : quand bien mme, ce patient sera analys dans le groupe placebo. Le principe de lanalyse en intention de traiter a pour objectif de prserver les bnfices de la randomisation au moment de lanalyse des rsultats, et de limiter les biais lis aux carts entre le protocole de lessai et la conduite de celui-ci. En pratique, la consquence implicite dune analyse en intention de traiter sera que tout patient randomis sera
162/175
2010 - 2011
inclus dans lanalyse y compris ceux nayant pas bien voire pas du tout pris le traitement qui leur tait allou. Cependant, les tudes randomises ne sont pas toujours ralisables do limportance de la question de causalit dans les tudes observationnelles en mdecine. En particulier, si lexprimentation peut parfois permettre de mesurer un effet causal entre un traitement et une maladie, elle est trs souvent impossible lorsque la cause potentielle tudie est un risque.
15.4 Les tudes dobservation

On regroupe sous cette terminologie, les tudes dont lobjectif est didentifier les facteurs associs des vnements de sant et ne reposant pas sur une dmarche exprimentale. Il est en effet contre les principes thiques dexposer une personne une cause potentielle de maladie pour tudier comment celle-ci survient - par exemple faire fumer par tirage au sort des sujets pour tudier le rle du tabac dans les cancers. En revanche, les personnes delles-mmes se rpartissent souvent en exposes / non exposes (ex : fumeur/non fumeur), et le but de ces tudes dobservation sera donc dtayer avec la meilleure dmarche possible lhypothse teste partir de ces observations. Les tudes dobservation peuvent tre catgorises en cohortes - cas-tmoins et transversales ; prospectives et rtrospectives. On notera que cette terminologie peut sappliquer galement la dmarche exprimentale : un essai thrapeutique est une tude prospective imposant un recueil de donnes longitudinales. Dans les tudes dobservation, on tudie le plus souvent lassociation entre une exposition et un vnement de sant. Lexposition peut tre un risque (par exemple fumer, un polymorphisme gntique), ou un bnfice (par exemple un traitement, le poids). Des vnements de sant sont par exemple, la survenue dune maladie, une gurison, un dcs, une rcidive, etc ...
15.4.1 Cohortes - Cas-tmoins et tudes transversales

Etudes de cohorte Une cohorte tait le dixime dune lgion romaine. Cest plus gnralement un ensemble de sujets. Dans une tude dite de cohorte les sujets sont rpartis en groupes en fonction de leur exposition (par exemple, fumeur/non fumeur) et lvnement nest pas survenu au moment o cette rpartition est faite. Chacun de ces groupes dfinit une sous cohorte , et la comparaison du taux de survenue de lvnement entre ces diffrentes sous cohortes, permettra de mesurer lassociation entre exposition et vnement. Dun point de vue pratique ltude de cohorte est la dmarche dobservation la plus proche de lessai randomis, la principale diffrence tant que dans un essai, lattribution de lexposition (le traitement) est ralise par tirage au sort. Etudes cas-tmoins Dans une tude cas-tmoins (ou cas-contrle), les groupes de sujets sont constitus en fonction de leur ralisation ou non de lvnement de sant : les cas sont par exemple les malades atteints dun cancer et les tmoins, des sujets non atteints de ce cancer. On com-
2010 - 2011
163/175
pare les niveaux dexposition dans ces deux groupes pour tudier lassociation entre exposition et vnement de sant. En gnral, on choisit de un 4 tmoins pour chaque cas et la proportion de malades dans ltude est compltement dtermine (de 50 % pour 1 tmoin pour 1 cas, 20 % pour 4 tmoins par cas), et ne correspond en rien la proportion de malades dans la population cible. Etudes transversales Une tude transversale est une tude descriptive dont le principe est essentiellement de recueillir simultanment des informations sur expositions et vnements de sant sur un chantillon reprsentatif de la population cible - celle laquelle on souhaite pouvoir extrapoler les rsultats. Les enqutes de prvalence sont un exemple typique de ces tudes transversales, dans lesquelles on value le nombre de malades prsents un instant dans la population, et qui identifie les facteurs associs aux variations de prvalence. Ces tudes transversales sont limites par labsence de description temporelle des expositions (et des vnements), mais peuvent permettre didentifier des relations entre vnement de sant et exposition lorsque celles-ci sont invariables dans le temps (par exemple, le sexe, le groupe sanguin, ...).
15.4.2 Etudes prospectives et rtrospectives

Une tude est dite prospective lorsque lexposition est mesure avant la survenue de lvnement tudi. Une tude est dite rtrospective lorsque la mesure de lexposition survient aprs la survenue de lvnement. Par exemple, une tude dans laquelle on mesure la consommation journalire de tabac, et dans laquelle on observe la survenue de cancer au cours du suivi des sujets est une tude prospective ; a contrario, demander la consommation de tabac des dix dernires annes des sujets ayant un cancer est une tude rtrospective. On notera que cette dfinition de prospective/rtrospective nest pas consensuelle, et les pidmiologistes modernes recommandent de ce fait, de ne plus utiliser cette terminologie.
15.4.3 Donnes longitudinales

On dit que les donnes sont longitudinales lorsque quil existe plusieurs mesures travers le temps par sujet. Par exemple, la mesure du taux de cholestrol chez un sujet tous les 6 mois, ou la mesure du statut fumeur/non fumeur au cours du temps est une donne longitudinale. Les mesures longitudinales chez un mme sujet ne peuvent pas tre considres comme ralisation de variables alatoires indpendantes ; par exemple, le taux de cholestrol dun sujet un instant quelconque apporte une information sur le taux de cholestrol du mme sujet 6 mois plus tard. Il faudra tenir compte de cette non-indpendance dans les analyses statistiques de ces donnes - qui seront souvent complexes.
164/175
2010 - 2011
15.4.4 En pratique
Le plus souvent, une tude de cohorte sera prospective, et aura recueilli des donnes longitudinales. Le plus souvent une tude cas-tmoins sera rtrospective.
15.5 Mesures dassociation utilises en pidmiologie

On traite le cas le plus simple o une exposition est rpartie en deux niveaux (oui/non, prsent/absent, expos/ non expos), et on notera E+ lexposition, E- labsence dexposition au facteur tudi. Lvnement dintrt est galement catgoris en deux niveaux, M+ pour malade, M- pour nonmalade. On notera que dans le cas dun essai thrapeutique E+ est le traitement ltude, et Mpeut tre dfini comme le succs thrapeutique, donc ce qui suit sapplique aussi bien lessai randomis quaux tudes dobservation. A partir de cette catgorisation, il est possible de dresser le tableau suivant :
M+ E+ EOn dfinit n1 n3
Mn2 n4
le risque absolu chez les exposs, comme la proportion vraie de malades parmi les exposs P(M+ | E+), estim par n1/(n1+n2) le risque absolu chez les non exposs, comme la proportion de malades chez les non exposs, P(M+ | E-), estim par n3/(n3+n4) le risque relatif est une mesure dassociation, dfini comme le rapport des risques absolus chez les exposs et non exposs, P(M+ | E+) / P(M+ | E-). Ce risque est estim par n1/(n1+n2) / n3/(n3+n4) le rapport des cotes (odds-ratio en anglais) est une autre mesure dassociation trs utilise en biomdecine. Rappelons que la cote dun vnement est dfinie comme le rapport de sa probabilit sur son complmentaire : jouer une cote de 9 contre 1 signifie jouer avec 9 chance de perdre contre une chance de gagner. Le rapport des cotes est dfini comme le rapport de la cote de la maladie chez les exposs P(M+ | E+)/P(M- | E+) sur la cote de la maladie chez les non-exposs P(M+ | E-)/P(M- | E-), mais aussi, par application du thorme de Bayes, comme le rapport de la cote des expositions chez les malades P(E+ | M+)/P(E- | M+), par la cote des expositions chez les non malades P(E+ | M-)/P(E- | M-). Il est estim par le rapport des produits croiss (n1n4) / (n2n3).
2010 - 2011
165/175
Le rapport des cotes est la seule quantit pertinente qui peut tre estime dans une tude cas-tmoins puisque le nombre total de sujets non malades est dtermin par le nombre de tmoins choisi par cas. Si la maladie est rare dans la population cible, aussi bien chez les exposs que chez les nonexposs, P(M+) est proche de 0 et donc P(M-) voisin de 1, et P( M+ | E+)/P(M- | E+) est voisin de P( M+ | E+) ; P(M+ | E-)/P(M- | E-) proche de P(M+ | E-) et donc le rapport des cotes dfini ci-dessus est proche de du risque relatif. Le risque relatif et le rapport des cotes sont des quantits qui peuvent prendre les valeurs entre 0 et linfini. Sous lhypothse (nulle) dindpendance entre lexposition et lvnement tudi, ces deux quantits valent 1. Un risque relatif ou un rapport de cotes suprieur 1 (conclusion que lon portera aprs avoir fait le test dhypothse appropri) signifie que lexposition est un facteur de risque de lvnement tudi. Un risque relatif ou un rapport de cotes infrieur 1 signifie que lexposition est un facteur protecteur de lvnement. Un risque relatif de 50 (par exemple) pour lexposition fumeur et lvnement cancer du poumon sinterprte littralement comme il y a 50 fois plus de cancer du poumon chez les fumeurs que chez les non fumeurs .
166/175
2010 - 2011
Rsum du chapitre
1. Lessai contrl randomis permet de mesurer de leffet causal dune intervention de sant, un traitement par exemple. 2. La randomisation qui consiste tirer au sort lattribution de lintervention, permet dassurer que les individus constituant lchantillon sont comparables en tout (homognes) sauf pour ce qui concerne le caractre contrl. 3. Dans un essai randomis, le critre de jugement est la variable qui sera compare entre les groupes pour juger de lefficacit de lintervention. On distingue critres de jugements objectifs (ex : dcs) et subjectifs (ex : douleurs), ces derniers pouvant tre facilement influencs par dautres effets que les effets propres de lintervention. 4. Leffet thrapeutique dans un essai est la somme de leffet pharmacologique propre et de leffet placebo. 5. La mise en aveugle qui signifie que ni le patient, ni le mdecin qui le suit, ni lvaluateur du critre ne savent dans quel groupe est randomis le patient, est utilise pour limiter les biais. 6. Lanalyse en intention-de-traiter signifie que lon compare le critre de jugement entre les groupes tels quils ont t constitus par la randomisation. Elle implique que tous les patients randomiss sont conservs dans lanalyse. 7. Dans une tude dobservation, il nest pas possible de conclure causalement, juste de mettre en vidence des associations entre expositions (par exemple fumer) et vnement de sant (par exemple un cancer). 8. Les tudes dobservations visent identifier les facteurs associs des vnements de sant ; il sagit souvent de risques. 9. On distingue les tudes de cohortes, o les sujets sont rpartis en groupes en fonction de leur exposition (ex : fumeur/non fumeur) ; les tudes cas-tmoins, o les sujets sont rpartis en groupes en fonction de la ralisation ou non de lvnement de sant (ex cancer/ pas cancer) ; les tudes transversales, o expositions et vnements sont mesurs simultanment. 10. Une tude est dite prospective lorsque lexposition est mesure avant la survenue de lvnement tudi. Une tude est dite rtrospective lorsque la mesure de lexposition survient aprs la survenue de lvnement. 11. Le risque relatif et le rapport des cotes mesurent la force de lassociation entre lexposition et lvnement de sant tudi. Ils valent 1 en cas dabsence dassociation.
2010 - 2011
167/175
168/175
2010 - 2011
Tables statistiques
Annexe A Tables statistiques
2010 - 2011
169/175
Tables statistiques
A.1 TABLE DE LA VARIABLE NORMALE REDUITE Z
0,00 0,10 0,20 0,30 0,40 0,50 0,60 0,70 0,80 0,90
0,00 1,645 1,282 1,036 0,842 0,674 0,524 0,385 0,253 0,126
0,01 2,576 1,598 1,254 1,015 0,824 0,659 0,510 0,372 0,240 0,113
0,02 2,326 1,555 1,227 0,994 0,806 0,643 0,496 0,358 0,228 0,100
0,03 2,170 1,514 1,200 0,974 0,789 0,628 0,482 0,345 0,215 0,088
0,04 2,054 1,476 1,175 0,954 0,772 0,613 0,468 0,332 0,202 0,075
0,05 1,960 1,440 1,150 0,935 0,755 0,598 0,454 0,319 0,189 0,063
0,06 1,881 1,405 1,126 0,915 0,739 0,583 0,440 0,305 0,176 0,050
0,07 1,812 1,372 1,103 0,896 0,722 0,568 0,426 0,292 0,164 0,038
0,08 1,751 1,341 1,080 0,878 0,706 0,553 0,412 0,279 0,151 0,025
0,09 1,695 1,311 1,058 0,860 0,690 0,539 0,399 0,266 0,138 0,013
La probabilit sobtient par addition des nombres inscrits en marge exemple : pour u = 0,994, la probabilit est = 0,30 + 0,02 = 0,32 TABLE POUR LES PETITES VALEURS DE LA PROBABILIT u
0,001 3,29053 0,000 1 3,89059 0,000 01 4,41717 0,000 001 4,89164 0,000 000 1 5,32672 0,000 000 01 5,73073 0,000 000 001 6,10941
(daprs Fisher et Yates, Statistical tables for biological, agricultural, and medical research (Oliver and Boyd, Edinburgh) avec laimable autorisation des auteurs et des diteurs)
170/175
2010 - 2011
Tables statistiques
A.2 TABLE DU TEST DE WILCOXON

Table adapte de Siegel
n 6 7 8 9 10 11 12 13 14 15 0,05 2,118 1,961 2,044 2,026 1,947 2,009 2,008 1,964 1,952 1,965 2,299 2,324 2,263 2,253 2,276 2,322 2,313 2,329 2,306 2,464 2,381 2,456 2,454 2,479 2,523 2,517 2,533 0,02 0,01
Indique, pour n 15 les valeurs de W pour = 0,05, 0,02 et 0,01.
2010 - 2011
171/175
Tables statistiques
A.3 TABLE DU TEST DE MANNWHITNEY-WILCOXON

Table adapte de Siegel
nA 3 nB 4 0,05 0,01 5 0,05 0,01 6 0,05 0,01 7 0,05 0,01 8 0,05 0,01 9 0,05 0,01 10 0,05 0,01 2,333 2,687 2,117 2,415 1,962 2,479 2,074 2,530 1,960 2,572 2,052 2,422 1,961 2,366 1,905 2,483 2,107 2,596 2,047 2,473 2,003 2,570 1,970 2,480 2,099 2,561 2,065 2,489 2,110 2,528 2,118 2,483 1,965 2,615 1,991 2,576 2,013 2,680 2,033 2,523 2,018 2,498 2,086 2,514 2,014 2,530 1,956 2,546 2,017 2,560 2,057 2,568 2,037 2,500 2,022 2,551 2,010 2,498 1,953 2,584 1,982 2,560 2,008 2,541 2,040 2,570 2,009 2,580 2,011 2,540 4 5 6 7 8 9 10
Indique, pour nA 10 et nB 10, nA nB , les valeurs de M, pour =0,05 et =0,01. Exemple : nA =5, nB =8 : M0,05=1,991
172/175
2010 - 2011
Tables statistiques
A.4 TABLE DE 2
La table donne la probabilit pour que 2 gale ou dpasse une valeur donne, en fonction du nombre de degrs de libert (d. d. l.) Quand le nombre de degrs de libert est lev,
2 est peu prs distribu normalement

autour de gale 1
2 ( d.d.l. ) 1 avec une variance
ddl 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30
0,90 0,0158 0,211 0,584 1,064 1,610 2,204 2,833 3,490 4,168 4,865 5,578 6,304 7,042 7,790 8,547 9,312 10,085 10,865 11,651 12,443 13,240 14,041 14,848 15,659 16,473 17,292 18,114 18,939 19,768 20,599
0,50 0,455 1,386 2,366 3,357 4,351 5,348 6,346 7,344 8,343 9,342 10,341 11,340 12,340 13,339 14,339 15,338 16,338 17,338 18,338 19,337 20,337 21,337 22,337 23,337 24,337 25,336 26,336 27,336 28,336 29,336
0,30 1,074 2,408 3,665 4,878 6,064 7,231 8,383 9,524 10,656 11,781 12,899 14,011 15,119 16,222 17,322 18,418 19,511 20,601 21,689 22,775 23,858 24,939 26,018 27,096 28,172 29,246 30,319 31,391 32,461 33,530
0,20 1,642 3,219 4,642 5,989 7,289 8,558 9,803 11,030 12,242 13,442 14,631 15,812 16,985 18,151 19,311 20,465 21,615 22,760 23,900 25,038 26,171 27,301 28,429 29,553 30,675 31,795 32,912 34,027 35,139 36,250
0,10 2,706 4,605 6,251 7,779 9,236 10,645 12,017 13,362 14,684 15,987 17,275 18,549 19,812 21,064 22,307 23,542 24,769 25,989 27,204 28,412 29,615 30,813 32,007 33,196 34,382 35,563 36,741 37,916 39,087 40,256
0,05 3,841 5,991 7,815 9,488 11,070 12,592 14,067 15,507 16,919 18,307 19,675 21,026 22,362 23,685 24,996 26,296 27,587 28,869 30,144 31,410 32,671 33,924 35,172 36,415 37,652 38,885 40,113 41,337 42,557 43,773
0,02 5,412 7,824 9,837 11,668 13,388 15,033 16,622 18,168 19,679 21,161 22,618 24,054 25,472 26,873 28,259 29,633 30,995 32,346 33,687 35,020 36,343 37,659 38,968 40,270 41,566 42,856 44,140 45,419 46,693 47,962
0,01 6,635 9,210 11,345 13,277 15,086 16,812 18,475 20,090 21,666 23,209 24,725 26,217 27,688 29,141 30,578 32,000 33,409 34,805 36,191 37,566 38,932 40,289 41,638 42,980 44,314 45,642 46,963 48,278 49,588 50,892
0,001 10,827 13,815 16,266 18,467 20,515 22,457 24,322 26,125 27,877 29,588 31,264 32,909 34,528 36,123 37,697 39,252 40,790 42,312 43,820 45,315 46,797 48,268 49,728 51,179 52,620 54,052 55,476 56,893 58,302 59,703
Exemple : avec d. d. l. = 3, pour K 3; = 0,584 la probabilit est = 0,90 (daprs Fisher et Yates, Statistical tables for biological, agricultural, and medical research (Oliver and Boyd, Edinburgh) avec laimable autorisation des auteurs et des diteurs)
2010 - 2011
173/175
Tables statistiques
A.5 TABLE DU COEFFICIENT DE CORRELATION

La table indique la probabilit pour que le coefficient de corrlation gale ou dpasse, en valeur absolue, une valeur donne r , cest--dire la probabilit extrieure lintervalle (- r , + r ), en fonction du nombre de degrs de libert (d. d. l.)
ddl \ 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 25 30 35 40 45 50 60 70 80 90 100
0,10 0,9877 0,9000 0,8054 0,7293 0,6694 0,6215 0,5822 0,5494 0,5214 0,4973 0,4762 0,4575 0,4409 0,4259 0,4124 0,4000 0,3887 0,3783 0,3687 0,3598 0,3233 0,2960 0,2746 0,2573 0,2428 0,2306 0,2108 0,1954 0,1829 0,1726 0,1638
0,05 0,9969 0,9500 0,8783 0,8114 0,7545 0,7067 0,6664 0,6319 0,6021 0,5760 0,5529 0,5324 0,5139 0,4973 0,4821 0,4683 0,4555 0,4438 0,4329 0,4227 0,3809 0,3494 0,3246 0,3044 0,2875 0,2732 0,2500 0,2319 0,2172 0,2050 0,1946
0,02 0,9995 0,9800 0,9343 0,8822 0,8329 0,7887 0,7498 0,7155 0,6851 0,6581 0,6339 0,6120 0,5923 0,5742 0,5577 0,5425 0,5285 0,5155 0,5034 0,4921 0,4451 0,4093 0,3810 0,3578 0,3384 0,3218 0,2948 0,2737 0,2565 0,2422 0,2301
0,01 0,9999 0,9900 0,9587 0,9172 0,8745 0,8343 0,7977 0,7646 0,7348 0,7079 0,6835 0,6614 0,6411 0,6226 0,6055 0,5897 0,5751 0,5614 0,5487 0,5368 0,4869 0,4487 0,4182 0,3932 0,3721 0,3541 0,3248 0,3017 0,2830 0,2673 0,2540
Exemple : avec d. d. l. = 30, pour r = 0,3494 la probabilit est = 0,05 (daprs Fisher et Yates, Statistical tables for biological, agricultural, and medical research (Oliver and Boyd, Edinburgh) avec laimable autorisation des auteurs et des diteurs) 174/175
2010 - 2011
Tables statistiques
A.6 TABLE DU t DE STUDENT
ddl 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30
0,90 0,158 0,142 0,137 0,134 0,132 0,131 0,130 0,130 0,129 0,129 0,129 0,128 0,128 0,128 0,128 0,128 0,128 0,127 0,127 0,127 0,127 0,127 0,127 0,127 0,127 0,127 0,127 0,127 0,127 0,127 0,126
0,50 1,000 0,816 0,765 0,741 0,727 0,718 0,711 0,706 0,703 0,700 0,697 0,695 0,694 0,692 0,691 0,690 0,689 0,688 0,688 0,687 0,686 0,686 0,685 0,685 0,684 0,684 0,684 0,683 0,683 0,683 0,674
0,30 1,963 1,386 1,250 1,190 1,156 1,134 1,119 1,108 1,100 1,093 1,088 1,083 1,079 1,076 1,074 1,071 1,069 1,067 1,066 1,064 1,063 1,061 1,060 1,059 1,058 1,058 1,057 1,056 1,055 1,055 1,036
0,20 3,078 1,886 1,638 1,533 1,476 1,440 1,415 1,397 1,383 1,372 1,363 1,356 1,350 1,345 1,341 1,337 1,333 1,330 1,328 1,325 1,323 1,321 1,319 1,318 1,316 1,315 1,314 1,313 1,311 1,310 1,282
0,10 6,314 2,920 2,353 2,132 2,015 1,943 1,895 1,860 1,833 1,812 1,796 1,782 1,771 1,761 1,753 1,746 1,740 1,734 1,729 1,725 1,721 1,717 1,714 1,711 1,708 1,706 1,703 1,701 1,699 1,697 1,645
0,05 12,706 4,303 3,182 2,776 2,571 2,447 2,365 2,306 2,262 2,228 2,201 2,179 2,160 2,145 2,131 2,120 2,110 2,101 2,093 2,086 2,080 2,074 2,069 2,064 2,060 2,056 2,052 2,048 2,045 2,042 1,960
0,02 31,821 6,965 4,541 3,747 3,365 3,143 2,998 2,896 2,821 2,764 2,718 2,681 2,650 2,624 2,602 2,583 2,567 2,552 2,539 2,528 2,518 2,508 2,500 2,492 2,485 2,479 2,473 2,467 2,462 2,457 2,326
0,01 63,657 9,925 5,841 4,604 4,032 3,707 3,499 3,355 3,250 3,169 3,106 3,055 3,012 2,977 2,947 2,921 2,898 2,878 2,861 2,845 2,831 2,819 2,807 2,797 2,787 2,779 2,771 2,763 2,756 2,750 2,576
0,001 636,619 31,598 12,924 8,610 6,869 5,959 5,408 5,041 4,781 4,587 4,437 4,318 4,221 4,140 4,073 4,015 3,965 3,922 3,883 3,850 3,819 3,792 3,767 3,745 3,725 3,707 3,690 3,674 3,659 3,646 3,291
Exemple : avec d. d. l. = 10, pour t = 2,228, la probabilit est = 0,05 (daprs Fisher et Yates, Statistical tables for biological, agricultural, and medical research (Oliver and Boyd, Edinburgh) avec laimable autorisation des auteurs et des diteurs)
2010 - 2011
175/175

Stats

Transféré par

Informations du document

Copyright

Formats disponibles

Partager ce document

Partager ou intégrer le document

Options de partage

Avez-vous trouvé ce document utile ?

Ce contenu est-il inapproprié ?

Droits d'auteur :

Formats disponibles

Stats

Transféré par

Droits d'auteur :

Formats disponibles

Universit Pierre et Marie Curie

Responsables : F. Carrat et A. Mallet Auteurs : F. Carrat, A. Mallet, V. Morice

Mise jour : 20 octobre 2010 Relecture : V. Morice, A. Mallet, F. Carrat et S. Tzenas

Biostatistique - Carrat, Mallet, Morice

Sommaire Avant-propos Introduction

Statistique Population et chantillon Statistique et probabilit

Elments de calcul des Probabilits

Biostatistique - Carrat, Mallet, Morice

Cas dnombrable Cas dun ensemble probabilis infini non dnombrable

Probabilit Conditionnelle ; Indpendance et Thorme de Bayes

Evaluation de lintrt diagnostique des informations mdicales

Biostatistique - Carrat, Mallet, Morice

Fluctuations de la moyenne observe : la variable alatoire moyenne arithmtique

Biostatistique - Carrat, Mallet, Morice

Chapitre 10 : Estimation - Intervalle de confiance

Chapitre 11 : Les tests dhypothses. Principes

Chapitre 12 : Quelques tests usuels

Biostatistique - Carrat, Mallet, Morice

12.1.1.1 12.1.1.2 12.1.1.3 12.1.2

Chapitre 13 : Tests concernant des variables qualitatives

Chapitre 14 : Liaison entre deux variables continues : notion de corrlation

147 148 150 154 155 157

Biostatistique - Carrat, Mallet, Morice

Chapitre 15 : Mthodologie des tudes pidmiologiques

Biostatistique - Carrat, Mallet, Morice

Biostatistique - Carrat, Mallet, Morice

Biostatistique - Carrat, Mallet, Morice

Biostatistique - Carrat, Mallet, Morice

2 La mesure dune grandeur

Biostatistique - Carrat, Mallet, Morice

2.2 Erreurs de mesure

Biostatistique - Carrat, Mallet, Morice

3 La dcision dans lincertain

Biostatistique - Carrat, Mallet, Morice

Chapitre 1 Statistique(s) et Probabilit(s)

1.2 Population et chantillon

Biostatistique - Carrat, Mallet, Morice

1.3 Statistique et probabilit

Biostatistique - Carrat, Mallet, Morice

Biostatistique - Carrat, Mallet, Morice

Biostatistique - Carrat, Mallet, Morice

Chapitre 2 Rappels mathmatiques

Notations : la ngation de x A est x A est lensemble vide E est lensemble universel.

2.2 Oprations sur les ensembles

Biostatistique - Carrat, Mallet, Morice

Biostatistique - Carrat, Mallet, Morice

Algbre des ensembles AA = A (A B ) C = A (B C) AB = BA A (B C) = (A B) (A C) A = A AE = E A CA = E AA = A (A B ) C = A (B C) AB = BA A (B C) = (A B) (A C) AE = A A = A CA =

2.3 Ensembles finis, dnombrables, non dnombrables

2.4 Ensembles produits

Biostatistique - Carrat, Mallet, Morice

2.5 Familles densembles

2.6 Autres rappels mathmatiques

Soit {ai } une suite de termes ai . On note Proprits :

Biostatistique - Carrat, Mallet, Morice

2.6.2 Rappel sur les intgrales

Donc F se dduit de f par intgration, et f se dduit de F par drivation. b f ( x ) dx = F ( b ) F ( a )

Biostatistique - Carrat, Mallet, Morice

Biostatistique - Carrat, Mallet, Morice

Elments de calcul des Probabilits

Chapitre 3 Elments de calcul des Probabilits

Biostatistique - Carrat, Mallet, Morice

Elments de calcul des Probabilits

3.2 Exprience alatoire, ensemble fondamental et vnements

Biostatistique - Carrat, Mallet, Morice