Vous êtes sur la page 1sur 118

Bio-Statistique

1
re

partie

Discipline : Bio-statistique, Bio-mathmatique et Sciences de lInformation

OBJECTIFS PEDAGOGIQUES
Raliser limportance du problme de la variabilit inhrente aux donnes mdicales, comprendre les principaux concepts qui permettent de la grer et ainsi de pouvoir faire les choix ncessaires la prise en charge des malades avec le minimum derreur. OBJECTIFS TERMINAUX
1. Enumrer les principales sources de variabilit biologique (les mettre en vidence sur un

exemple simple).
2. Expliquer les concepts dchantillon, de population, de reprsentativit. 3. Comprendre et utiliser les concepts dintervalle de confiance et de test de comparaison. 4. Savoir expliquer ce que reprsente les risques et . 5. Expliquer clairement les phrases : La diffrence observe est significative x% , ou

La diffrence nest pas significative , appliques un exemple concret.


6. Savoir expliquer les concepts de :

- jugement de signification - jugement de causalit.


7. Savoir interprter une enqute pidmiologique, expliquer les concepts de biais, de facteur

de confusion, de risque relatif : RR, (ou odd ratio : OR), de risque attribuable : RA. OBJECTIFS CONTRIBUTIFS
1. Reconnatre les diffrents types de variables et expliquer comment lon peut

ventuellement passer dun type lautre.


2. Reconnatre la loi normale, citer les autres lois de probabilit. 3. Dcrire un chantillon par quelques techniques lmentaires : histogramme, fractiles,

calculer une moyenne, une variance, un cart-type, une mdiane, et expliquer la signification des paramtres prcdents.
4. Estimer une moyenne ou une frquence thorique. 5. Comparer une moyenne observe et une moyenne thorique, deux moyennes observes.
6.

Comparer une frquence observe une frquence thorique. Comparer deux ou plusieurs frquences observes (comparaison de %, de Chi2 (2).
2

7. Lire correctement les tables usuelles : , z, u, t, , r.) 8. Reconnatre si deux sries dobservations sont apparies et les comparer. 9. Mesurer le degr de liaison entre deux variables quantitatives par le coefficient de

corrlation

linaire.

Tester

la

signification

de

celui-ci

10. Discuter lintrt respectif de la comparaison de moyennes et du coefficient de corrlation

linaire dans le cas de sries apparies (double mesure sur un individu).


11. Connatre les conditions dapplication de ces calculs. 12. Interprter correctement , et p.

RECHERCHE CLINIQUE ET EPIDEMIOLOGIE Objectif gnral : tre capable de dfinir les concepts et les mthode lmentaires ncessaires pour aborder les problmes mdicaux quil sagisse de clinique ou dpidmiologie.
1. Dfinir lpidmiologie. Citer et dfinir ses branches principales. 2. Dfinir les domaines de recherche clinique ncessaires la prise en charge des malades et

indiquer leurs diffrences et leurs liens avec lpidmiologie.


3. Dfinir et distinguer enqute descriptive, enqute tiologique, enqute dintervention :

situation exprimentale et situation dobservation.


4. Dfinir ce quest un registre de population, en donner les avantages et les difficults. 5. Dfinir et calculer un taux brut de mortalit et un taux de mortalit spcifique. 6. Dfinir et calculer un taux dincidence et un taux de prvalence. Indiquer leur intrt en

Sant Publique.
7. Comprendre les principes de la standardisation par tranche dge appliqus aux taux

prcdents (taux standardiss).


8. Parmi les enqutes pidmiologiques, dfinir et distinguer enqute de cohorte et enqute

cas/tmoins. Indiquer les avantages et inconvnients respectifs. Dfinir enqute transversale et enqute longitudinale.
9. Dfinir ce quest un facteur de risque. Indiquer les arguments qui plaident en faveur du

caractre causal dun facteur de risque.


10. Dfinir, calculer et interprter le risque relatif et le risque attribuable dans un exemple

simple.
11. Connatre les diffrentes phases de lexprimentation thrapeutique et leur stratgie

respective.
12. Citer et dfinir les principaux facteurs qui doivent ou peuvent tre pris en compte dans le

protocole dun essai thrapeutique (choix des facteurs comparer, notion de placebo, critres de choix ou dexclusion des sujets, moyen dassurer la comparabilit des groupes, simple ou double aveugle, facteurs intervenant dans la dtermination du nombre de sujet ncessaire, critres de jugement, rgles dthique et de confidentialit (lois).
13. Evaluer un signe, un examen, une dcision mdicale en calculant leur sensibilit et leur

spcificit, leurs valeurs prdictives positives et ngatives.

SOMMAIRE

INTRODUCTION A LA METHODE STATISTIQUEEN RECHERCHE CLINIQUE ET EPIDEMIOLOGIQUE ....................................................................................................1 I. La finalit ..............................................................................................................................1 II. La valeur des Chiffres..........................................................................................................2 III. La biostatistique..................................................................................................................5 IV. Solutions statistiques ..........................................................................................................7 V. La causalit ..........................................................................................................................9 VI. Conclusions ........................................................................................................................9 Bibliographie de base .............................................................................................................10 CHAPITRE I : Buts et principes ........................................................................................11 I. La variabilit .......................................................................................................................11 II. Population, Echantillon......................................................................................................13 III. Variable alatoire..............................................................................................................14 IV. Fluctuations dchantillonnage.........................................................................................15 V. Les lois de la probabilit....................................................................................................17 VI. Quelques dfinitions et exemples.....................................................................................22 Rsum ...................................................................................................................................28 CHAPITRE II : Intervalle de fluctuation dun paramtre ..............................................29 I. Introduction .........................................................................................................................29 II. Intervalle de fluctuation dun pourcentage ........................................................................31 III. Intervalle de fluctuation dune moyenne ..........................................................................32 Rsum ...................................................................................................................................35 CHAPITRE III : Estimation Intervalle de confiance dun paramtre.........................36 I. Introduction .........................................................................................................................36 II. Dfinition et proprits dun estimateur ............................................................................36 II.1. Dfinition ...................................................................................................................36 II.2. Proprits dun estimateur..........................................................................................37 III. Estimation dune moyenne ...............................................................................................37 III.1. Estimation ponctuelle ...............................................................................................37 III.2. Estimation par intervalle de confiance......................................................................37 IV. Estimation dun pourcentage............................................................................................39 IV.1. Estimation ponctuelle ...............................................................................................39 IV.2. Estimation par intervalle de confiance .....................................................................39 Rsum ...................................................................................................................................42

CHAPITRE IV : Principe des tests dhypothse risques derreur puissance et nombre de sujet ncessaire ..............................................................................................43 I. Estimation & test : 2 problmes diffrents..........................................................................43 II. Principes des tests statistiques ...........................................................................................44 II.1. Formuler lhypothse nulle H0 et lhypothse alternative H1 ....................................45 II.2. Dterminer ce que devraient tre les observations si H0 tait vraie...........................46 II.3. Vrifier si les observations sont conformes aux valeurs attendues sous lhypothse nulle........................................................................................................46 II.4. Choisir la rgle de dcision ........................................................................................47 III. Le risque = risque de premire espce = seuil de signification ....................................48 IV. Le degr de signification ..................................................................................................49 V. Le risque et la puissance dun test statistique.................................................................51 VI. Application au calcul du nombre de sujets ncessaire .....................................................52 VII. Test unilatral ou test bilatral ........................................................................................54 Rfrences bibliographiques ..................................................................................................57 CHAPITRE V : Variables qualitatives : Comparaison de pourcentages Test du Chi Deux ..................................................................................................................58 I. Comparaison de deux pourcentages Test de lcart rduit...............................................58 I.1. Comparaison dun pourcentage observ un pourcentage thorique .........................58 I.2. Comparaison de deux pourcentages observs .............................................................61 II. Test du Chi deux en sries indpendantes .........................................................................64 II.1. Introduction ................................................................................................................64 II.2. Comparaison dune distribution observe une distribution thorique.....................64 II.3. Comparaison de plusieurs distributions observes ....................................................70 Rsum ...................................................................................................................................76 CHAPITRE VI : Variables quantitatives Comparaison de moyennes............................77 I. Comparaison dune moyenne observe une valeur thorique..........................................77 I.1. Rappel : la moyenne dun chantillon randomis est une variable alatoire ..............78 I.2. Les 2 hypothses : nulle et alternative.........................................................................79 I.3. Principe des calculs .....................................................................................................80 I.4. En pratique...................................................................................................................81 I.5. Lire la table de student ................................................................................................82 I.6. Exemples .....................................................................................................................83 II. Comparaison de deux moyennes observes sur des chantillons indpendants ................84 II.1. Les 2 hypothses : nulle et alternative .......................................................................84 II.2. Principe des calculs ....................................................................................................85 III. Comparaison de deux moyennes sur des chantillons apparis .......................................89 III.1. Hypothses nulle et alternative .................................................................................90 III.2. Principe des calculs...................................................................................................90 III.3. Exemple ....................................................................................................................91 IV. Comparaison de plusieurs moyennes : introduction lanalyse de variance ...................92 Rfrences bibliographiques ..................................................................................................95

CHAPITRE VII : Analyse de la liaison entre deux variables quantitatives la corrlation..................................................................................................96 Introduction ............................................................................................................................96 I. Principe de dtermination de R ...........................................................................................96 I.1. Principales proprits du coefficient de corrlation ....................................................99 II. Test de la liaison entre 2 variables...................................................................................101 II.1. Test dindpendance (ou test du coefficient de corrlation) : ..................................101 II.2. Interprtation de R....................................................................................................103 III. Intervalle de confiance et statistiques infrentielles .......................................................104 III.1. Comparaison de r la valeur thorique p ...............................................................105 III.2. Estimation dun coefficient thorique p : Intervalle de confiance de r...................105 III.3. Comparaison de 2 coefficients de corrlation observs..........................................106 IV. Corrlation et rgression linaires..................................................................................106 IV.1. Cas o les 2 variables tudies sont entirement alatoires par leur nature et leur distribution .......................................................................................................................106 IV.2. Cas o les 2 variables jouent un rle dissymtrique...............................................107 V. Conditions de validit non respectes..............................................................................107 V.1. Principe de la corrlation non paramtrique ............................................................107 Rsum .................................................................................................................................108 Annexe : Tables statistiques ..............................................................................................109 Table de Student ...................................................................................................................110 Table du Chi Deux................................................................................................................111 Table du coefficient de corrlation.......................................................................................112

INTRODUCTION A LA METHODE STATISTIQUE EN RECHERCHE CLINIQUE ET EPIDEMIOLOGIQUE

I. LA FINALITE
La suppression de la maladie est la finalit de toute recherche dans le domaine mdical. La finalit spcifique la recherche clinique et lpidmiologie cest destimer si, au niveau de lhomme, les hypothses sur les mcanismes pathologiques et les moyens daction qui en dcoulent ont un rel impact sur la maladie. On peut vouloir agir pendant la maladie : la gurir, ou avant la maladie : la prvenir. Lorsque la maladie est prsente, laction commence au diagnostic que lon va chercher rendre plus sensible afin quil soit le plus prcoce possible, ce qui peut permettre un traitement plus efficace et moins lourd ; on peut aussi vouloir rendre le diagnostic plus spcifique, afin den minimiser les erreurs. Sensibilit et spcificit dun examen diagnostique peuvent tre values : ainsi le frottis cervical dans le dpistage des cancers du col de lutrus a une sensibilit de 40% et une spcificit de 98%. Ce qui veut dire que sur 100 patientes ayant un cancer du col asymptomatique, un 1er frottis cervical ne sera positif que 40 fois, par contre lorsque le frottis est positif, la patiente est porteuse dun cancer du col 98 fois sur 100. La rptition des frottis permet lamlioration de la sensibilit. Un 2me type de recherche va tendre amliorer les rsultats thrapeutiques en optimisant les traitements existants ou en en inventant de nouveaux ; la dtermination de groupe pronostic diffrent permettra dadapter le traitement lvolution de la maladie. Par exemple ladjonction dune chimiothrapie au traitement loco-rgional dans les cancers du sein survenant avant la mnopause, amliore la survie denviron 10% 5 ans, pour les femmes prsentant beaucoup de ganglions envahis, cette amlioration est de 15% ; alors quelle napparat pas lorsque les ganglions sont indemnes.

Polycopi de Bio-statistique Facult de Mdecine de Montpellier-Nmes

Un 3me objectif peut tre dempcher la maladie dapparatre, pour cela il faut en connatre la ou les causes, ou dfaut les facteurs de risque, ainsi on connat les causes de nombreuses maladies infectieuses, par contre pour dautres affections comme les cancers ou les maladies cardio-vasculaires, on ne connat que les facteurs qui favorisent lapparition de la maladie. On value ainsi que la prise dstrognes la mnopause multiplie par 6 ou 8 le risque de faire ultrieurement un cancer de lendomtre. Mais connatre causes ou facteurs de risque ne suffit pas, encore faut-il avoir les moyens de les supprimer : les vaccinations nont pas supprim toutes les maladies infectieuses et que faire pour empcher les gens de fumer ? Ce rapide survol des objectifs de la recherche clinique permet den caractristiques : les recherches seffectuant sur lhomme, le respect de lthique domine lensemble des travaux et le recueil des donnes se fait dans un contexte mdicalis. il sagit de recherches pluridisciplinaires ncessitant une troite collaboration entre fondamentalistes, cliniciens et biologistes qui devront effectuer une dmarche scientifique commune. les rsultats sont bass sur des observations dont la stratgie dobtention dune part, et lanalyse dautre part, doivent permettent linterprtation et lextrapolation dautres sujets. prciser les

II. LA VALEUR DES CHIFFRES


Nous avons vu, dans les exemples cits plus hauts, que les rsultats des diverses recherches se rsument par des chiffres, ou par des comparaisons de chiffres : un taux de sensibilit, un taux de survie, un risque, etc Il parat donc indispensable que les chiffres sur lesquels vont tre bases des dcisions ne soient pas le fruit du hasard, voire le rsultat dun biais. Il faut donc que la faon dobtenir ces rsultats (stratgie) et lexactitude de leur valeur (statistique) puissent garantir la justesse des conclusions. Ainsi apparaissent deux domaines complmentaires : dune part celui de la planification des tudes, dautre part celui de linterprtation des valeurs observes. Prenons un exemple : soit deux traitements A et B dune maladie M ; A donne 50% de gurison et B 60% ; peut-on dire que B et suprieur A ?

Polycopi de Bio-statistique Facult de Mdecine de Montpellier-Nmes

Les conditions pour conclure B > A sont : - 1) Que la diffrence observe ne soit pas due au hasard, en effet si ces pourcentages de gurison ont t calculs partir de 10 malades, cela veut dire quen fait A donne 50% de gurison 30% et B 60% 50%, cest dire que si lon faisait une 2me tude on pourrait trouver A = 60% et B = 50%. On dit que la diffrence observe est le fait du hasard. Par contre si lon a trouv ces mmes pourcentages de gurison sur 400 malades, cela veut dire que A donne 50% 5% de succs et B 60% 5% et lon peut conclure (en faisant un calcul dont nous parlerons ultrieurement) que les rsultats du groupe B sont suprieurs ceux du groupe A. On dit que la diffrence est significative . De telles conclusions impliquent donc lutilisation dune mthodologie adquate permettant de porter des conclusions en minimisant les risques derreur dinterprtation : cette mthodologie est la biostatistique. - 2) Que la diffrence significative observe entre A et B (=10%) soit la consquence relle de lapplication de deux traitements diffrents. Supposons que les malades auxquels on a donn A soient plus gravement atteints que ceux auxquels on a donn B, la diffrence est alors due une gravit diffrente et non un traitement diffrent. Par exemple : les malades traits par radiothrapie compars ceux traits par chirurgie pour un cancer de la mme localisation et de mme stade, auront toujours une survie plus basse, car la chirurgie slectionne les bons cas : les oprables . Une tude de recherche clinique ou dpidmiologie ncessite donc : 1) une hypothse vrifier, 2) une stratgie ou un plan dtude, 3) le recueil de donnes, 4) lanalyse de ces donnes. 5) linterprtation des rsultats. - Le choix de la stratgie qui recueillera des informations interprtables, avec le minimum de biais est le point de dpart essentiel de toute recherche. Les mthodes mathmatiques ne viennent quensuite et nont de sens que si le problme a dabord t circonscrit et la bonne solution pour y rpondre choisie.
Polycopi de Bio-statistique Facult de Mdecine de Montpellier-Nmes

- Le recueil et la validation des donnes : une analyse mathmatique sophistique ne permettra pas de rendre de la valeur des donnes fausses ou incompltes. La mise la disposition des cliniciens dun outil informatique est un phnomne inluctable et souhaitable, mais il faut tre conscient des avantages et des inconvnients de ces moyens. Certes lordinateur facilite le recueil et permet de mieux matriser les informations mdicales. Il donne aux mdecins la possibilit de pratiquer des bilans sur des grands nombres, mais cet avantage est assorti dun effort quant lacquisition dun nouveau mode de travail et la ncessit denregistrer des donnes de qualit : on ne peut ressortir que ce que lon a entr. Au moins 3 types dinconvnients, certes vitables, peuvent tre cits : dordre technique : la duplication du recueil des donnes par plusieurs cliniciens peut tre source derreurs dun fichier lautre. dordre psychologique : augmentation de la tendance au sparatisme chacun ayant son fichier alors que la multi-disciplinarit est srement plus fructueuse. dordre scientifique : lanalyse statistique devient disponible par touche interpose ce qui peut donner une pseudo-apparence scientifique des donnes fausses - Lanalyse des donnes ncessite comme nous lavons vu le recours une mthodologie adquate, qui permettra dinterprter les rsultats observs en estimant les risques derreur et donc le degr de confiance que lon pourra accorder aux conclusions de ltude. Ainsi lorsque les rsultats dune tude sont obtenus, on doit sinterroger pour savoir si les rsultats observs sont alatoires , cest dire quon les a obtenus par hasard (si on recommenait ltude on en trouverait dautres), ou au contraires significatifs cest dire consquence relle du phnomne tudi. Prenons lexemple dun hypnotique dont on tudie lactivit en mesurant la dure pendant laquelle il fait dormir. Sur un premier sujet, on observe une dure de sommeil de 5 heures. Peut-on dire que lhypnotique fait dormir 5 heures ? Certes non, car si lon traite un 2me sujet, puis un 3me on observera des temps de sommeil variables, par exemple : 1 heure ou 8 heures. Que dire alors de lactivit de lhypnotique ? Autres exemples : Si lon dsire connatre la valeur dun enzyme, par exemple la gt, comme test diagnostique de lalcoolisme, on mesurera la gt dans un groupe de sujets normaux et dans un groupe dalcooliques. On pourra observer que certains sujets alcooliques ont

Polycopi de Bio-statistique Facult de Mdecine de Montpellier-Nmes

des taux plus bas que certains sujets normaux . Que conclure sur la perturbation de la gt par lalcool ? Si on veut dterminer le pourcentage normal de lymphocytes sanguins, cest dire le pourcentage que lon doit retrouver chez tout sujet sain, en faisant la mesure sur 10 sujets nous trouverons presque 10 valeurs diffrentes, alors comment dterminer une norme ? Quand pourra-t-on dire quun sujet est pathologique ?

III. LA BIOSTATISTIQUE
La conclusion de ces exemples, cest que touts les paramtres que nous voulons tudier ont comme caractristique commune dtre spontanment variables dun individu lautre, ou dun groupe lautre, cest ce quon appelle des variations alatoires. Il en est de mme pour lapparition des maladies, leur volution, la rponse aux traitements o les valeurs observes mlangent des variations alatoires et des variations provoques qui sont celles qui en fait nous intressent. Il faudrait donc dissocier ce qui est variations alatoires de ce qui est variations provoques, pour cela il est ncessaire dutiliser une mthode de raisonnement qui nous permette de conclure malgr cette variabilit alatoire et cette mthode est linterprtation statistique. On saperoit ainsi que la statistique (fminin singulier) na rien voir avec les statistiques (fminin pluriel) qui, elles, ne sont que des dnombrements type recensement et ne permettent aucune extrapolation quant leurs conclusions : ainsi le calcul du nombre de veuves passes sur le Pont Neuf en 1860 qui est de 13198 et une douteuse, est un simple dnombrement ! (Rf.D.Schwartz et E.Labiche ...). Que va faire la statistique ? Reprenons lexemple de lhypnotique. Si on continue exprimenter le produit sur dautres sujets, on peut reprsenter les rsultats observs sur un graphique avec en ordonne le temps de sommeil et en abscisse le nombre de cas, on obtient ainsi un histogramme dont laspect se modifie au fur et mesure que le nombre de sujets augmente puis se stabilise mme si on continue augmenter le nombre de sujets (figure 1). Cest dire quaprs avoir observ suffisamment de cas, la courbe obtenue reprsente pratiquement lensemble des rsultats que lon peut observer avec un tel hypnotique, donc on a mis en vidence une certaine constante reprsente par cette courbe. Comment peuton rsumer cette courbe ?
Polycopi de Bio-statistique Facult de Mdecine de Montpellier-Nmes

figure 1 Le premier indice auquel on pense est la moyenne (x/n), mais cette moyenne (ici 5 heures) ne rsume pas totalement linformation : supposons un autre hypnotique B qui donne la courbe B (figure 2). La valeur de la moyenne est la mme que pour A, et pourtant la forme de la courbe nest pas la mme : plus de sujets sous B que sous A, sont loin de la moyenne : il y a une plus grande variabilit avec B quavec A. Il faut donc crer un indice rsumant cette variabilit. Cet indice sappelle la variance et mesure lcartement des valeurs observes par rapport la moyenne (ou dispersion), ainsi lhypnotique A a une variance plus petite que lhypnotique B.

figure 2 Le calcul statistique va donc permettre de dfinir les caractristiques (moyenne, variance) de la rpartition (ou distribution) du paramtre tudi, on pourra ensuite comparer ces caractristiques dun groupe lautre. Deux points importants sont noter demble : 1) Les rsultats sont rsums partir dun groupe, ils ne sont donc extrapolables qu un groupe : ainsi, si je dis que lhypnotique A procure en moyenne 5 heures de sommeil, ce rsultat peut sappliquer lensemble des gens qui vont utiliser ce produit, mais pas un individu donn de ce groupe qui, lui, peut dormir 2 heures ou 8 heures ! Il est cependant
Polycopi de Bio-statistique Facult de Mdecine de Montpellier-Nmes

possible de calculer, pour cet individu, un intervalle probable de sommeil (3 7 heures par exemple ici), cest ce quon appelle un intervalle de confiance. Prenons un autre exemple : lorsquon dit que le tabac multiplie par 20 le risque de cancer du poumon, ceci sapplique lensemble dune population, mais pour un fumeur particulier ce risque peut-tre infrieur ou suprieur, et se situe dans un intervalle galement estimable. 2) Les rsultats sexpriment en probabilit et non en certitude. Ainsi si lon donne lhypnotique A un 2me groupe de sujets, il est probable que ces sujets dorment en moyenne 5 heures, mais ceci nest pas une certitude, en particulier ce 2me groupe peut, par hasard, tre constitu dinsomniaques chroniques moins sensibles, donc dormir en moyenne moins longtemps. Nous avons crit plus haut que lon pouvait calculer lintervalle de la dure de sommeil dun individu soumis lhypnotique, certes, mais il est cependant possible, bien que peu probable, que le sujet dorme plus ou moins longtemps que lintervalle prvu. Cet intervalle ne reprsente donc quune probabilit de dure de sommeil sous lhypnotique A. Ce raisonnement de type probabiliste est li la nature variable des paramtres tudis dont les courbes de dispersion tendent vers linfini, et explique bien des rsultats contradictoires rencontrs dans la littrature, lorsque lon ne tient pas compte de ce phnomne universel.

IV. SOLUTIONS STATISTIQUES


Aprs avoir dfini pour la variable tudie, dune part sa moyenne dautre part sa dispersion (par le calcul de la variance), il va tre possible de rpondre aux diverses questions abordes en recherche clinique, que lon peut classer en 3 types : 1) Dfinir les valeurs dites normales . De nombreux paramtres biologiques sont utiliss en mdecine et, afin de dfinir des tats pathologiques, il est tout dabord ncessaire de dfinir des normes hors desquelles les valeurs seront considres comme anormales . Ceci consiste tablir la courbe de dispersion du paramtre tudi sur un chantillon de sujets considrs comme normaux, puis de dfinir lintervalle autour de la moyenne (ou du taux) dans lequel se situera 95% de la population. En dehors de cet intervalle, les valeurs seront considres comme
Polycopi de Bio-statistique Facult de Mdecine de Montpellier-Nmes

pathologiques . Nous voyons demble quen agissant ainsi 5% des sujets, bien que 7

normaux, seront considrs comme pathologiques (figure 3), mais la prise en compte de 100% des sujets normaux nest pas possible car cela reviendrait prendre en compte toutes les valeurs possibles jusqu linfini et on ne pourrait plus dfinir dtat normal ou dtat pathologique.

figure 3 : intervalle 95 % 2) Estimer ces valeurs avec une certaine prcision. Si lon dsire connatre le taux de gurison obtenu avec un traitement, il est raisonnable de fixer lavance lintervalle de prcision que lon dsire obtenir. Ainsi si jobtiens, par exemple, 60% de succs, il est prfrable que lintervalle de confiance de ce taux soit petit, 5%, plutt que grand ( 20%) afin de massurer que, lorsque jappliquerai ce traitement dautres malades, les rsultats soient proches de 60% et non de 40% comme ils pourraient ltre avec un rsultat peu prcis (cest dire avec un grand intervalle de confiance). 3) Comparer des paramtres dun groupe un autre afin de conclure si un groupe est identique un autre : cest le problme le plus frquent en recherche clinique. Par exemple : est-ce que les rsultats obtenus avec le traitement A sont les mmes quavec le traitement B ? Est-ce quun groupe de sujets vaccins fait moins souvent la maladie que les sujets non vaccins ? Est-ce que les taux de leucocytes sont modifis en cas dinfection virale ? Est-ce que les malades porteuses de cancer du sein et prsentant des rcepteurs aux strognes positifs ont une meilleure survie ? Est-ce que le tabac diminue la fertilit ? Le principe consiste galement calculer pour les 2 groupes les indicateurs rsumant la rpartition des valeurs des paramtres tudis (taux ou moyennes, variances) et de comparer ces indices dans les 2 groupes afin de juger si la diffrence observe est compatible avec de simples variations alatoires ou au contraire significative, cest dire que les valeurs observes dans les 2 groupes tudis diffrent trop pour tre compatibles avec des variations alatoires (figure 4).
Polycopi de Bio-statistique Facult de Mdecine de Montpellier-Nmes

Figure 4

V. LA CAUSALITE
Pour pouvoir conclure, il restera encore examiner le problme de la causalit : quelle est la cause relle de la diffrence observe ? et ces relations causales ne pourront tre tablies quen fonction de la stratgie utilise pour ltude. Ainsi, en thrapeutique, une relation causale entre traitement et rsultat pourra tre tablie si la stratgie dtude permet de nattribuer quau seul traitement la diffrence observe. Cette situation est ralise dans le cas dessais thrapeutiques avec tirage au sort des traitements comparer, car il sagit alors dune situation exprimentale o les diffrents paramtres sont contrls. Par contre, dans la plupart des autres tudes, et en particulier en pidmiologie, la relation causale pourra exceptionnellement tre tablie car il sagit toujours de situation dobservation, o de nombreux facteurs peuvent tre la cause des diffrences observes : ainsi si lon trouve que les sujets atteints dinfarctus du myocarde ont un taux de cholestrol plus lev que la normale, on ne peut pas dire que le cholestrol soit la cause de linfarctus du myocarde, bien dautres facteurs intervenant.

VI. CONCLUSIONS
Pour conclure, nous estimerons notre premier but atteint si nous vous avons fait comprendre les points suivants : une tude de recherche clinique, pour tre valable, ncessite : davoir un but clairement dfini : les enregistrements systmatiques type pche la ligne ne servent rien.
Polycopi de Bio-statistique Facult de Mdecine de Montpellier-Nmes

de suivre une stratgie qui permettra de rpondre au problme pos : nimporte quelle enqute ne peut rpondre nimporte quelle question. de recueillir des donnes de qualit, valides. danalyser les donnes en tenant compte de leur variabilit : la mthode statistique nest pas lart daligner des chiffres, voire de les manipuler, mais de les interprter. dinterprter les rsultats, sans oublier le bon sens clinique : une diffrence statistiquement significative na pas forcment un intrt clinique.

BIBLIOGRAPHIE DE BASE
D.SCHWARTZ Mthodes statistiques lusage des mdecins et des biologistes., Flammarion Ed 1963 A.LAPLANCHE, C. COM NOUGUE, R. FLAMANT. Mthodes statistiques appliques la recherche clinique., Flammarion Ed 1986 E.ESCHWEGE, G.BONNEROT, F.DOYON, A.LACROIX Essais thrapeutiques, mode demploi., Le Quotidien du Mdecin, INSERM 1990 M.GOLDBERG LEpidmiologie sans peine., Collection prsente par Ed Mdicales ROLAND BETTEX 1985.

Polycopi de Bio-statistique Facult de Mdecine de Montpellier-Nmes

10

CHAPITRE I BUTS ET PRINCIPES

I. LA VARIABILITE
La caractristique essentielle des donnes, dans le domaine du vivant, est la variabilit. Bien que celle-ci soit, aux yeux de tous, une vidence, on en donnera 4 exemples, dabord pour dfinir quelques termes et ensuite parce que la force de cette vidence na dgale que la facult de loublier chaque instant. Ces 4 exemples concernent la variabilit du nombre de loges capsulaires dans le fruit du coquelicot (figure 1), le temps dincubation dune maladie virale du tabac (figure 2), la couleur des cheveux (tableau 1) et la survenue dun cancer bronchique chez les fumeurs (tableau 2).
300 250 Nombre de coquelicots
Nombre de plants 80 70 60 50 40 30 20 10 15 20 25 30 Temps de latence en jours Figure 2 : Distribution du temps de latence de la mosaque du tabac observe sur 355 plants de tabac inoculs avec le virus de la mosaque (D. Schwartz, Donnes non publies) 0
1,00 1,20 1,40 1,60 Glycmie en grammes/litre Figure 3 : Distribution des glycmies jeun observe sur 74 mesures conscutives effectues chez un sujet diabtique au cours dune priode de 2 ans considre comme stable (D. Schwartz, Donnes non publies) Nombre dexamens 15 20

200 150 100 50 0


6 7 8 9 10 11 12 13 14 15 16 17 18 19 20

10

Nombre de loges Figure 1 : Distribution du nombre de loges capsulaires observe sur 1905 coquelicots (Biometrika, Vol 2, 1902)

Couleur de cheveux Blond Nombre de sujets 2 829 prsentant cette couleur Tableau 1 :

Brun 2 635

Noir 1 223

Roux 116

Total 6 800

Couleur des cheveux Dnombrement portant sur 6 800 sujets. (Daprs Ammon,, Zur Anthropologie Der Badener) Pas de cancer du poumon 3 078 Cancer du Poumon 22 Total 3 100

Eventualit Nombre de sujet Tableau 2:

Cancer du poumon Dnombrement portant sur 3 100 sujets de sexe masculin de 50 69 ans, fumant au moins 40 cigarettes par jour, suivis pendant 44 mois. (Daprs Hammond et Horn)

Polycopi de bio-statistique Facult de Mdecine de Montpellier-Nmes

11

Les deux premiers caractres mesurables, sont dit quantitatifs, leur variabilit est reprsente par un diagramme en btons ou histogramme ; celui-ci est fait de traits spars pour le nombre des loges capsulaires, qui est une variable discontinue, et de rectangles jointifs pour le temps dincubation de la maladie, qui est continu. Le deux derniers caractres sont dits qualitatifs, ils ne donnent pas lieu histogramme parce quils ne sont pas logiquement ordonnables sur laxe des abscisses ; le 4e caractres, qualitatif 2 classes, est le plus simple de tous les caractres ; il traduit aussi la forme la plus simple de la variabilit : travers des diffrences daspect, ces 4 exemples traduisent le mme fait : une trs grande variabilit ( cf. Dfinitions 6). Cette variabilit peut tre rduite par des procds exprimentaux, mais non supprime ; ainsi, dans lexemple des plants de tabac, linoculation avait t faite dans des conditions particulirement standardises : suspension de virus parfaitement homogne inocule des plants de tabac gntiquement semblables, sur une feuille de mme rang entre des nervures de rang donn : le temps de latence a quand mme vari de 13 34 jours. La variabilit ne se rduit aucunement lerreur de mesure (le nombre de loges capsulaires dans le fruit du coquelicot est parfaitement mesur), elle la comporte certes dans de nombreux cas, mais pour lessentiel la variabilit traduit la fluctuation biologique. Elle porte sur la morphologie (au sens large), la prdisposition une maladie, le temps que celle-ci met apparatre, son volution, en fait sur la quasi totalit des caractristiques dun sujet. On doit aborder les sciences du vivant pntr de lide que la variabilit est, non lexception, mais la rgle. Cette rgle est constamment oublie. Cet Anglais nous faire rire qui, voyant une femme rousse en dbarquant Calais, conclut : Tiens, les Franaises sont rousses . Il nignorait certes pas que la couleur des cheveux varie dune femme lautre, et pourtant Et si nous rions de son erreur, chacun de nous la commet sans cesse. Untel, dcouvrant 8 quartiers dans un fruit de coquelicot, conclura automatiquement : le fruit du coquelicot contient 8 quartiers. Plus grave, ce biologiste qui testera les effets nocifs dune drogue sur 1 singe, sur 5 dans le meilleur des cas. Si vous vous tonnez de ce faible effectif, il voquera dabord le prix du singe, puis il ajoutera que cette recherche est effectue avec une extrme prcision, grce au microscope lectronique, oubliant que lessentiel de la variabilit est dordre biologique : si le produit est dangereux pour 1 singe sur 10, ce qui serait dj norme, il risque fort de ne rien voir avec un si faible effectif. (* daprs D.Schwartz)
Polycopi de bio-statistique Facult de Mdecine de Montpellier-Nmes

12

Compte tenu de la variabilit de ses caractres infiniment nombreux, un individu ne ressemble jamais un autre. Cette diversit est dabord dordre gntique. Notre identit est faonne par des gnes innombrables donc chacun a plusieurs variantes (allles). Il en rsulte, au moment de la reproduction, qui redistribue les gnes, un nombre quasi infini de combinaisons possibles. De sorte quexception faite des vrais jumeaux (et encore ) un individu na pas, na jamais eu et naura jamais son double, lindividu est unique. Aux diffrences entre les individus, sajoutent les diffrences dans lenvironnement, dans les hasard de la vie, qui font que certains caractres (pas tous, mais beaucoup) varient dun moment lautre, cest le cas notamment pour les rsultats dexamens biologiques (cf par exemple fig.3 : la glycmie dun sujet jeun). A la variabilit inter-individuelle se superpose donc une variabilit intra-individuelle (encore plus souvent oublie que la premire). Et lindividu diffre de lui-mme dun moment lautre.

II. POPULATION, ECHANTILLON


II.1. UNE POPULATION est un ensemble dunits sur lesquelles une caractristique peut tre releve. Le plus souvent, en pidmiologie, les units sont des personnes (ou des animaux en exprimentation animale). Mais cela peut tre aussi un groupe de personnes (par exemple la population des familles dont on compte le nombre denfants), ou encore des entits biologiques (comme des cellules dont on relve le caractre cancreux ou non). Trs souvent, la population est de grande taille ; dans de nombreux cas, les modles statistiques que nous verrons supposent quelle est de taille infinie. Les questions que lon se pose, les hypothses que lon formule concerne la population. II.2. UN ECHANTILLON est une partie de la population. Il est habituellement de taille suffisamment petite pour que la caractristique laquelle on sintresse puisse effectivement tre mesure sur tous les sujets qui le composent. Les observations que lon fait sur un chantillon servent rpondre aux questions que lon sest pos au niveau de la population. Il est donc important que lchantillon soit constitu de telle sorte quil puisse remplir ce rle. Cest notamment le cas lorsquil sagit dchantillon reprsentatif, cest dire un chantillon dont la composition est conforme celle de la population. La faon la plus simple de constituer un chantillon reprsentatif est de tirer au sort les sujets de lchantillon au sein de la population. Dans ltablissement idal du protocole dune enqute pidmiologique, on devrait dfinir successivement la population cible et lchantillon. Il arrive cependant que lchantillon
Polycopi de bio-statistique Facult de Mdecine de Montpellier-Nmes

13

soit constitu en fonction de diverses contraintes pratiques et que la population soit reconstruite a posteriori en partant de lchantillon (Schwartz 1994). Il est, par exemple, frquent de raliser des enqutes sur un chantillon de sujets traits dans quelques services hospitaliers avec lesquels on collabore. Cet chantillon na pas t extrait dune population dfinie au dpart, mais constitu ainsi pour des raisons de commodits telles que la collaboration possible avec tel ou tel service. La population correspondante peut tre, selon le problme que lon tudie, celle de lensemble des malades hospitaliss quel que soit le service, ou lensemble, fictif, des sujets qui, sils taient malades, seraient hospitaliss dans lun des services participant lenqute. Lchantillon est alors, par construction, reprsentatif de la population ainsi dfinie. Cest elle que les observations faites sur lchantillon peuvent tre gnralises. Il importe donc dans la prsentation et linterprtation des rsultats de bien dcrire cette population (rpartition par ge, par sexe, par catgories professionnelles ).

III. VARIABLE ALEATOIRE


Une variable alatoire associe une valeur chaque sujet de la population. Cette valeur peut tre numrique : taille, ou ne pas ltre : malade/non malade, groupe sanguin Le terme alatoire signifie quon ne peut pas prdire avec certitude, avant la mesure ou lobservation, la valeur de la variable pour un sujet. La seule information dont on dispose pour chaque valeur de la variable est la probabilit de trouver un sujet qui ait cette valeur. Soit, par exemple, la variable X malade/non malade . Pour un sujet dont on ne connat que le nom, on peut ne pas savoir si X a la valeur malade ou la valeur non malade avant davoir interrog le sujet ou quil ait t examin par un mdecin. Si lon sait, par exemple, quil y a 25% de malades dans la population, on peut cependant affirmer que la probabilit que X = malade est 25% et X = non malade est 75%. Une variable donnant une caractristique au niveau des sujets (poids, taille, malade/non malade) sera note avec une lettre majuscule (X) et la valeur prise sur un sujet par une lettre minuscule (x). On parle aussi de variable alatoire au niveau dun chantillon. Par exemple, la moyenne ou le pourcentage sont des variables alatoires, puisquelles associent chaque chantillon une valeur (qui est la moyenne ou le pourcentage observ sur cet chantillon).

Polycopi de bio-statistique Facult de Mdecine de Montpellier-Nmes

14

IV. FLUCTUATIONS DECHANTILLONNAGE


Un chantillon est un sous-ensemble, plus ou moins grand, des sujets de la population. Une des consquences de la variabilit individuelle est une variabilit au niveau des chantillons, cest--dire que la composition de deux chantillons tirs de la mme population nest, en gnral, pas la mme. Ce phnomne, qualifi de fluctuation dchantillonnage, est important comprendre, car, dans le domaine biomdical, il est extrmement frquent de travailler sur des chantillons, linclusion dans une enqute de tous les sujets dune population tant, la plupart du temps, impossible. Pour le prsenter, prenons lexemple dune population compose de 30% de malades et dans laquelle on prend des chantillons successifs. Considrons 10 000 chantillons de 20 sujets dans cette population et comptons le nombre de malades observ dans chacun dentre eux. Les rsultats obtenus sont illustrs par lhistogramme de la figure 4. Ce dernier indique que 8 chantillons ne comprennent aucun malade, que 60 en comprennent 1, etc On observe, par ailleurs, quaucun chantillon ne comprend plus de 15 malades.
Figure 4 : Histogramme des nombres de malades observes sur 10 000 chantillons de 20 sujets tirs d'une population o le pourcentage vrai de malades est 30 %
2500

2000

1940 1863 1626

Nombres d'chantillons

1500 1249 1120 1000 720 680

500 288 60 2 3 4 5 6 7 8 9 10 11 267 115 45 13 13 14

8 0 1

5 15

1 16

12

Nombre de malades par chantillon

Ces rsultats ne sont quun exemple. Une autre srie de 10 000 chantillons ne conduirait pas exactement au mme histogramme. Par exemple, il est possible quun chantillon comprenne jusqu 20 malades, ce qui ne sest pas produit dans la srie que nous prsentons. Cependant, les conclusions seraient de mme nature : la variabilit individuelle cest dire ici le fait que les sujets ne sont pas tous malades ou tous non malades conduit ce que le pourcentage de malades observ varie dun chantillon lautre.
Polycopi de bio-statistique Facult de Mdecine de Montpellier-Nmes

15

On constate notamment que, bien que la valeur du pourcentage de malades soit 30% dans lensemble de la population, seuls 1940 parmi les 10 000 chantillons ont un pourcentage observ de malades exactement gal 30%. Cest certes le cas le plus frquent, mais dautres valeurs sont observes avec une frquence voisine. De plus, certaines valeurs sloignent notablement de 30% : cest ainsi quun des chantillons comprend 15 malades, soit 75% de malades. Il nest donc pas possible de rsumer lensemble des observations par le seul pourcentage de malades dans la population. Il faut indiquer comment les observations sont disperses. On peut, par exemple, nous y reviendrons plus loin, donner les limites dans lesquels se trouvent la plupart des chantillons. Ici on observe que 356 chantillons comprennent moins de 3 malades et que 179 en comprennent plus de 10. Le pourcentage de malades est donc compris entre 15% et 50% (bornes incluses) pour prs de 95% des chantillons. Lallure de lhistogramme et lampleur des fluctuations dchantillonnage dpendent bien sr de la valeur du pourcentage de malades dans la population, mais elles dpendent aussi de la taille des chantillons prlevs dans la population. Si, par exemple, on prend des chantillons de 100 sujets, au lieu de 20, lhistogramme devient celui de la figure 5. Il est moins dispers : on constate, en particulier, que les limites entre lesquelles se situe le pourcentage de malades observ pour 95% des chantillons sont cette fois 21% - 39%. Elles sont donc plus resserres que celles de lhistogramme prcdent (15% - 50%). Cela correspond bien lintuition : lobservation faite sur un chantillon est dautant plus proche de la vraie valeur que la taille de lchantillon est grande.
Figure 5 : Histogramme des nombres de malades observs sur 10 000 chantillons de 100 sujets tirs d'une population o le pourcentage de malades est 30 %
4000

3803 3395

3500

3000 Nombre d'chantillons

2500

2000

1500 1091 1000

1389

500 125 1 0 10-14 15-19 20-24 25-29 30-34 35-39 40-44 45-49 Nombre de malades par chantillon 183 13

Polycopi de bio-statistique Facult de Mdecine de Montpellier-Nmes

16

V. LES LOIS DE LA PROBABILITE


V.1. LE CONCEPT DE PROBABILITE a t un pas considrable pour lintroduction de la rigueur dans le domaine de lincertain. Le calcul des probabilits, qui est une branche particulire des mathmatiques, permet dtablir des lois de probabilit. Une loi de probabilit indique la probabilit pour quune variable prenne une valeur donne, par exemple que sur 100 lancers de pices la variable nombre de pile gale 40, ou quune variable soit comprise dans un intervalle donn, par exemple que sur 100 lancers le nombre de pile soit compris entre 20 et 30. Un exemple particulirement utilis est celui dintervalles symtriques autour de la valeur moyenne , par exemple la probabilit pour que sur 100 lancers, le nombre de pile tombe dans lintervalle allant de 40 60. Le calcul montre quil y a 95 chances sur 100 de tomber dans cet intervalle dont 5 chances sur 100 de tomber lextrieur. Cest l un rsultat intressant, parce qualors que le hasard est capable de tous les caprices, je peux quand mme faire un pronostic condition daccepter certains risques derreur : ainsi je peux admettre que le nombre de pile sur 100 lancers sera compris entre 40 et 60, je ne risque que 5 fois sur 100 de me tromper. Telles sont les lois du hasard , association de deux mots apparemment incompatibles : ce ne sont pas des lois de certitude, je ne peux pas affirmer quon trouvera entre 40 et 60 fois pile, mais je peux presque laffirmer avec un risque derreur faible. V.2. DISTRIBUTION DE PROBABILITE La dfinition prcdente nest pas trs oprationnelle pour faire des calculs car elle demande des simulations chaque fois : si on voulait, par exemple, savoir quelle est la probabilit que sur 100 tirages de ds il y ait 20 fois le chiffre 4, il faudrait rpter de trs nombreuses fois 100 tirages de ds pour avoir une valeur assez prcise. En outre, elle sapplique mal des populations de taille infinie. Il est donc ncessaire de disposer de formules pour faire le calcul. Pour reprsenter (on dit aussi modliser ) les distributions observes et permettre les calculs statistiques, on a besoin de lois de probabilit. Leur rle est dassocier une probabilit de survenue chaque vnement possible. Il y a plusieurs lois de probabilit permettant de sadapter aux diffrentes situations que lon rencontre selon la variable tudie et selon la population concerne. Il faut distinguer variables qualitatives et quantitative car la faon de dcrire leurs lois de probabilit est

Polycopi de bio-statistique Facult de Mdecine de Montpellier-Nmes

17

assez diffrente. De faon plus prcise, on va considrer dune part les variables discrtes, englobant sous ce terme les variables qualitatives et continues discrtes, dautres part les variables continues (cf. Dfinitions VI). V.2.1. LOIS DE PROBABILITE DISCRETES Une variable qualitative ou une variable quantitative discrte prend des valeurs que lon peut numrer : x1, xk Dfinir sa distribution de probabilit consiste donner les probabilits p1, pkde chacune des valeurs possibles. Les pi peuvent avoir des valeurs quelconques condition de respecter : 0 pi 1 (une probabilit doit tre comprise entre 0 et 1) et pi =1 (cest dire que la probabilit que la variable prenne lune quelconque des valeurs possibles est 100%). Exemples : Le cas le plus simple est celui dune variable dichotomique comme malade/non malade. Ses deux valeurs sont souvent codes x0 = 0 pour les non malades et x1=1 pour les malades. Les probabilits correspondantes sont p0 et p1, avec p0+ p1 = 1 ; p1 est souvent not p ; p0=1- p1 est alors not q. Considrons le nombre X dobservations prsentant une certaine caractristique (par exemple le nombre de malades) dans un chantillon de n sujets. X peut prendre les valeurs entires de 0 n. La loi de probabilit de X sappelle la loi binomiale, ( 5.3.1). Lorsque la taille de lchantillon est trs grande, X peut prendre de nombreuses valeurs. Lutilisation de la loi binomiale devient alors laborieuse et on lui prfre la loi de Poisson dfinie dans le paragraphe 5.3.2. V.2.2. LOIS DE PROBABILITE CONTINUES, DENSITE DE PROBABILITE Une variable quantitative continue a une infinit non dnombrable de valeurs possibles. On ne peut plus dfinir sa distribution de probabilit en donnant la liste des valeurs des probabilits pi dobserver chacune des valeurs. La distribution de probabilit pour une variable quantitative continue peut tre dcrite par une fonction f appele densit de probabilit. La loi normale est la loi la plus utilise pour les variables continues ( 5.3.3.)

Polycopi de bio-statistique Facult de Mdecine de Montpellier-Nmes

18

V.3. PRINCIPALES LOIS DE PROBABILITE V.3.1. LA LOI BINOMIALE - Dfinition de la loi binomiale Soit X la variable dont la valeur est le nombre de malade k dans un chantillon n de sujets tirs au sort dans une population o le pourcentage de malade est P. X suit une loi binomiale dont la distribution est dfinie par :
P ( X = k ) = C k P k (1 P ) n k avecC k = n n n! k! ( n k )!

La loi binomiale est caractrise par deux paramtres : le nombre de sujets dans lchantillon (n) et la probabilit de maladie dans lensemble de la population (P). Elle est souvent note B(n,P) Exemple : Considrons une population o le pourcentage de malades est P = 0,30 dou on extrait des chantillon de taille n = 20. La probabilit dobserver k = 6 malades est :

P ( X = 6) =

20! 0,3 6 0,7 14 6!14!

Soit : P(X=6) = 38 760 x 0,000729 x 0,00678 = 0,1916. Cest dire que sur 10 000 chantillons, on sattend en observer 1 916 comprenant 6 malades.
- Tables de la loi binomiale

Comme on le voit, le calcul des probabilits de la loi binomiale est assez laborieux, surtout lorsque n est grand. Il existe des tables donnant les valeurs de P(X=k). Si n est assez grand ( 30) on peut recourir lapproximation par la loi normale qui conduit des calculs beaucoup moins lourds.
- Moyenne et variance de la loi binomiale

Si X suit une loi binomiale de paramtres n et P, on montre que : E(X) = nP et var(X) = nPQ o E(X) est lesprance mathmatique de X, ou moyenne et var(X) est la variance de X

Polycopi de bio-statistique Facult de Mdecine de Montpellier-Nmes

19

- Application la distribution dun pourcentage.

Plutt que sintresser au nombre X de malades dun chantillon, il est beaucoup plus frquent de considrer le pourcentage po de malades. En effet, linterprtation de po ne dpend pas de la taille de lchantillon. po et X tant lis par p 0 = a notamment :
E( p0 ) =
PQ 1 E( X ) = P et var( p 0 ) = 2 var( X ) = n n n

X , la distribution de po se dduit directement de celle de X. On n

V.3.2. LA LOI DE POISSON

Comme pour la loi binomiale, nous prenons lexemple dune variable dont les deux modalits sont malade et non malade , et nous intressons au nombre X de malades dans un chantillon de taille n. Lorsque n est trs grand, X peut prendre de nombreuses valeurs et lutilisation de la loi binomiale devient trs laborieuse, notamment cause du
k calcul de C n

Pour dcrire la distribution de X, on utilise alors la loi de Poisson dfinie par :


P( X = k ) = e

k
k!

ou est une constante

Moyenne et variance de la loi de Poisson

Si X suit une loi de Poisson de paramtre , on montre que E(X) = et var(X) =


V.3.3. LA LOI NORMALE - Dfinition

La loi normale (ou loi de Gauss, ou encore loi de Laplace-Gauss) est la loi de probabilit la plus utilise en statistique pour les variables continues. Elle est dfinie par sa densit de probabilit :

(x ) 2 exp f ( x) = 2 2 2 1

Polycopi de bio-statistique Facult de Mdecine de Montpellier-Nmes

20

Le graphe de cette fonction est une courbe en cloche (figure 4)


0,5 densit de probabilit 0,4

0,3

0,2

0,1 x 0 0 1 2 3 4 5 6

Figure 6 : Densit de probabilit et fonction de rpartition de la loi normale.

La loi normale dpend de deux paramtres et 2. On montre que est sa moyenne et 2 sa variance.
- Table de la loi normale

Le calcul des probabilits associes la loi normale nest pratiquement pas possible avec des moyens simples tels quune calculette de poche. Par exemple, le calcul de P(Xa) demande celui de lintgrale de recourir des tables. Il nest cependant pas envisageable de construire une table pour chaque valeur de et 2 On se ramne au cas o = 0 et 2 = 1 par changement de variable. Si X suit une loi normale de moyenne et de variance 2 , alors Z =
(x ) 2 exp dx. Cest pourquoi il est ncessaire 2 2 2
a

suit une loi normale de

moyenne 0 et de variance 1, dite loi normale centre rduite.

Exemples Le poids de naissance des nouveaux-ns est distribu (approximativement) selon une loi normale de moyenne = 3,3 kg et dcart type = 0,5 kg. La probabilit quun nouveau-n ait un poids X infrieur 2,5 kg est P(X 2,5). Pour la calculer, on se ramne une loi centre rduite en considrant Z = On a alors : P ( X 2,5) = P( Z
2,5 3,3 ) = P( Z 1,6) 0,5 21

X 3,3 0,5

Polycopi de bio-statistique Facult de Mdecine de Montpellier-Nmes

La table 1 de la loi normale centre rduite indique que P(Z > -1,6) = 0,945. La probabilit cherche est donc gale (1 0,945) = 0,055.
V.4. INDEPENDANCE ENTRE DEUX VARIABLES ALEATOIRES

La notion dindpendance entre deux variables est trs utilise en statistique. Sa dfinition prcise ncessite lexpos de notions de probabilit que nous ne prsentons pas ici .Nous nous contenterons dune dfinition intuitive : deux variables sont indpendantes si la distribution de lune ne dpend pas des valeurs de lautre. Par exemple le poids et la tension artrielle seraient indpendants si la distribution de la tension artrielle est la mme quel que soit le poids. Dun point de vue pratique, cela signifie que si lon regroupait les sujets dune population en sous-populations de sujets de mme poids, la distribution de la tension artrielle serait la mme dans toutes ces sous-populations. Ce nest videmment pas le cas, ce qui signifie que ces variables ne sont pas indpendantes.

VI. QUELQUES DEFINITIONS ET EXEMPLES


VI.1. DEFINITION DES VARIABLES VI.1.1. VARIABLES QUALITATIVES
NON MESURABLES.

On peut les classer selon leur proprit.

Ex : sexe, couleur des cheveux, prsence ou non dune maladie.


VI.1.2. VARIABLES QUANTITATIVES MESURABLES.

Il existe un ordre naturel de lensemble des valeurs possibles.

Ex : poids, taux de cholestrol, nombre denfants. - Continues : elles peuvent prendre toutes les valeurs situes dans un intervalle : taux de
cholestrol/poids.

- Discontinues ou discrtes : elles ne peuvent prendre quun nombre limit de valeurs


(souvent entires)

Ex : nombre denfants.
VI.1.3. VARIABLE ORDINALE OU QUALITATIVE ORDONNEE

Exemple :

Polycopi de bio-statistique Facult de Mdecine de Montpellier-Nmes

22

Etat de malade : 0 = activit normale 1 = symptme mais tat ambulatoire 2 = alit moins de la moiti du temps 3 = alit plus de la moiti du temps 4 = clou au lit.
Plus le code est lev plus ltat du malade est grave.
VI.1.4. VARIABLE CENSUREE : la survie, variable lie au temps

Si lon tudie la dure de vie des sujets un moment t donn, la dure de vie des sujets vivants t est tronque , ces sujets vivront encore aprs t pendant un temps x inconnu : on dit quil sagit de donnes censures droite (dans notre mode dcriture de gauche droite !).
VI.2. DISTRIBUTION VI.2.1. VARIABLE
QUALITATIVE.

Rpartition des stades de diagnostic chez 125 malades

atteint de leucmie. Stade Effectif Proportion 0 22 18% I 29 23% II 39 31% III 21 17% IV 14 11% Total 125 100%

VI.2.2. VARIABLE QUANTITATIVE DISCRETE


% m nages
16 14 12 10 8 6 4 2 1 3 5 7 9 11 13 15

T a ille d e s m nages

Rpartition de la taille des mnages sur un chantillon de 1445 mnages tunisiens

Polycopi de bio-statistique Facult de Mdecine de Montpellier-Nmes

23

VI.2.3. VARIABLES QUANTITATIVES CONTINUES.

Distribution de la glycmie jeun dans un chantillon de la population du Gouvernorat de Tunis.


Glycmie < 60 60-70 70-80 80-90 90-100 100-110 110-120 120-130 130-140 140-150 150 et + Total
40,00 histogramme des frquences 35,00 30,00 25,00 20,00 15,00 10,00 5,00 0,00 50 60 70 80 90 100 110 120 130 140 150 glycmie en mg%

Effectif 19 81 541 1296 992 369 107 34 18 19 70 3 546

% 0.5 2.3 15.3 36.5 28.0 10.4 3.0 1.0 0.5 0.5 2.0. 100

% 0.5 2.8 18.1 54.6 82.6 93.0 96.0 97.0 97.5 98.0 100

frquence cum ule 100,00 90,00 80,00 70,00 60,00 50,00 40,00 30,00 20,00 10,00 0,00 50 60 70 80 90 100 110 120 130 140 150 glycm ie en m g%

VI.3. CARACTERISTIQUE DE VALEUR CENTRALE VI.3.1. LA MOYENNE ARITHMETIQUE :

sur n observations : x1, x2, .. xi..xh sont les valeurs de la variable, alors m = o n est la taille de lchantillon et

x
n

la somme de toutes les valeurs observes.

Si les observations sont regroupes en classes, alors m =

n x
i

o ni est le nombre de sujets pour la classe xi et xi la valeur centrale de la classe.


VI.3.2. LA
MEDIANE

: cest la valeur telle que la moiti des observations lui sont

infrieures et la moiti lui sont suprieures.


VI.3.3. LE MODE : cest la valeur de x pour laquelle la frquence est maximale.
Polycopi de bio-statistique Facult de Mdecine de Montpellier-Nmes

24

VI.3.4. EXEMPLES : Moyenne et mdiane 1er exemple : soit un chantillon o x = 1, 3, 4, 5, 8

m = 4,2

Med = 4

2e exemple : soit un chantillon o x = 1, 3, 4, 5, 24

m = 7,4

Med = 4

4 des 5 observations sont < x. Ici la moyenne nest pas un bon estimateur de la valeur centrale. Dans les 2 cas, la mdiane est toujours 4 mme si on ignore la valeur de la plus grande observation. Avec des distributions dissymtriques, il vaut mieux utiliser la mdiane que la moyenne.
VI.3.5. EXEMPLE DE VARIABLE QUANTITATIVE DISCRETE

Histogramme des lymphocytes chez 77 sujets atteints de leucmie m1= 123 155 M1 = 91 908 Mode : classe 90 000 100 000

N om b re d e cas

8 6 4 2 100 200 300 400 500 600 N b L ym p hocytes/10


3

10

M1

m1

Si lon regroupe les valeurs extrmes en 1 seule classe, on obtient : m2 = 117 000 M2= 91 908

Polycopi de bio-statistique Facult de Mdecine de Montpellier-Nmes

25

VI.3.6. COURBE DE SURVIE

Lorsque lon veut estimer la dure de vie dun groupe o tous les sujets ne sont pas morts la moyenne de dure de vie ne peut tre estime car nous navons pas de valeur pour les sujets vivants (donnes tronques droite). On estime donc une courbe de survie en fonction du temps : variable lie au temps.
Taux de survie
100 80 60 40 20 X X XX

. Dcs
x Vivant

250

500

750

1000

1250

Jours

On calcule un taux de survivants chaque fois que se produit un dcs ou dans un intervalle de temps dtermin lavance : tous les 3 6 mois On peut calculer le temps mdian de survie : temps au bout duquel 50 % des sujets sont morts, ici = 250 jours.
Autre exemple : Dure de 1re rmission et survie chez sujet atteints de polyglobulies

% de malades en rmission
100 90 80 70 60 50 40 30 20 10 1 2 3 4 5 6 7 8 9 10 annes Rmission Survie

Temps mdian de rmission 3 ans et 9 mois.

Temps mdian de rmission = 3 ans et 9 mois. 50% des sujets taient encore en rmission au bout de 3 ans et 9 mois. Pour la survie on ne peut dterminer la mdiane : survie > 50%.
Polycopi de bio-statistique Facult de Mdecine de Montpellier-Nmes

26

VI.4. CARACTERISTIQUE DE DISPERSION : La variance et lcart-type

Expression de la variance dune variable x observe sur un chantillon (somme des carrs des carts la moyenne) :

Variance s

(x =

m) 2

n 1

et cart type s = s 2

(x

m) = x
2 2

( x) n

Exemple :

Deux distributions de mme moyenne et dcart type diffrents


0,5

frquenc

0,5

frquenc

0,4

0,4

0,3

0,2

M=0 =1

0,3

0,2

M=0 = 1,5

0,1

0,1

0 -3 -2 -1 0 1 2 3

0 -3 -2 -1 0 1 2 3

Les valeurs de X loignes de la moyenne sont plus frquentes avec = 1,5 qu avec = 1. La population est plus variable avec = 1,5.

Polycopi de bio-statistique Facult de Mdecine de Montpellier-Nmes

27

RESUME

Ltude des sciences du vivant est caractrise par la variabilit entre les individus ; elle traduit essentiellement la fluctuation biologique. Il est cependant essentiel de faire la part, dans cette variabilit, entre ces fluctuations et des effets non dus au hasard, comme ceux des traitement par exemple. Lobjectif de la mthode statistique est de tirer des conclusions applicables aux populations . Toutefois la taille de ces populations est le plus souvent trop leve pour que des tudes exhaustives soient ralisables. Cest pourquoi lon travaille sur des chantillons qui doivent tre
reprsentatifs des populations dont ils sont extraits.

Une variable alatoire est lensemble des valeurs prises par un caractre donn dans une population. La valeur (exprime par une frquence ou une moyenne) dun tel caractre dans la population peut tre estim partir de n chantillons tirs de la population : on obtient alors n valeurs de ce pourcentage qui sont numriquement diffrentes bien que proches : ceci exprime leffet du hasard sur le calcul du pourcentage, encore appel
fluctuations dchantillonnage .

Les principaux types de variables alatoires sont les suivants : Variable qualitative : caractrise par le pourcentage de survenue des diffrentes modalits. Variable quantitative : caractrise par sa moyenne, son cart-type, sa mdiane et ses percentiles. Moyenne : m = Variance s
2

(x
n
i

(x =

m) 2

n 1

Ecart type s = s 2 Ces variables quantitatives peuvent tre continues ou transformes en variables discrtes par la cration de classes de valeurs. Variable ordinale ou qualitative ordonne Variable censure
Les calculs statistiques (que ce soit estimation de paramtres ou test entre des groupes), effectus sur les variables tudies dans le domaine de la sant, reposent sur trois grandes lois de probabilits : la loi binomiale, la loi de poisson, la loi normale (la plus utilise dans la suite de ce cours). Ces lois associent une probabilit de survenue chaque valeur possible du caractre tudi.
Polycopi de bio-statistique Facult de Mdecine de Montpellier-Nmes

28

CHAPITRE II INTERVALLE DE FLUCTUATION DUN PARAMETRE


I. INTRODUCTION
Ltude dun caractre donn dans une population de sujets est gnralement ralise partir dchantillons tirs de cette population. Toutefois il peut arriver que lon se trouve dans la situation inverse : on connat la valeur thorique (dans la population) du paramtre tudier ; lobjectif est alors de prvoir la valeur de ce paramtre dans un chantillon extrait de cette population. Du paramtre thorique de la population on veut dduire le paramtre observ dans un chantillon tir de cette population1. Exemple On connat la frquence dans la population franaise dune maladie infantile M qui est de 20 % ; quelle sera la frquence de cette maladie dans un chantillon denfants, tir au hasard de cette population ?
I.1. NOTION DE FLUCTUATIONS DECHANTILLONNAGE

Soit une population P au sein de laquelle le caractre tudi a pour valeur thorique : A (ce caractre peut-tre une variable qualitative ou quantitative). Les valeurs observs sur n chantillons tirs au hasard de cette population sont : a1, a2 .......an .
E A E1 a1

E2

a2

En

an

Les notations diffrent entre valeurs observes et thoriques : moyenne : thorique : observe : m 2 observe : s2 variance : thorique : cart-type : thorique : observ : s
pourcentage : thorique : P observ : p0 29
Polycopi de bio-statistique Facult de Mdecine de Montpellier-Nm

Il existe autant de valeurs de a que dchantillons extraits, mais si tous ces chantillons sont de taille suffisante et reprsentatifs de la population, elles sont toutes proches de A et les diffrences entre toutes ces valeurs sont faibles : elles tmoignent simplement des FLUCTUATIONS DECHANTILLONNAGE cest--dire de leffet du hasard sur le rsultat de chaque tirage, cest--dire sur la composition de chaque chantillon 2.
I.2. DEFINITION DE LINTERVALLE DE FLUCTUATION3

Donner lintervalle de fluctuation dun paramtre, cest indiquer - partir de la vraie valeur de ce paramtre dans la population - dans quel intervalle doit se trouver la valeur observe de celui-ci sur un chantillon tir au hasard de cette population. A partir de la valeur connue dans la population, lon parie que pour un chantillon donn, la valeur observe de ce paramtre si situera lintrieur des bornes de lintervalle. Remarque : cet intervalle ne signifie pas que la valeur observe du paramtre est toujours lintrieur des bornes mais seulement dans une grande proportion de cas, que lon fixe par avance le plus souvent 95 % (elle correspond alors au risque derreur de 5 % consenti par lexprimentateur : dans 5% des tirages la valeur sera lextrieur des bornes de lintervalle)4. Exemple Soit une maladie infantile M dont la frquence thorique dans la population est de 20 %. Si lon tire au hasard de cette population un chantillon de 100 sujets, la frquence observe de M se situera dans 95 % des cas dans lintervalle [12 % ; 28 %] Ceci indique autrement dit que dans 5% des cas la frquence observe sera lextrieur de lintervalle. Le risque que lon prend en pariant que la frquence de M est situe entre 12 % et 28 % est donc de 5 %. Le calcul de cet intervalle implique que la variable que lon tudie suive une loi normale dans la population3. On supposera cette condition vrifie, ds lors que lon travaille sur un chantillon suffisamment grand, soit : - n 30 si lon cherche lintervalle de fluctuation dune moyenne, - nP, nQ 5 sil sagit dun pourcentage P (avec Q = 1 P)
2 3

cf. Chapitre 1 Buts et Principes - Lois de probabilit : Urne de Bernouilli Encore appel Intervalle de pari 4 cf. Chapitre 3 : Thorie des tests
Polycopi de bio-statistique Facult de Mdecine de Montpellier-Nm

30

II.

INTERVALLE

DE

FLUCTUATION

DUN

POURCENTAGE
Lintervalle de fluctuation dpend de la taille de lchantillon :
II.1. CAS OU LECHANTILLON EST GRAND

Soit une population o la frquence dun caractre tudi est P et E un chantillon de taille n tir au hasard de cette population. La frquence observe du caractre dans lchantillon est p0. Si np0 et nq0 5 on peut dire que p0 est une variable alatoire qui suit une loi normale de moyenne P et de variance =
PQ n

donc que

( p 0 p) PQ n

suit une loi normale centre rduite(0, 1)5

Cela revient crire selon la table de lcart-rduit que : la quantit


( p 0 p) PQ n

se trouve dans lintervalle [-u ; + u] avec une probabilit (1 - )

Prob (-u <

( p 0 p) PQ n

< + u ) = (1 - ) Prob (-u

PQ < p 0 - P < + u n

PQ ) = (1 - ) n

Lintervalle de fluctuation est donc :Prob ( P - u Pour = 5 % cet intervalle est donc donn par : Prob ( P - u0,05
PQ n

PQ n

< p0 < P + u

PQ n

) = (1 - )

< p0 < P + u0,05

PQ n

)= (1 - )

Prob ( P 1,96

PQ PQ PQ < p0 < P + 1,96 ) = 0,95 Prob (p0 = P 1,96 ) = 0,95 n n n

on retranche p0 sa moyenne et lon divise par son cart-type (ou encore cest la diffrence entre P et p0 exprime en units cart-type)
Polycopi de bio-statistique Facult de Mdecine de Montpellier-Nm

31

EXEMPLE : Soit lexemple prcdent o la frquence dune maladie infantile M dans la population est de 20 %. Lon tire au hasard un chantillon de 100 sujets et lon veut prdire dans quel intervalle se situe la frquence observe p0 de la maladie pour lchantillon. Comme nP = 20 et nQ = 80, lintervalle 95 % est donn par : Prob ( P - u
PQ n

< p0 < P + u

PQ n

)= (1 -)

Prob ( p 0 1,96 0.20 * 0,80

100

) = (1 - 0.05 ) [0,12 < p0 < 0,28] = 0,95

On voit donc que lintervalle est dfini par un cart e autour de P que lon peut schmatiser de la faon suivante :
e
2

12%

20%

28%

II.2. CAS OU LECHANTILLON EST PETIT (nP ou nQ < 5)

Dans ce cas on ne peut considrer que le paramtre suit approximativement une loi normale, et lon doit utiliser des tables construites partir de la loi binomiale qui donne lintervalle de fluctuation en fonction de leffectif de lchantillon.

III. INTERVALLE DE FLUCTUATION DUNE MOYENNE


Comme dans le cas prcdent, lintervalle de fluctuation dpend de la taille de lchantillon.
III.1. CAS OU LECHANTILLON EST GRAND

Soit une population P o la variable tudie a pour moyenne thorique et pour variance 2.

Polycopi de bio-statistique Facult de Mdecine de Montpellier-Nm

32

La moyenne observe dans un chantillon de taille n est note m. Si n 30 , alors : m est une ralisation dune variable alatoire qui suit une loi normale de moyenne et de variance donc
2 n ( m )

2 n

suit une loi normale centre rduite (0, 1)

Cela revient crire selon la table de lcart-rduit que la quantit


( m ) 2 n

se trouve dans lintervalle [-u ; + u] avec un probabilit (1 - )

Prob (-u <

( m ) 2 n

< + u ) = (1 - ) Prob (-u

< m - < + u

) = (1 - )

Lintervalle de fluctuation est donc :Prob ( - u Pour = 5 % cet intervalle est donc donn par Prob ( - u0,05 Prob ( - 1,96 EXEMPLE :

< m < + u

) = (1 - )

< m < + u0,05

)= (1 - )

< m < + 1,96

)= 0,95 Prob (m = 1,96

)= 0,95

Le poids moyen des nouveaux ns dans la population est = 3300 grammes et sa variance est 2 = 250000. Si lon tire un chantillon reprsentatif de 100 sujets, la moyenne observe a 95 % de chances de se situer dans lintervalle :[ 1,96 soit [3300 1,96

] = [3202 g ; 3398 g]

La moyenne du poids de naissance des nouveaux ns est donc dans cet chantillon, comprise entre 3202 et 3398 g avec une probabilit de 95%.
e
2

3202g

3300g

3398g

Polycopi de bio-statistique Facult de Mdecine de Montpellier-Nm

33

III.2. CAS OU LECHANTILLON EST PETIT

Dans le cas o n < 30, deux cas de figure peuvent se prsenter : (1). la variable suit dans la population une loi normale ; sa moyenne m suit une loi de Student (n - 1) degrs de libert6. Dans ce cas lintervalle est donn par : Prob [ t , (n - 1)

] = (1 - )

(2). la distribution de la variable dans la population est inconnue : la distribution de m est galement inconnue et lon ne peut calculer dintervalle de fluctuation.

cf Chapitre 1 34

Polycopi de bio-statistique Facult de Mdecine de Montpellier-Nm

Rsum

Dfinir un Intervalle de fluctuation dun paramtre cest prvoir la valeur dun paramtre observ dans un chantillon, partir de la vraie valeur du paramtre dans la population (ou valeur thorique). Lchantillon doit tre reprsentatif de la population . La taille de lchantillon dfinit ltroitesse de lintervalle donc la prcision du calcul : plus lchantillon est grand, plus la valeur observe sera proche de la vraie valeur dans la population. On peut calculer partir de la valeur thorique, en fonction de la taille de lchantillon et en fixant a priori un risque derreur (gnralement = 0.05), un intervalle dans lequel se trouvera la valeur observe du paramtre dans lchantillon.

Intervalle de fluctuation dun pourcentage :

- chantillon grand : nP et nQ 5 : - chantillon petit : nP ou nQ < 5 :

Prob [P u cf. tables

PQ n

] = (1 - )

Intervalle de fluctuation dune moyenne :

- chantillon grand : n 30 chantillon petit : n < 30 :

Prob [ u

] = (1 - )

Prob [ t , (n - 1)

] = (1 - )

Polycopi de bio-statistique Facult de Mdecine de Montpellier-Nm

35

CHAPITRE III ESTIMATION - INTERVALLE DE CONFIANCE DUN PARAMETRE

I. INTRODUCTION
Dans le chapitre prcdent nous avons vu le cas o lon connat la vraie valeur du caractre tudi dans la population. Dans la pratique, cette situation est rare car le plus souvent il est impossible de travailler sur la population dans son ensemble (dautant que cette population peut tre fictive ). Lon est alors contraint dextrapoler les rsultats observs sur des chantillons lensemble de la population. Cest un problme destimation. Lestimation consiste utiliser ces donnes observes pour connatre les valeurs thoriques. EXEMPLE Sur un chantillon de 1000 femmes tir au sort dans la population franaise, lge moyen la mnopause est m = 50,7 ans avec un cart-type s = 3,4. A partir de ces donnes lon veut connatre lge moyen la mnopause , de lensemble des femmes franaises .

II. DEFINTION ET PROPRIETES DUN ESTIMATEUR


II.1. DEFINITION

On distingue 2 types destimation :


1. Lestimation ponctuelle

Lon donne au paramtre thorique la valeur observe du paramtre sur lchantillon. Dans lexemple prcdent ceci nous conduirait considrer que lge moyen des femmes la mnopause dans la population franaise est de 50,7 ans. Ce type destimation est cependant peu satisfaisant car peu prcis (parfois mme il donne des valeurs aberrantes par exemple lorsque lchantillon est petit). En effet
36

Polycopi de bio-statistique Facult de Mdecine de Montpellier-Nmes

si lon tire n chantillons, les fluctuations dchantillonnage conduisent n valeurs diffrentes mme si ces chantillons sont correctement tirs au sort dans la population.
2. Lestimation par intervalle ou intervalle de confiance7

En pratique lon prfre donner une fourchette , une valeur infrieure et une valeur suprieure constituant un intervalle dans lequel doit se trouver la valeur thorique. Cette valeur thorique nest pas toujours lintrieur de lintervalle mais elle a une probabilit fixe par lexprimentateur, en gnral 95 % ( = 5%), de sy trouver.
II.2. PROPRIETES DUN ESTIMATEUR

Pour que lestimation soit fiable elle doit avoir t effectue partir dun chantillon reprsentatif de la population soit tir au sort de cette population, et de taille garantissant une prcision suffisante.

III. ESTIMATION DUNE MOYENNE


III.1. ESTIMATION PONCTUELLE

Lestimation ponctuelle de la moyenne thorique dun caractre dans une population est sa valeur observe m sur un chantillon de taille n. Comme cela a t not plus haut, lestimation ponctuelle, variable dun chantillon lautre est peu satisfaisante.
III.2. ESTIMATION PAR INTERVALLE DE CONFIANCE

On prfre calculer un intervalle dans lequel le paramtre a une probabilit fixe (1 - ) de se trouver. Cette probabilit est fixe par le risque derreur choisi a priori (en gnral on choisit = 5 %). Ceci signifie, pour = 0,05, que si lon calculait les intervalles de confiance pour le paramtre partir de N chantillons diffrents, 95 % des intervalles contiendraient la vraie valeur et pour 5 % dentre eux la vraie valeur serait lextrieur.

A ne pas confondre avec lintervalle de fluctuation ou de pari vu au chapitre prcdent 37

Polycopi de bio-statistique Facult de Mdecine de Montpellier-Nmes

III.2.1. CAS OU LECHANTILLON EST GRAND (n > 30)

Soit une variable quantitative X de moyenne thorique (que lon dsire estimer), et de variance 2. Dans un chantillon tir au sort de taille n, la moyenne et la variance observes sont respectivement m et s2. Si n est grand alors m suit une loi normale de moyenne et de variance La quantit
( m )
2 n 2 n

suit une loi centre rduite de moyenne 0 et dcart-type 1.

donc : Prob [- u <


( m )
2 n

< + u] = (1 - ) Prob [m - u

< < m + u

] = (1 - )

Prob [ u

] = (1 - )

Si = 0,05 ceci revient crire : Prob [m 1,96

< < m + 1,96

] = 0.95

Lintervalle de confiance de est alatoire car centr par m et sa largeur est de u En pratique on remplace par son estimation ponctuelle s (sur lchantillon ). Exemple :

Lintervalle de confiance de la moyenne thorique dans la population est donn par : Prob [50,7 1,96 3,4 Prob [50,7 1,96 3,4
1000

< < m + 1,96 3,4 < < m + 1,96 3,4

1000

] = 0,95

1000

1000

] = 0,95

Prob[50,49 < < 50,91] = 0,95 Lge moyen a la mnopause est donc compris dans la population entre 50,49 et 50,91 ans.
III.2.2. CAS OU LECHANTILLON EST PETIT (n < 30)

Deux cas de figure se prsentent :


(1) la distribution de X dans la population suit une loi normale.
Polycopi de bio-statistique Facult de Mdecine de Montpellier-Nmes

38

Dans ce cas la quantit :

( m )
2 n

. suit une loi de Student (n - 1) degr de libert.

Prob [- t,(n-1) <

( m )
2 n

< + t,(n-1)] = (1 - )

Prob [m - t,(n-1) Prob [ t,(n-1) Exemple

< < m + t,(n-1 ] = (1 - )

] = (1 - )

Si lon reprend lexemple prcdent avec n = 20, lintervalle de confiance est : Prob [50,7 2,093 3,4
20

< < 50,7 + 2,093 3,4

20

] = 0,95 ] = 0,95

Soit Prob [50,7 2,093 3,4

20

< < 50,7 + 2,093 3,4

20

Prob [46,2 < < 55,1] = 0,95


Remarque : la taille de lchantillon conditionne la prcision de lestimation : plus la taille augmente, plus lestimation du paramtre par intervalle est prcise (lintervalle de confiance est plus troit).

(2) la distribution de X dans la population est inconnue : on ne peut alors calculer dintervalle de confiance pour .

IV. ESTIMATION DUN POURCENTAGE


IV.1. ESTIMATION PONCTUELLE

Dans le cas dun pourcentage celle-ci est gale p0 la frquence observe du caractre dans lchantillon (comme cela a dj t dit, ce mode destimation est totalement insuffisant).
IV.2. ESTIMATION PAR INTERVALLE DE CONFIANCE IV.2.1. CAS OU LECHANTILLON EST GRAND(nP, nQ 5)

Soit un pourcentage thorique P que lon souhaite estimer dans une population N .Dans un chantillon de taille n tir au sort de cette population, la frquence observe est p0 Si nP, nQ 5, alors : p0 suit une loi normale de moyenne P et de variance PQ / n.
Polycopi de bio-statistique Facult de Mdecine de Montpellier-Nmes

39

Donc :

( p 0 p) PQ n

suit une loi normale centre rduite de moyenne 0 et de variance 1.

Donc : Prob [- u <

( p 0 p) PQ n

< + u] = (1 - )

Prob [p0 - u Prob [p0 u

PQ n PQ n

< P < p0 + u ] = (1 - )

PQ n

] = (1 - )

Si = 0,05 ceci revient crire :

Prob [p0 1,96

PQ n

< P < p0 + 1,96 (


PQ n

PQ n

] = 0,95

Prob [p0 1,96

] = 0,95
PQ n

Lintervalle de confiance de P est alatoire car centr par p0 et sa largeur est de u En pratique on remplace P et Q lchantillon . Exemple

par leurs estimations ponctuelles p0 et q0 dans

Dans un essai thrapeutique avec une nouvelle molcule ralis sur un chantillon reprsentatif de 200 sujets atteints de cancers de lovaire, lon a estim le taux de rmission p0=20%. Comment peut-on estimer le taux de rmission thorique (cest dire le taux que lon peut esprer si lavenir, lon traitait ainsi les cancers de lovaire) associ cette nouvelle molcule (on prendra =0,05) ? On estime par : Prob [- u <
( p 0 p) PQ n

< + u] = (1 - ) Prob [0,20 1,96

PQ

200

< P < 0,20 +

1,96 PQ

200

] = 0,95

On remplace Pet Q par leurs estimations sur lchantillon (estimations ponctuelles) : Prob [0,20 1,96 0,20 x0,80
200

< P < 0,20 + 1,96 ( 0,20 x0,80

200

] = 0,95

Lintervalle est donn par : Prob [0,145< P <0,255] = 0,95

Polycopi de bio-statistique Facult de Mdecine de Montpellier-Nmes

40

Le taux de rmission thorique des cancers de lovaire avec cette nouvelle molcule se situe entre 14.5% et 25.5% avec une probabilit de 95%. Ce mode destimation est justifi puisque les conditions de validit sont vrifies : nP et nQ 58.
IV.2.2. CAS OU LECHANTILLON EST PETIT (nP, nQ < 5)

Dans ce cas lapproximation par la loi normale nest pas valide. Il faut donc utiliser des tables.

: la vrification se fait sur la plus petite valeur de P ou Q aux deux bornes de lintervalle (ici : 0,145x200=29)
Polycopi de bio-statistique Facult de Mdecine de Montpellier-Nmes

41

Rsum :

Estimer la valeur thorique dun paramtre dans une population, partir de la valeur observe de ce paramtre sur un chantillon reprsentatif de cette population. Lestimation fournit un intervalle de confiance pour le paramtre thorique : plus lchantillon est grand, plus lestimation est prcise donc lintervalle troit. A partir de la valeur observe, en fonction de la taille n de celui-ci et en fixant a priori une risque d erreur (gnralement de 5%), on obtient un intervalle dans lequel se trouvera la valeur du paramtre dans la population. Intervalle de confiance dun pourcentage : - chantillon grand : nP et nQ 5 : - chantillon petit : nP ou nQ < 5 : Intervalle de confiance dune moyenne : - chantillon grand : n 30 : Prob [m u

Prob [p0 u cf. tables

PQ n

] = (1 - )

] = (1 - )

- chantillon petit : n < 30 :

Prob [m t , (n - 1)

] = (1 - )

Polycopi de bio-statistique Facult de Mdecine de Montpellier-Nmes

42

CHAPITRE IV PRINCIPE DES TESTS DHYPOTHESE RISQUES DERREUR PUISSANCE ET NOMBRE DE SUJETS NECESSAIRE

Les tests statistiques ont comme objectif laide la dcision et la validation dhypothses: ils sont utiliss chaque fois que lon veut comparer un paramtre une valeur de rfrence ou plusieurs paramtres entre eux. Les paramtres peuvent tre quantitatifs (moyenne, mdiane, coefficient de corrlation.) ou qualitatif (pourcentage). Ces paramtres sont issus d chantillons statistiques qui vont servir mettre des conclusions sur la population, relle ou imaginaire, do ils sont issus. Dans le problme du test statistique, lchantillon sert trancher entre deux hypothses en concurrence concernant cette population. Le problme est compliqu car on se trouve en gnral en situation dincertitude: les donnes exprimentales ne sont incompatibles ni avec une hypothse ni avec une autre. La thorie des tests date du dbut du XXme sicle, priode laquelle il a t reconnu quil fallait prendre des dcisions en situation dincertitude et donc quil fallait dvelopper une mthodologie scientifique adapte ce problme. Les tests vont donc rduire la part de subjectivit lie cette situation dincertitude.

I. ESTIMATION & TEST : 2 PROBLEMES DIFFERENTS


Premier exemple : on dispose dun chantillon de 400 adultes jeunes de sexe

masculin chez lesquels on a mesur la taille en cm. Au chapitre prcdent, nous avons vu comment, partir de ces valeurs, estimer la moyenne et la variance 2 du paramtre taille dans la population des adultes jeunes de sexe masculin. Le problme du test se pose diffremment: par exemple, on peut se demander si cet chantillon, dont la moyenne observe m est gale 172.23 cm et lcart-type observ est gal 2.50 cm, est reprsentatif (cest dire tir au sort sans biais) de la population gnrale, o la taille moyenne est 0 = 171.33 cm et lcart-type (dans la pratique, on connat rarement les valeurs de et ). Une autre faon de formuler
Polycopi de bio-statistique Facult de Mdecine de Montpellier-Nmes

43

le mme problme est de se demander si les 400 valeurs observes sont compatibles avec lhypothse que = 171.33 cm?
Deuxime exemple : l essai thrapeutique est une procdure qui vise comparer

des traitements dune mme maladie afin de slectionner le plus performant. Considrons un essai comparant deux mdicaments antiulcreux A et B; 150 patients ont t rpartis par tirage au sort en deux groupes de 75: lun recevant A, lautre recevant B. A lissue dun mois de traitement, les patients sont valus quant au succs du traitement (cicatrisation complte de lulcre la fibroscopie gastrique) ou son chec (non cicatrisation complte). De la mme faon que prcdemment, on peut estimer partir de chacun des deux chantillons, les frquences thoriques de gurison dans la population des patients prenant le traitement A et dans la population des patients prenant le traitement B. Mais dans le cas dun essai thrapeutique, la problmatique est diffrente; elle est expose ci-dessous. Plusieurs cas de figure peuvent se rencontrer: 1. Le % observ de gurison est lgrement suprieur avec A (35%) quavec B (33%) mais comment interprter cette diffrence? hasard? 2. Le % observ de gurison est trs nettement suprieur avec A (80%) quavec B (10%). Comme prcdemment, on peut se poser les mmes questions mais intuitivement, on est peu enclin croire que la diffrence est lie au tirage au sort. Dans chacun de ces types de problmes, les tests statistiques vont nous aider trancher et prendre une dcision. Existe t-elle rellement (diffrence lie au traitement) ou est-elle due au tirage au sort, cest dire au

II. PRINCIPES DES TESTS STATISTIQUES


Tout au long de ce chapitre, nous illustrerons notre propos laide du 1er exemple; le 2me exemple ne sera pas trait intgralement mais servira ponctuellement illustrer certains aspects des problmes des tests. Si notre chantillon de jeunes adultes masculins est bien reprsentatif de la population gnrale des jeunes adultes masculins, on sattend trouver sur notre
Polycopi de bio-statistique Facult de Mdecine de Montpellier-Nmes

44

chantillon une moyenne de taille proche de 171.33 cm. Mais il faut dfinir ce quon entend par proche car on sait que la moyenne observe fluctue dun chantillon lautre autour de cette valeur. On a vu au chapitre prcdent comment quantifier ces fluctuations dchantillonnage : dans notre exemple, si on prend des chantillons de 400 individus, on observera dans 95% des cas, une moyenne de taille comprise entre les deux bornes de lintervalle: 1.96 soit [171.09-171.58]. Observer une moyenne > 171.58 ou < 171.09 est donc peu probable si lhypothse = 171.33 est exacte; cela arrive dans moins de 5% des cas. On prfrera, dans ce cas, considrer que cette hypothse est fausse. Le principe des tests statistiques revient formaliser ce raisonnement conformment tout raisonnement scientifique selon les tapes suivantes: 1. Formuler une hypothse 2. En dduire ce que devraient tre les observations si cette hypothse tait vraie 3. Vrifier si les observations sont conformes ce que lon attend sous lhypothse en question 4. Conclure par un rejet ou un non rejet de lhypothse initiale Reprenons une une chacune de ces tapes.
II.1. FORMULER ALTERNATIVE H1 LHYPOTHESE NULLE H0 ET LHYPOTHESE
s2 n

, soit 171.33 1.96

2.5 2 400

Un test statistique est utile quand il faut trancher entre deux hypothses, lune dite nulle H0 et lautre alternative dite H1. Lhypothse nulle correspond gnralement une situation de statu quo, alors que lhypothse alternative traduit une situation nouvelle: cest souvent lhypothse dmontrer. Application aux deux exemples : Dans le premier exemple, lhypothse nulle se formule: notre chantillon de jeunes adultes est bien reprsentatif de la population gnrale des jeunes adultes en ce qui

Polycopi de bio-statistique Facult de Mdecine de Montpellier-Nmes

45

concerne la taille H0: = H0, soit =171.33 cm Lhypothse alternative est la nouvelle hypothse que lon propose pour dcrire la ralit si H0 est fausse; elle se formule: notre chantillon de jeunes adultes nest pas reprsentatif de la population gnrale des jeunes adultes en ce qui concerne la taille H1: H0, soit 171.33 cm Il est fondamental de noter que les hypothses H0 et H1 portent sur les vraies valeurs des paramtres dans la population et non pas sur les valeurs observes sur lchantillon
II.2. DETERMINER CE QUE DEVRAIENT ETRE LES OBSERVATIONS SI H0 ETAIT VRAIE

Si H0 est vraie, la moyenne de taille observe sur un chantillon reprsentatif de jeunes adultes peut prendre une infinit de valeurs en raison des fluctuations dchantillonnage. Mais toutes les valeurs de 0 (variable alatoire) ne sont pas galement probables: est plus souvent proche de H0 (=171.33 cm) quil nen est loign. On ne dtermine donc pas en toute rigueur ce que devraient tre les observations si lhypothse nulle tait vraie, mais on calcule la probabilit quelles aient telle valeur. Si H0 est vraie, on sait que la quantit =
0 H0 2 n

vaut en moyenne 0 et que ses

fluctuations dchantillonnage autour de 0 suivent une loi normale centre rduite (sous rserve que lchantillon soit grand: n30). Ainsi, sous H0, ne dpasse, en valeur absolue, la valeur 1.96 que dans 5% des cas.
II.3. VERIFIER SI LES OBSERVATIONS SONT CONFORMES AUX VALEURS ATTENDUES SOUS LHYPOTHESE NULLE

Ceci revient calculer sur lchantillon la quantit 0 =

m 0 H0 s2 n

(0 est donc une

quantit observe) et dterminer grce la table de la loi centre rduite la probabilit que soit en valeur absolue la quantit observe 0, si H0 est vraie.
Polycopi de bio-statistique Facult de Mdecine de Montpellier-Nmes

46

Il faut bien comprendre que est une variable alatoire qui est soumise des fluctuations dchantillonnage ; on peut donc parler de sa distribution.
0 est

une quantit fixe calcule sur lchantillon.

Que reprsente en pratique cette probabilit que soit en valeur absolue la quantit observe 0, si H0 est vraie. 172.23 - 171.33 est lcart effectivement observ entre la moyenne de taille dans lchantillon et la moyenne thorique H0. 0 - H0 est la variable alatoire dont les valeurs sont tous les carts possibles: la probabilit calcule correspond la proportion de tous les chantillons possibles qui scartent de H0 au moins autant que lchantillon observ cest dire les chantillons dont la moyenne observe se trouve dans la zone grise ci-dessous.

m0

H0

m0

m0 - H0

Cette probabilit est la valeur attendue si lhypothse nulle est vraie. Si cette probabilit est petite, 2 possibilits existent: Soit H0 est vraie et lchantillon observ a peu de chances dtre observ car m0 est loin de la valeur attendue H0 la suite de fluctuations dchantillonnage Soit H0 est fausse Il faut trancher entre ces deux assertions et on prfrera conclure que H0 est fausse si lchantillon observ est trop peu probable. Le choix de la rgle de dcision revient quantifier la probabilit trop petite: est-ce 1%, 5%, 10%?
II.4. CHOISIR LA REGLE DE DECISION

Rappelons quau dbut de ce chapitre nous avons dfini deux hypothses : H0 et H1. Nous souhaiterions trancher en faveur de lune ou lautre hypothse mais le problme est plus complexe.

Polycopi de bio-statistique Facult de Mdecine de Montpellier-Nmes

47

H0 est unique: cest lhypothse privilgie mais H1 correspond une multitude de possibilits donc il y a une dissymtrie entre ces deux hypothses. Deux dcisions sont possibles : Soit on rejette H0 car les observations faites sur lchantillon sont incompatibles avec cette hypothse, cest dire que la moyenne observe sur lchantillon est trop loigne de la moyenne thorique sous H0 Soit on ne rejette pas H0 car les observations faites sur lchantillon sont compatibles avec cette hypothse, cest dire que la moyenne observe peut tre explique par les fluctuations dchantillonnage; on ne peut cependant pas affirmer quelle est vraie car les observations faites sont aussi compatibles avec dautres hypothses. Cette dissymtrie dans les conclusions est retrouve dans toutes les sciences exprimentales: la seule chose quon puisse dmontrer par des observations est quune hypothse est fausse. La rgle de dcision dun test statistique doit donc permettre, en prenant un risque acceptable, de trancher entre le rejet ou le non rejet de H0 sur la base des observations faites sur lchantillon. Le principe est de fixer une valeur seuil que la quantit calcule 0 devra au moins galer pour que lon dcide de rejeter H0 et quelle ne devra pas dpasser pour que lon dcide de ne pas rejeter H0. Donc si 0 seuil Donc si 0 < seuil Comment fixer la valeur seuil? rejet de H0 non rejet de H0

III. LE RISQUE = RISQUE DE PREMIERE ESPECE =


SEUIL DE SIGNIFICATION
Toute dcision, base sur des observations, est sujette erreur (cf tout ce qui prcde). Quelle que soit la dcision que lon prenne, elle comporte un risque derreur. Si on rejette H0 , le risque est de la rejeter alors quelle est vraie.

Polycopi de bio-statistique Facult de Mdecine de Montpellier-Nmes

48

On minimise ce risque lorsquon choisit le seuil prcdent suffisamment grand: ce risque, fix a priori avant de raliser le test, fait partie de la rgle de dcision; il est aussi appel risque de 1re espce. De faon consensuelle, il est gnralement fix 5%: on considre que cest un bon compromis entre le trop et le trop peu. Il signifie, en dautres termes, quon a 5% de chances de se tromper en rejetant H0. Sur la table de la loi centre rduite, valable pour les grands chantillons, cette probabilit de 5% correspond comme vous lavez vu dans le chapitre sur les lois de probabilit une valeur seuil de 1.96. Si on calcule 0 dans le cas de notre chantillon dhommes jeunes dont la moyenne observe obtient: 0 = est de
2.50 2 400

172.23
= 7 .2

cm

et

lcart-type

2.50

cm,

on

172.23 171.33

Cette valeur est trs suprieure la valeur seuil 1.96. On sait que le risque maximal consenti nest pas atteint donc on peut rejeter H0 avec scurit. Remarque:ce seuil de 5% est arbitraire, mme sil est trs largement utilis dans la communaut scientifique. Rien ne nous empche de minimiser ce risque et de le fixer par exemple 1%: on rejettera moins souvent H0 dans ce cas. est appel risque de 1re espce ou seuil de signification.

IV. LE DEGRE DE SIGNIFICATION


la rgle de dcision dicte ci-dessus nous permet de rejeter ou de ne pas rejeter H0 mais ne nous permet pas de donner un poids la dcision prise: tout au plus, pouvons-nous dire que si nous avons rejet H0 nous avons moins de 5 chances sur 100 de nous tromper. Cependant, si la moyenne de lchantillon sloigne beaucoup de la moyenne thorique de la population, on est tent de penser quon peut rejeter H0 avec plus de confiance.

Polycopi de bio-statistique Facult de Mdecine de Montpellier-Nmes

49

Prenons lexemple dun 2me chantillon de jeunes hommes adultes dont nous mesurons la taille: la moyenne observe est de 171.60 cm et lcart-type de 2.50 cm. 0 =
171.60 171.33 2.50 2 400 = 2.16

La quantit calcule est encore suprieure au seuil pour 5% de 1.96, mais beaucoup moins que la quantit calcule sur le 1er chantillon qui tait gale 7.2. Si on se rfre la table de la loi centre rduite, on constate que le degr de signification, not p, permet de quantifier la force de notre dcision. Il est gal la probabilit dobserver, si Ho est vraie, un cart la valeur du paramtre fix par H0, au moins aussi grand que celui constat sur lchantillon.. Dans nos deux exemples, nous rejetons H0 mais dans le 1er cas, nous laurions galement rejet si nous avions fix 1% et mme 1 alors que dans le 2me cas nous ne laurions rejet ni 1% ni a fortiori 1. La communaut scientifique admet les rgles suivantes: Lorsque p 1, on dit du test quil est hautement significatif Lorsque 1 < p 1%, on dit du test quil est trs significatif Lorsque 1% < p 5%, on dit du test quil est significatif Lorsque p > 5%, on dit du test quil est non significatif Dans notre 1er cas de figure, le test est hautement significatif; dans le 2me cas de figure, il est significatif. On accorde une moindre confiance notre dcision dans ce 2me cas.
Remarque : Il faut bien comprendre la diffrence entre le seuil de signification et le degr de signification: le seuil de signification est fix a priori; cest de lui que dpend notre dcision finale de rejeter ou de ne pas rejeter H0; reste le mme pour tous les chantillons tests. Le degr de signification p est propre un chantillon et nous permet daccorder une plus ou moins grande confiance notre dcision On conclut au rejet de H0 partir des observations faites sur un chantillon si p < .
Polycopi de bio-statistique Facult de Mdecine de Montpellier-Nmes

50

V. LE RISQUE ET LA PUISSANCE DUN TEST STATISTIQUE


Nous avons vu dans le paragraphe 1.3 le risque li la dcision de rejeter H0 alors qu H0 est vraie. Un autre risque derreur peut entacher notre dcision: cest celui qui est associ la dcision de ne pas rejeter H0 alors quH0 est fausse, cest dire si on prend notre chantillon de jeunes adultes, de conclure que notre chantillon est reprsentatif de la population des jeunes adultes alors quil ne lest pas. Ce risque est appel = Pb (ne pas rejeter H0 / H1 vraie) = Pb (< u) si H1 est vraie Le risque nest pas calculable sans donnes complmentaires: en effet, on ne connat pas la valeur prcise H1.;. Si on veut pouvoir calculer , il faut spcifier une hypothse alternative particulire H1; il existe une valeur de pour chaque valeur H1. Cette asymtrie entre et reflte lasymtrie de la rgle de dcision du paragraphe 1.2.4; elle conduit lasymtrie de la rgle de dcision et de la conclusion dun test. Si Si < On rejette H0 avec un risque On ne rejette pas H0 mais on ne peut pas pour autant laccepter car on

ne sait pas avec quel risque derreur on laccepterait tant donn que les donnes observes sont compatibles avec H0 mais peuvent ltre avec dautres hypothses; on ne peut pas montrer que H0 est fausse: ceci correspond un manque de puissance du test.
Par dfinition la puissance dun test est gale 1-

= Pb(ne pas rejeter H0/H1 vraie)

1 - = Pb(rejeter H0/H1 vraie)

Cest la capacit dun test reconnatre que H1 est vraie.

En pratique, cette situation ne correspond rien car H1 reprsente une multitude de situations telles que 0 - H0 = o 0; il faut alors fixer la valeur de la diffrence

Polycopi de bio-statistique Facult de Mdecine de Montpellier-Nmes

51

vaut alors: H = Pb(ne pas rejeter H0 / H1 vraie) = Pb(ne pas rejeter H0 / 0 - H0 = ) 1 - H = Pb(rejeter H0/H1 vraie) = capacit du test dtecter une diffrence qui existe rellement. Ds lors, on conoit quil est prfrable que la puissance soit la plus leve possible donc que H soit le plus faible possible. Tableau rcapitulatif: risques derreur associs un test selon que H0 ou H1 est vraie Ralit Valeur de H0 vraie H1 vraie H0 H1 H1 Conclusion du test Rejet de H0 Non - rejet de H0 1-

1 - 1 -

VI. APPLICATION AU CALCUL DU NOMBRE DE SUJETS NECESSAIRE


Les conclusions dune exprimentation via le test statistique vont donc tre diffrentes en fonction dun certain nombre de critres: le seuil de signification choisi, le risque qui dpend lui-mme de la diffrence que lon juge intressante mettre en vidence. Si on calcule 0 dans le cas de notre premier chantillon dhommes jeunes dont la moyenne observe est de 172.23 cm et lcart-type 2.50 cm, on obtient :
0 =

172.23 171.33 2.50 2 400

= 7.2

Si on calcule 0 dans le cas de notre deuxime chantillon dhommes jeunes dont la moyenne observe est de 171.60 cm et lcart-type de 2.50 cm.
0 =

171.60 171.33 2.50 2 400

= 2.16

Polycopi de bio-statistique Facult de Mdecine de Montpellier-Nmes

52

Nous avons vu que, bien que la conclusion du test soit la mme dans les deux cas(rejet de H0), le risque de conclure tort une diffrence est plus faible dans le premier cas que dans le deuxime cas. Dans le premier cas, la diffrence entre la valeur thorique et la valeur observe est plus grande (0.9 cm) que dans le deuxime cas (0.27 cm) ; elle est donc plus facile dtecter. Admettons prsent que nos effectifs de 400 sujets soient rduits 100 sujets dans les deux cas et que les moyennes et cart-type restent les mmes sur ces chantillons; les carts rduits calculs deviennent respectivement :
172.23 171.33 2.50 2 100 171.60 171.33 2.50 2 100

0 =

= 3.6

et

0 =

= 1.08

La moyenne observe est encore diffrente de la moyenne thorique dans le premier cas : rejet de H0 au risque 5% (p< 0.001) ; en revanche, dans le second cas, e 0 < u5% non rejet de H0 au risque 5%.

Sur ces exemples, nous avons fait varier chaque fois un paramtre, soit la diffrence entre la vraie valeur et la valeur observe, soit leffectif de lchantillon et nous avons vu comment varie la conclusion du test; nous pourrions faire de mme en faisant varier lcart-type; on constate ainsi que les paramtres et n sont intimement lis. En pratique :

et sont fixs a priori: dans la mesure o on veut minimiser les risques derreur
lis au test statistique, il nous appartient de les fixer les plus faibles possibles

reprsente la diffrence juge intressante dtecter: elle est en principe


value partir de travaux exprimentaux antrieurs ou de la littrature mdicale, de mme que . le seul parametre qui peut varier est alors leffectif de l chantillon servant a raliser le test NOUS POUVONS DONC CALCULER UN NOMBRE DE SUJETS NECESSAIRE POUR METTRE EN EVIDENCE UNE DIFFERENCE AVEC UN RISQUE ET UNE PUISSANCE (1 - )

Polycopi de bio-statistique Facult de Mdecine de Montpellier-Nmes

53

Le dtail du calcul du nombre de sujets ncessaires dpasse lobjet de ce cours; il sera dvelopp, ainsi que lintrt quil prsente, ultrieurement, dans le module dapplications en Sant Publique, chapitre Essais Thrapeutiques. Nous nous bornerons ici spcifier comment varie n en fonction des paramtres prcdents: Lorsque:

n n n n

On constate donc que :

plus la diffrence relle mettre en vidence est grande, moins leffectif ncessaire pour la mettre en vidence est grand. plus les risques et consentis sont faibles, plus leffectif ncessaire est grand. plus la variabilit du paramtre tudi est grande, plus leffectif ncessaire est grand.

VII. TEST UNILATERAL OU TEST BILATERAL


Dans tout ce qui prcde, nous avons considr que lhypothse alternative H1 tait une ingalit du type H1: H0 pour notre premier exemple. On dit que nous sommes en situation bilatrale. Il est des circonstances o le problme ne se pose pas en ces termes. Dans lexemple de lessai thrapeutique du mdicament A (mdicament dont on cherche montrer lefficacit) contre le mdicament B (placebo), A ne peut pas tre infrieur en efficacit B qui ne contient pas de substance active et lhypothse alternative na pas tenir compte de lventualit PA < PB.; on testera alors H0 : PA = PB (les deux traitements ont la mme efficacit) contre H1 : PA > PB (le traitement A est plus efficace que le traitement B). En pratique cela a pour consquence de rduire la probabilit p. Puisque la nouvelle hypothse alternative PA > PB est strictement incluse dans lhypothse alternative bilatrale : PA PB, il y a moins de risque daccepter H1 alors que H0 est vraie. On dit que le problme est formul de faon unilatrale.
Polycopi de bio-statistique Facult de Mdecine de Montpellier-Nmes

54

Dans lexemple de la taille des jeunes adultes, la formulation unilatrale conduit exprimer lhypothse alternative soit : soit H1: > H0

H1: < H0

Application numrique lexemple de la taille des jeunes adultes Soit lhypothse alternative H1: > H0, soit > 171.33 cm Si la moyenne observe dans lchantillon vaut m0=171.60 cm, nous avons dj calcul la statistique 0 qui est gale 2.16 (idem que pour un test bilatral); seule va changer la rgle de dcision: Dans le cas bilatral, la rgle de dcision tait: Si u On rejette H0 avec un risque Dans le cas unilatral, la rgle de dcision devient: Si u On rejette H0 avec un risque /2 Ou Si u2 On rejette H0 avec un risque On constate donc que pour le mme risque derreur , cest la valeur seuil qui change u pour un test bilatral et u2 pour un test unilatral. Dans notre exemple, 0=2.16; on compare cette valeur la valeur u10% dans la table de la loi normale centre rduite, soit 1.645; 2.16 > 1.645: on rejette H0 au risque 5%. On constate donc quavec un test unilatral, pour le mme risque derreur , on rejette plus souvent H0.. Le choix dun test bilatral ou unilatral doit toujours tre fait a priori, jamais au vu des rsultats. Cest la condition pour que le risque derreur reste effectivement fix 5% et ne devienne pas gal 10%

Polycopi de bio-statistique Facult de Mdecine de Montpellier-Nmes

55

/2

/2

La loi normale centre rduite est tabule et nous permet donc dassocier une valeur seuil chaque valeur d jusque l, nous avons utilis la table reprsente cidessous: La table donne la probabilit pour que lcart-rduit gale ou dpasse en valeur absolue une valeur u (chaque cellule de la table reprsente une valeur u) cest dire la probabilit extrieure lintervalle [-u;+u]
0.00 0.00 0.10 0.20 0.30 0.40 0.50 0.60 0.70 0.80 0.90 1.645 1.282 Etc 0.01 2.576 1.598 1.254 0.02 2.326 1.555 1.227 0.03 2.170 1.514 1.200 0.04 2.054 1.476 1.175 0.05 1.96 1.440 1.150 0.06 1.881 1.405 1.126 0.07 1.812 1.372 1.103 0.08 1.751 1.341 1.080 0.09 1.695 1.311 1.058

Certains auteurs utilisent la table qui donne la probabilit pour que lcart-rduit gale ou dpasse une valeur z cest dire la probabilit extrieure de lintervalle [+u; +[ ; cette table figure ci-dessous.

/2

/2

Polycopi de bio-statistique Facult de Mdecine de Montpellier-Nmes

56

0.00 0.10 0.20 0.30 0.40 0.50 0.60 0.70 0.80 0.90

0.005 0.01 0.015 0.02 0.025 0.03 0.035 0.04 0.045 0.05 Etc 0.095 2.576 2.326 2.170 2.054 1.960 1.881 1.812 1.751 1.695 1.645 .. 1.282 Etc 0.842

0.00

La 2me table contient deux fois plus de colonnes car elle permet dobtenir les valeurs seuils de 0.5% en 0.5%. Remarque: la notation u est utilise pour les valeurs la table bilatrale, la notation z est utilise pour les valeurs de la table unilatrale. Ces deux tables figurent intgralement en annexe de ce document. La loi centre rduite a servi de base la prsentation dans ce chapitre du principe des tests dhypothse, prenant comme exemples la comparaison dune moyenne observe une moyenne thorique et la comparaison de deux frquences observes dans le cas de grands chantillons; d autres lois prsentes dans le chapitre sur les lois de probabilit sont adaptes dautres types de problmes : loi de Student, loi du

2, loi de Fisher
Les chapitres suivants vont dtailler les types de test adapts chaque problme biostatistique pos; la rsolution de chaque type de problme sappuie sur ce principe gnral des tests dhypothse.

REFERENCES BIBLIOGRAPHIQUES
Bouyer J.: Mthodes statistiques Mdecine Biologie. Editions INSERM 1996. Daurs J.P.: Probabilits et statistiques en Mdecine. Sauramps mdical 1993. Falissard B.: Les statistiques dans les sciences de la vie. Masson diteur 1996. Valleron A.J.: Introduction la biostatistique. Masson diteur 1998.

Polycopi de bio-statistique Facult de Mdecine de Montpellier-Nmes

57

CHAPITRE V VARIABLES QUALITATIVES : COMPARAISON DE POURCENTAGES TEST DU CHI DEUX

En mdecine, l'analyse de variables qualitatives, en particulier sous la forme d'un caractre deux classes (malade ou non, gurit ou non, complication prsente ou absente, dcd ou non), est trs frquente. Exemples : Le pourcentage de patients guris (taux de gurison) aprs administration du traitement A est-il meilleur que celui obtenu aprs administration du traitement B ? Le pourcentage de complications varie t-il en fonction du mode dintervention chirurgicale, clioscopie ou laparotomie, pour une pathologie donne ? Comme dans les exemples cits, il s'agit, le plus souvent, de comparer des pourcentages observs dans deux ou plusieurs chantillons. Mais, il n'est pas rare d'avoir comparer un pourcentage observ une valeur de rfrence.

I. COMPARAISON DE DEUX POURCENTAGES - TEST DE LECART REDUIT


I.1. COMPARAISON DUN POURCENTAGE OBSERVE A UN POURCENTAGE THEORIQUE

Exemple : La proportion considre comme habituelle de nouveau-ns prmaturs dans la population considre est de 4%. Parmi les 170 femmes de plus de 35 ans ayant accouch dans une maternit donne, on observe 16 naissances prmatures (soit 9,4%). Ce chiffre est-il diffrent de sa valeur dans la population ? Le problme pos est le suivant : On observe un pourcentage p0 (9,4%) sur un chantillon et on veut savoir sil diffre dune valeur de rfrence connue dans la population que nous noterons PH0 et qui vaut ici 4%.
Polycopi de bio-statistique Facult de Mdecine de Montpellier-Nmes

58

Autrement dit, lchantillon est-il reprsentatif de la population de rfrence dans laquelle la frquence thorique P du caractre prmatur est gale PH0 ?
La valeur observe sur lchantillon (9,4%) est-elle compatible avec les

fluctuations dchantillonnage autour de la valeur PH0 = 4% ou la diffrence entre 9,4% et 4% est-elle trop leve pour tre due au hasard ? Pour rpondre cette question, nous allons effectuer le test de l'cart-rduit.
Premire tape du test : spcifier lhypothse nulle H0 et lhypothse alternative H1.

H0:Lchantillon est reprsentatif dune population de rfrence dans laquelle le

caractre tudi a une frquence thorique P= PH0

H1:

Test bilatral: P PH0 dans lchantillon le taux de prmatur diffre de celui de la population (aucune hypothse particulire ne peut tre faite a priori sur le sens de cette diffrence) Test unilatral: P> PH0 ou P< PH0 (la population des femmes de plus de 35 ans est connue pour avoir un taux de prmaturit suprieur ou infrieur la population gnrale) NB: Les hypothses portent toujours sur la valeur du pourcentage dans la population (valeur thorique) et non pas sur une valeur observe.
Sous H0, si n est assez grand, en pratique si n PH0 et n(1 - PH0) 5, on peut alors

assimiler :

la distribution de la variable alatoire P0, pourcentage observ sur un chantillon, une loi de Laplace Gauss de moyenne PH0 et dcart type
PH 0 (1 PH 0 ) (p0 peut n

prendre toutes les valeurs entre 0 et 100% mais sera plus frquemment proche quloign de PH0) ou encore,
= p 0 PH 0 PH 0 (1 PH 0 ) n

Polycopi de bio-statistique Facult de Mdecine de Montpellier-Nmes

59

la distribution de la variable centre rduite, appele cart rduit , suit une loi de LG(0,1) :

Sous cette distribution, cette quantit ne dpasse 1,96 en valeur absolue que dans 5% des cas.
Deuxime tape : Vrifier les conditions de validit du test (n PH0 et n(1- PH0) 5). Troisime tape : Confronter les valeurs observes aux valeurs attendues sous H0 en

calculant lcart rduit :

p 0 PH 0 PH 0 (1 PH 0 ) n

|p0- PH0| est lcart effectivement observ entre le pourcentage observ dans l'chantillon et la valeur thorique connue. La lecture de la table de la loi de L.G., permet de trouver la probabilit que la valeur soit suprieure ou gale la valeur absolue de lcart rduit observ :
Probabilit (||
p 0 PH 0 PH 0 (1 PH 0 ) n

/H0)

Si cette probabilit est petite, on peut dire que la diffrence |p0- PH0| est un vnement peu probable sous lhypothse nulle. On ne rejette pas H0 si le degr de signification (probabilit lue dans la table, caractristique dun chantillon donn) est suprieur au seuil de probabilit choisi (en gnral 5%) et on rejette H0 dans le cas contraire. Reprenons lexemple : PH0 =4%
Hypothses :

n=170

p0=9,4%

H0: Lchantillon est reprsentatif dune population dans laquelle le caractre tudi

a une frquence thorique P=0,04

H1: P 0,04 ( test bilatral)

Polycopi de bio-statistique Facult de Mdecine de Montpellier-Nmes

60

Conditions de validit :

1700,04=6,8 et 1700,96=163,2 sont suprieurs ou gaux 5. On peut considrer que la distribution de la variable centre rduite LG(0,1).
On calcule lcart rduit observ: 0 = 0,094 0,04 0,04(1 0,04 ) 170 On recherche dans la table la probabilit suivante :
Prob 0,094 0,04 = 3,59 = 10 3 0,04(1 0,04 ) 170

suit une loi de

= 3,59

On conclut :

Le degr de signification (p=10-3) tant infrieur 0,05 ou la valeur de lcart rduit observ (=3,59) tant suprieure 1,96, valeur lue pour =0,05 (test bilatral), on rejette lhypothse nulle au seuil de 5%. La diffrence est hautement significative. Le risque dobserver un cart aussi grand sous lhypothse nulle est infrieur 0,001. On peut conclure que le pourcentage de prmaturs chez les femmes de plus de 35 ans dans la maternit considre est diffrent de 0,04% avec p=0,001.
I.2. COMPARAISON DE DEUX POURCENTAGES OBSERVES

Le cas le plus frquent est celui o l'on dispose de deux chantillons deffectifs n1 et n2 . Dans le premier, un caractre a un pourcentage observ p1. Dans le second, le mme caractre a un pourcentage observ p2 diffrent de p1. La question est de savoir si la diffrence observe entre p1 et p2 est suffisamment petite pour que lon puisse admettre que ces deux chantillons sont extraits dune mme population et que cette diffrence nest due qu des fluctuations dchantillonnage.
Premire tape : spcifier lhypothse nulle H0 et lhypothse alternative H1 :

H0: Les 2 chantillons sont tirs au hasard dune mme population o la frquence

thorique du caractre est P : P1 = P2 = P (ici la frquence thorique est inconnue)

Polycopi de bio-statistique Facult de Mdecine de Montpellier-Nmes

61

H1: Les 2 chantillons ne sont pas tirs au hasard dune mme population (chacun a

t tir au hasard dune population diffrente ou ils ont t tirs dune mme population mais pas au hasard) : P1 P2 P1 > P2 ou P1 < P2 test bilatral test unilatral

P1 et P2 sont les pourcentages thoriques des populations do sont extraits les chantillons.
Deuxime tape : estimer P et vrifier les conditions de validit:

Sous lhypothse H0, la meilleure estimation de la frquence thorique P est :


P = n1 p1 + n2 p 2 , moyenne pondre de p1 et p2. n1 + n2

Les conditions de validit sont n1P et n1(1-P) 5, n2P et n2(1-P) 5


Troisime tape : Sous H0 :

P1 suit une loi de Laplace Gauss de moyenne P et dcart type P2 suit une loi de LG (P,
p (1 p ) ) n2
1 1 ) p (1 p ) + n n2 1

p (1 p ) n1

P1 - P2 suit une loi de LG (0, On calcule lcart rduit observ : 0 =

p1 p 2 1 1 p(1 p ) + n n2 1

La lecture de la table de la loi de LG, permet de trouver la probabilit que, si H0 est vraie, soit suprieur ou gal la valeur absolue de lcart rduit observ : prob(||
p1 p 2 1 1 P(1 P ) + n 1 n2

/H0)

Si cette probabilit est infrieure 5% on rejette H0 au seuil de 5% et on accepte H1 : on dit que la diffrence (p1 - p2) est significative au seuil de 5%. Pour quantifier la force de notre dcision, on peut alors donner le degr de signification p.

Polycopi de bio-statistique Facult de Mdecine de Montpellier-Nmes

62

Exemple: Dans un groupe de 200 malades, on a constitu par tirage au sort une srie soumise un nouveau traitement A et une srie soumise au traitement classique B. On a : Traitement A; nA=102; 20 checs soit pA=19,6% Traitement B; nB=98; 29 checs soit pB=29,6% Question pose : les traitements A et B ont-ils le mme taux dchecs ?
H0: PA = PB = P

Lhypothse nulle est celle de lgalit des pourcentages dchecs quel que soit le traitement. P est le pourcentage dchecs dans la population sous H0.
H1: PA PB.

test bilatral p =
20 + 29 = 24,5% 200

On calcule p :

Conditions de validit : 1020,245, 1020,755, 980,245, 980,755 tous suprieurs ou

gaux 5
On calcule lcart rduit observ :

0,196 0, 296 1 1 0, 245(1 0, 245 ) + 102 98

= 1,64

La diffrence nest pas significative, bien quelle puisse paratre importante (30% contre 20%). On ne rejette pas lhypothse nulle. On ne peut pas dire que les 2 traitements donnent des rsultats diffrents.
Si on avait observ les mmes proportions avec des effectifs 10 fois plus importants dans chaque groupe, lcart rduit serait gal 5,19: la diffrence serait significative (p<10-6). Dans ce cas, les deux groupes ayant t tirs au sort de la mme population et ne diffrant donc que par le traitement, la diffrence entre les taux dchec aurait t attribue au nouveau traitement. Le test est dautant plus puissant quil porte sur des effectifs importants, mais si la diffrence observe est importante, sa signification peut apparatre mme sur des effectifs faibles.

Polycopi de bio-statistique Facult de Mdecine de Montpellier-Nmes

63

II. TEST DU CHI DEUX EN SERIES INDEPENDANTES


II.1. INTRODUCTION

Le test du 2 permet de comparer deux pourcentages (comme le test de lcart-rduit) mais surtout il permet la gnralisation du test des variables qualitatives plus de 2 modalits. En effet, une variable comportant plus de deux modalits ne peut pas tre rsume par un seul pourcentage comme pour une variable dichotomique. Il faut considrer toute sa distribution de probabilit, cest dire les valeurs des pourcentages correspondant chacune de ses modalits (exemple : Variable couleur des cheveux quatre modalits : roux, blond, brun, noir).
II.2. COMPARAISON DUNE DISTRIBUTION OBSERVEE A UNE

DISTRIBUTION THEORIQUE

Cas le plus simple pour introduire le test du 2 : une variable qualitative deux modalits.
II.2.1. VARIABLE QUALITATIVE A DEUX MODALITES

On dispose de :

La frquence thorique (ou la valeur de rfrence) P dun caractre dans la population gnrale: Exemple: Pourcentage de prmaturs, la prmaturit correspondant une

variable qualitative deux modalits : prmaturit=oui/non,


La frquence observe p0 dans lchantillon, La taille de lchantillon n.

Le problme pos et les hypothses sont les mmes que dans le test de lcart rduit: On souhaite comparer un pourcentage observ p0 une valeur de rfrence P afin de savoir si la diffrence entre p0 et P peut tre attribue aux fluctuations dchantillonnage.
Les hypothses sont : H0: Lchantillon est tir au hasard dune population dans laquelle le pourcentage

est P= PH0.
H1 :

Bilatrale Unilatrale

P PH0 Soit P > PH0 (Soit P < PH0)


64

Polycopi de bio-statistique Facult de Mdecine de Montpellier-Nmes

Remarque : Lhypothse unilatrale P > PH0 est envisageable si la population des femmes de plus de 35 ans est connue pour avoir un taux de prmaturit suprieur la population gnrale (on fixe priori le sens de la diffrence attendue).
Plutt que de sintresser la frquence p0 du caractre dans notre chantillon, on va considrer les effectifs observs O1 et O2 dindividus prsentant ou non le caractre tudi. On a: O1 +O2 = n (effectif de lchantillon) Avec : O1 = n.p0 O2 = n.(1-p0)
Si HO est vraie, les effectifs attendus C1 et C2 (effectifs calculs ou thoriques) seraient :

C1 = n. PH0 C2 = n.(1 - PH0) Avec C1 + C2 = n On construit le tableau suivant : Malades Non malades Total

(Prmaturs)
Effectifs Observs Effectifs Thoriques O1 C1

(Non Prmaturs)
O2 C2 n n

Si H0 est vraie alors la distribution observe ne doit pas tre trop loigne de la distribution thorique. La technique du 2 distance ou lcart entre les deux distributions. Comment mesurer cette distance ?

permet de mesurer et dinterprter la

Mesure des carts (Oi - Ci) et somme des carts mais : (O1 - C1)+ (O2 - C2) = n-n = 0 Pour viter que les diffrences positive et ngative se compensent on peut considrer la somme des carts (Oi - Ci)2 mais cela reviendrait donner le mme poids une classe o O=105 et C=100 qu une autre classe o O=5 et C=10. La distance absolue

Polycopi de bio-statistique Facult de Mdecine de Montpellier-Nmes

65

est gale 25 dans les deux cas, alors que la distance relative est beaucoup plus grande dans le deuxime. Finalement la meilleure faon de mesurer la distance entre les deux distributions est la
distance du chi deux (2): 2 2 (O C ) 2 2 = ( O 1 C1 ) + ( O 2 C 2 ) = i i C1 C2 C i

Quelle probabilit a t-on, si H0 est vraie, de trouver un rsultat gal ou suprieur cette valeur ?
Conditions de validit du test : Le test du 2 nest applicable que pour des chantillons de

taille suffisante. En pratique il faut que C1 5 et C2 5 On peut montrer que, sous H0, si l'chantillon est assez grand, la quantit :
( O 1 C1 ) 2 ( O 2 C 2 ) 2 + C2 C1

suit une loi de probabilit dite loi du 2 qui est tabule (cf. table du 2 en annexe) un degr de libert.
Nombre de degr de libert :

Connaissant leffectif total n, si la composition attendue de l'chantillon est parfaitement dfinie par un seul des effectifs thoriques, le nombre de degr de libert sera gal 1.
Lecture de la table : La table du 2 s'utilise comme celle de lcart rduit.

A 1 ddl on va conclure en utilisant le seuil conventionnel =0,05: Si 2 < 21ddl,=0,05=3,84 p > 0,05 Si 3,84 2 p 0,05 on accepte H0 on rejette H0 au seuil de 5%, et on accepte H1.

Dans ce cas on peut donner le degr de signification du test : Si 2 =6,63 alors p=0,01 p=0,001
66

Si 2 =10,83 alors

Polycopi de bio-statistique Facult de Mdecine de Montpellier-Nmes

Relation entre test du 2 et test de l'cart-rduit :

La loi du 2 un degr de libert est le carr de la loi normale centre rduite:


2 prob(||1,96)=0,05 prob(21,962=3,84 = 1ddl )=0,05

A titre indicatif :

2 =

( p P )2
0 HO

PHO (1 PHO ) n (np 0 nPHO ) 2 [n(1 p 0 ) n(1 PHO )]2 (O C1 ) 2 (O C 2 ) 2 = + = 1 + 2 = 2 nPHO nPHO C1 C2

= n( p 0 PHO ) 2

1 PHO + (1 PHO ) 1 = n( p 0 PHO ) 2 + PHO (1 PHO ) (1 PHO ) PHO

Exemple:

La proportion considre comme habituelle de nouveau-ns prmaturs est de 4%. Parmi les 170 femmes de plus de 35 ans ayant accouch dans une maternit, on a observ 16 naissances prmatures (soit 9,4%). Ce chiffre est-il diffrent de la norme? Les hypothses sont les mmes que lors de la ralisation du test de lcart rduit. Le tableau de calcul du 2 est : Naissance prmature oui Effectifs Observs Effectifs Thoriques
Conditions de validit : 16 170 0,04=6,8

non
154 1700,96=163,2

Total 170 170

Les conditions d'application du test sont satisfaites puisque les effectifs calculs sont suprieurs 5. On obtient : 2 =
(154 163,2) 2 (16 6,8) 2 + = 12,96 163,2 6,8 d ' o

2 = 3,6 2

Polycopi de bio-statistique Facult de Mdecine de Montpellier-Nmes

67

Conclusion :

Test bilatral : Cette valeur tant suprieure 3,84, on conclut au rejet de H0. Le pourcentage de prmaturs chez les femmes de plus de 35 ans ayant accouch la maternit est diffrent de 4% (au seuil de 5%). On peut prciser le degr de signification : La table du 2 lue la ligne ddl=1 indique Prob(2> 10,827) = 1 on a 12,96 > 10,827 , donc le degr de signification p < 1.

Hypothse unilatrale ( H1 : P > 0,04) : La valeur du 2 est la mme mais pour conclure au seuil de = 5%, il faut lire la valeur du 2 dans la colonne 2 = 10%, on lit 2,71. La diffrence est donc significative : le degr de signification est divis par deux soit p<0,5. Avant de conclure, il faut se fonder non seulement sur la valeur lue dans la table mais aussi regarder o se situe p0 par rapport PH0.
II.2.2. GENERALISATION : VARIABLE QUALITATIVE A K MODALITES (K > 2)

Dans le cas de variables k modalits avec k > 2, le test de lcart rduit ne peut pas tre utilis.

Exemple : La rpartition des groupes sanguins dans la population franaise est la suivante : groupe O : 45%, groupe A : 44%, groupe B : 8%, groupe AB : 3%. Dans un chantillon de 1000 sujets reprsentatif de la population d'une ville, on observe 487 sujets du groupe O, 390 du groupe A, 84 du groupe B et 39 du groupe AB. La rpartition des groupes sanguins dans cet chantillon est-elle diffrente de la rpartition dans la population franaise ?
Type de problme : Il sagit ici de comparer simultanment plusieurs pourcentages ou

plus prcisment de comparer 2 distributions.


Hypothses nulle et alternative :

Le problme est de savoir si l'cart entre la distribution observe sur l'chantillon et la distribution de rfrence peut tre attribu aux fluctuations dchantillonnage, ou s'il s'agit d'une relle diffrence entre ces 2 distributions. Soient Ph1 ,..., Phk , les pourcentages de la distribution de rfrence.
Polycopi de bio-statistique Facult de Mdecine de Montpellier-Nmes

68

Soient P1 ,..., Pk , les valeurs des pourcentages de la population d'o est extrait l'chantillon.
H0 :

Ph1 = P1 ,

Ph2 = P2, , Phk = Pk

H1 : Une, au moins, des galits n'est pas vraie

Soient O1, O2...........Ok les effectifs observs dans chacune des k classes (ou modalits de la variable) sur un chantillon de N sujets. Si H0 est vraie, les effectifs attendus sont : C1 =n Ph1 , C2 =n Ph2.. ,Ck =n Phk On construit le tableau suivant: Total Effectifs Observs Effectifs Thoriques
Conditions de validit :

O1 C1

O2 C2

................ Ok ................ Ck

n n

Ci =1 k 5

Le test du Chi-deux nest applicable que si les effectifs thoriques sont tous suprieurs ou gaux 5.
Ralisation du test : Si H0 est vraie et si la taille de l'chantillon est assez grande, la

quantit suivante :
(O 1 C1 ) 2 (O 2 C 2 ) 2 (O C k ) 2 + + .... + k C1 C2 Ck

suit une loi de 2 (k-1) ddl.

Pourquoi (k-1) degr de libert ? Il suffit de calculer k-1 effectifs thoriques pour connatre le dernier par diffrence avec le total N.

(2k 1)ddl =
i =1

(O i C i ) 2 Ci

La valeur obtenue sera compare la valeur seuil lue dans la table pour (k-1) ddl au risque
choisi.

Polycopi de bio-statistique Facult de Mdecine de Montpellier-Nmes

69

Exemple: Sous H0, le tableau de calcul du 2 est : Groupe sanguin O Effectifs observs Effectifs calculs 487 450 A 390 440 B 84 80 AB 39 30 1000 1000

Les effectifs calculs sont tous suprieurs ou gaux 5. On peut effectuer le test du 2:
2 2 2 2 2 = ( 487 450 ) + ( 390 440 ) + ( 84 80 ) + ( 39 30 ) = 11,62 450 440 80 30

avec (k-1) = 3 ddl Cette valeur est suprieure 7,81 (valeur seuil au risque de 5% pour 3 ddl). La diffrence est donc significative, le degr de signification est p < 1%. En conclusion, on rejette l'hypothse que, dans la population d'o est issu l'chantillon, la rpartition des groupes sanguins est : 45%, 44%, 8%, 3%. La population de la ville est significativement diffrente de la population nationale en ce qui concerne les groupes sanguins.
II.3. COMPARAISON DE PLUSIEURS DISTRIBUTIONS OBSERVEES :

En fait, le test du 2 permet danalyser simultanment tous les chantillons et toutes les modalits : cest une mthode gnrale danalyse dun tableau de contingence k lignes et r colonnes. Il permet donc de comparer plusieurs distributions observes.
II.3.1. COMPARAISON DE DEUX DISTRIBUTIONS OBSERVEES

Nous allons dvelopper le cas le plus simple partir de lexemple suivant : Des patients atteints de la mme maladie ont t traits par 2 traitements diffrents. Parmi les 70 qui ont reu le traitement 1, 22 (soit 31,4%) ont guri et parmi les 50 qui ont reu le traitement 2, 25 (soit 50%) ont guri. Le taux de gurison est-il diffrent entre les 2 traitements ?
Problme pos

On a observ un pourcentage P1 de patients guris sur un chantillon de n1 sujets traits par le traitement 1 et un pourcentage P2 de patients guris sur un chantillon de n2 sujets traits par le traitement 2.
Polycopi de bio-statistique Facult de Mdecine de Montpellier-Nmes

70

On veut savoir si la gurison est lie au traitement reu, ou si la diffrence observe entre P1 et P2 peut tre attribue aux fluctuations dchantillonnage. Soient P1 et P2 les pourcentages dans les populations dont sont issus les chantillons
Hypothses

Hypothse nulle H0 :

P1 = P2 bilatrale Soit P1 > P2 unilatrale


O 11 O et P2 = 21 n1 n2

Hypothses alternative H1: P1 P2 Soit P1 < P2

Les pourcentages observs de patients guris sont : P1 =

A partir des pourcentages observs p1 et p2 et des effectifs n1 et n2 de sujets traits et non traits, il est possible de construire le tableau de contingence des effectifs observs :
Traitement 1 Traitement 2 Guris Non guris O11 O12 O21 O22

m1 m2 n

n1

n2

n1, n2, n1, n2 sont appels effectifs marginaux. La rpartition thorique du taux de gurison dans la population do sont issus les chantillons sous H0 n'est pas connue.
Principe du calcul du chi-2 :

Si les taux de gurison ne varient pas en fonction du traitement administr, alors la distribution patients guris/non guris dans la population des sujets traits par 1 sera la mme que celle des sujets traits par 2 et la mme que la distribution dans lensemble de la population traite.
Calcul des effectifs thoriques : Sous lhypothse nulle:

La meilleure estimation du pourcentage de gurison sur lensemble de la population des sujets traits est P = m1 (on runit les deux chantillons). n
71

Polycopi de bio-statistique Facult de Mdecine de Montpellier-Nmes

Si les taux de gurison sont les mmes dans les 2 populations dfinies par le traitement administr, on peut calculer les effectifs thoriques dans les 2 chantillons et construire le tableau de contingence de ces effectifs thoriques : Traitement 1 Traitement 2 Guris Non guris C11 C12 n1 C21 C22 n2 m1 m2 n

Avec : C11 = n1 En fait :

m1 m m m , C 21 = n 2 1 , C12 = n 1 2 , C 22 = n 2 2 n n n n
Total colonne j) / Total gnral

Cij = (Total ligne i

Si H0 est vraie, les effectifs observs fluctuent autour des effectifs calculs. Le test repose sur la comparaison des deux tableaux. La quantit (O i C i ) 2 permet de mesurer la distance entre les deux tableaux et suit C i =1 i
4

une loi du 2 1 ddl (Connaissant les effectifs marginaux, il suffit en fait de calculer un seul des effectifs thoriques, pour dduire les trois autres). Conditions de validit et ralisation du test : Le test ne sapplique que si tous les effectifs calculs Cij 5. On calcule:
=

(O i C i ) 2 C i =1 i
4

Si la valeur du 2 est suprieure la valeur seuil correspondante au risque choisi on rejette lhypothse nulle et on dtermine le degr de signification.
Dans notre exemple :

Le tableau de contingence en effectifs Observs est :


Traitement 1 Guris Non guris 22 48 Traitement 2 25 25

47 73 120
72

70
Polycopi de bio-statistique Facult de Mdecine de Montpellier-Nmes

50

Le tableau des effectifs thoriques est :

C11 =

47 70 120

C 21 =

47 50 120
Traitement 1

C12 =

73 70 120
Traitement 2 19,6 30,4 50

C 22 =

73 50 120

Guris Non guris

27,4 42,6 70

47 73 120

Les effectifs thoriques tant tous suprieurs ou gaux 5, on calcule :


2 =

( 22 27,4 ) 2 ( 25 19,6 ) 2 ( 48 42,6 ) 2 ( 25 30,4 ) 2 + + + =4,2 30,4 42,6 19,6 27,4

Cette valeur est suprieure 3,84 (valeur seuil pour 1 ddl), la diffrence est significative. En consultant la table du 2, on voit que le degr de signification p est infrieur 0,05. Les taux de gurison obtenus avec les deux traitements sont diffrents (test bilatral). Pour l'interprtation clinique des rsultats, on se reportera aux pourcentages de gurison observs. On conclut alors le taux de gurison est suprieur avec le traitement 2 (bien qu'il s'agisse thoriquement d'un abus de langage : cette conclusion correspondant en fait un test unilatral).

II.3.2. CAS DE PETITS ECHANTILLONS


Lorsque les effectifs sont trop petits, les conditions de validit du test 2 ne sont plus respectes.

Si un des Ci< 5, le 2 nest plus applicable. D'autres tests peuvent tre utiliss : 1 - Chi-2 corrig de Yates :
Lorsque les effectifs ne sont pas trs petits et uniquement pour les variables 2 modalits, on peut utiliser le 2 corrig de Yates qui suit, si H0 est vraie, une loi de 2 1ddl.

1 O i Ci 4 2 2 c = Ci i =1
Conditions de validit :

Au moins un des Ci < 5 et tous les Ci 3


73

Polycopi de bio-statistique Facult de Mdecine de Montpellier-Nmes

2 - Mthode exacte de Fisher :


Lorsqu'au moins un des effectifs thoriques Ci 3, le 2 corrig de Yates nest plus applicable. On a alors recours au test exact de Fisher, plus complexe sur le plan numrique. Le test exact de Fisher est valide quelques soient les effectifs thoriques. Nous ne le dtaillerons pas ici. Il est gnralement donn dans les logiciels danalyse statistique. Son interprtation est la mme que celle des tests prcdents.

II.3.3. GENERALISATION
Les calculs ci-dessus se gnralisent un nombre quelconque de modalits et un nombre quelconque de populations. Le tableau de contingence est construit avec r lignes (nombre de modalits de la variable) et k colonnes (nombre de dchantillons comparer). Ech 1 mod 1 variable mod 2 ... mod r n11 n12 ... n1r n1. Ech 2 n21 n22 ... n2r n2. Ech 3 n31 n32 ... n3r n3. ... ... ... ... ... ... Ech k nk1 nk2 ... nkr Nk. n.1 n.2 ... n.r n

Les effectifs thoriques Ci se calculent comme au paragraphe prcdent.

Nombre de d.d.l. : Les effectifs marginaux nij sont fixes. Les effectifs observs dans les
diffrentes cases ne sont pas indpendants, il suffit de connatre (k-1)(r-1) effectifs pour obtenir le tableau complet. Le nombre de degr de libert sera donc gal (k-1)(r-1).

On a :

2 ( k 1 )( r 1 ) ddl

=
l =1

r*k

(O l Cij ) 2 C ij

Exemple : Comparaison des ractions tuberculiniques produites par 2 vaccins BCG (A et B). Un groupe d'enfants a t divis par tirage au sort en 2 groupes. Les rsultats des vaccinations ont pu tre obtenus pour 348 enfants.
Question pose : le mode ractionnel diffre-t-il en fonction du vaccin ?

Polycopi de bio-statistique Facult de Mdecine de Montpellier-Nmes

74

Le tableau de contingence est le suivant (effectifs thoriques entre parenthses) : Ractions lgre
BCG A 12 (20,9) BCG B 29 (20,1) Total 41

moyenne
156 (148) 135 (143) 291

ulcration
8 (7,1) 6 (6,9) 14

abcs
1 (1,0) 1 (1,0) 2

Total
177

171

348

Les effectifs thoriques de la catgories "abcs" sont infrieurs 3 (2 et correction de Yates non valides). Une autre possibilit est de regrouper les classes "ulcrations" et "abcs" (si cela a un sens sur le plan clinique, sinon il faut faire un test exact de Fisher). Ractions lgre
BCG A 12 (20,9) BCG B 29 (20,1) Total 41

moyenne
156 (148) 135 (143) 291

ulcration ou abcs
9 (8,1) 7 (7,9) 16

Total
177

171

348

Le nombre de ddl est (2-1)(3-1) = 2 ddl

(12 20,9 ) 2 ( 29 20,1) 2 ( 7 7,9 ) 2 2 + + . . . .+ 2 ddl = = 8,8 20,9 20,1 7,9


La valeur lue dans la table au seuil de 5% pour 2 ddl est de 5,99. On rejette don l'hypothse nulle avec un risque d'erreur infrieur 5%. Le degr de signification est compris entre 0,02 et 0,01. Les 2 vaccins ne provoquent pas les mmes ractions. Il est intressant de prciser le sens de la diffrence observe : le vaccin A entrane plus de fortes ractions que le vaccin B.
Remarque : Plus les effectifs sont importants et plus la liaison sera facilement dtecte avec un faible risque d'erreur ( petit). Une diffrence fortement significative ne signifie pas que la 2 diffrence est importante. Le test du ne constitue pas une mesure de l'intensit de la liaison entre 2 variables qualitatives.

Ce test du Chi-Deux teste mme lindpendance entre 2 variables.


Polycopi de bio-statistique Facult de Mdecine de Montpellier-Nmes

75

REFERENCES
Bouyer Jean - 'Mthodes statistiques-Mdecine-Biologie'. Editions INSERM

EN RESUME
Pour comparer 2 pourcentages, on peut utiliser le test de l'cart-rduit ou le test du chi-2. La comparaison de k pourcentages (k > 2) ne peut se faire qu'en utilisant le test du chi-2 (k-1) degrs de libert :

(2k 1)ddl =
i =1

(O i C i ) 2 Ci

Conditions de validit du chi-2 : Effectifs thoriques, Ci, tous suprieurs ou gaux 5. Si les conditions de validit du chi-2 ne sont remplies, on utilisera le Chi-2 corrig de Yates pour les variables 2 modalits et si tous les Ci 3. Dans tous les autres cas, on aura recours au test exact de Fisher.

Le chi-2 permet galement de tester l'indpendance entre 2 variables qualitatives.

Polycopi de bio-statistique Facult de Mdecine de Montpellier-Nmes

76

CHAPITRE VI VARIABLES QUANTITATIVES COMPARAISON DE MOYENNES

Ce chapitre est consacr un problme frquent dans le domaine de la Sant : la comparaison de deux moyennes.

Exemple : on peut vouloir comparer les moyennes dge de deux groupes de sujets (malades et non malades), de la mme faon on peut comparer des moyennes de tension artrielle, glycmie, dosages biologiques
Ce chapitre comprend les comparaisons de 2 moyennes :

La comparaison dune moyenne observe une valeur thorique, La comparaison de deux moyennes sur des chantillons indpendants, La comparaison de deux moyennes sur des chantillons apparis.

La comparaison de plus de deux moyennes fait appel une mthode particulire : lanalyse de variance qui sera juste introduite en fin de chapitre.

I. COMPARAISON DUNE MOYENNE OBSERVEE A UNE VALEUR THEORIQUE


Exemples : On dispose dun chantillon de 400 adultes jeunes de sexe masculin, la moyenne de leur taille (variable x) est m = 172,23 cm avec un cart - type des tailles observes s = 2,50 cm. On se demande si cet chantillon est reprsentatif de la population gnrale, o la taille moyenne est H0 = 171,33 cm. on a prlev un chantillon de n paquets de tabac dans la production dune machine empaqueter. On se demande si la moyenne de poids observe m est compatible avec lhypothse que la machine fabrique en moyenne des paquets de 40g ?

Polycopi de bio-statistique Facult de Mdecine de Montpellier-Nmes

77

Dans ces exemples, on veut savoir si la moyenne observe sur un chantillon diffre dune valeur de rfrence. En pratique, il sagit assez frquemment de vrifier quun chantillon est comparable ou reprsentatif de la population gnrale.

I.1. RAPPEL : LA MOYENNE DUN ECHANTILLON RANDOMISE EST UNE VARIABLE ALEATOIRE
On extrait un chantillon de n sujets dune population dindividus o la variable X (de moyenne ), obit une certaine loi de probabilit ; on obtient, sur lchantillon, la moyenne m de la variable X. Si on recommence un grand nombre de fois lopration (extraction dchantillons de taille n), on obtient une srie de valeurs de m, la plupart proches de , dessinant la loi de probabilit de m ; on peut parler de distribution des moyennes. On dmontre que la distribution des moyennes m est lie la distribution de la variable X dans la population des individus de la manire suivante :

Moyenne : la variable m a la mme valeur moyenne que la variable X, cest dire que lon a m = .

Variance : la variance de la moyenne m est lie la variance de la quantit X par la relation : m2 = 2/n.

Cette relation montre que la variabilit de m est infrieure la variabilit de X, et quelle est dautant plus faible que lchantillon est plus grand. Cest l un rsultat intuitif ; les variations individuelles disparaissent dans une moyenne et lui confrent une relative stabilit ; lorsque leffectif de lchantillon n est grand, m devient trs voisine de et sa variabilit devient minime (donc la variance de m, 2/n diminue).

Loi de probabilit : La loi de probabilit de m dpend naturellement de la loi de


probabilit de X. Mais on montre que, quelque soit la distribution de la variable X et condition que n soit assez grand, m suit approximativement une loi normale (ou de Laplace-Gauss) de moyenne et de variance 2/n, o n reprsente le nombre de sujets par chantillon. Donc, lorsque leffectif de lchantillon tend vers linfini, la loi de probabilit de m tend vers une loi normale. Elle y tend dautant plus vite que la distribution de x est plus proche dune distribution normale.

Polycopi de bio-statistique Facult de Mdecine de Montpellier-Nmes

78

Que signifie n grand pour que lapproximation par la loi normale soit licite ? On considre que, pour la plupart des variables quantitatives rencontres dans le domaine biomdical, lapproximation est raisonnable pour n 30.

I.2. LES 2 HYPOTHESES : NULLE ET ALTERNATIVE


On note :

m la moyenne observe dans lchantillon,

la moyenne vraie dans la population dont est issu lchantillon, o lon observe m, H0 la valeur thorique laquelle on veut comparer m.

Comparer une moyenne m la valeur thorique H0 revient savoir si la diffrence entre la moyenne observe m et la moyenne thorique H0 est attribuable aux fluctuations dchantillonnage ou correspond une diffrence relle entre H0 et une valeur dont m est lestimation. On a alors deux possibilits (ou hypothses) :

Hypothse nulle :
H0 : = H0 lchantillon est reprsentatif dune population o la moyenne est H0 et m est lestimation de H0. la diffrence |m-H0| est petite, on peut considrer quelle est le fruit des fluctuations dchantillonnage

Hypothse alternative :
Selon le test

en test bilatral : H1 : H0 en test unilatral : H1 : soit > H0 soit < H0

lchantillon nest pas reprsentatif dune population o la moyenne est H0. Ce qui veut dire que lon a : soit un chantillon dune population diffrente, soit un chantillon dun sous groupe de la population de moyenne ( H0). la diffrence |m-H0| est grande ; elle ne peut gure tre explique par les fluctuations dchantillonnage.
Polycopi de bio-statistique Facult de Mdecine de Montpellier-Nmes

79

La comparaison de la moyenne m la valeur H0 revient savoir si |m-H0| est grande ou petite. Si elle est petite : lhypothse H0 ne peut tre rejete. Si elle est grande : on rejette H0 et on accepte H1. Il faut maintenant fixer ce que lon va appeler petit ou grand

H0

Pop Thorique

Pop estime

au hasard

Echantillon (m,

I.3. PRINCIPE DES CALCULS


Soit un chantillon de taille n reprsentatif dune population pour une variable X. Les observations faites sur cet chantillon sont : x1,, xn. La moyenne observe est : m =

x
n

On suppose que la variable X suit une loi normale, de moyenne et de variance 2.


On sait alors que, quelle que soit la taille de lchantillon, m suit une loi normale de moyenne et de variance 2/n. Si H0 est vraie :

est gale H0,


lcart rduit =
m H0 2 n

suit une loi normale centre rduite (moyenne = 0, cart-type=1)

On suppose que la variable X suit une loi normale, de moyenne mais 2 est inconnue.
Le plus souvent on ne connat pas 2 (variance de la variable x dans la population), mais on dispose de son estimation s observe daprs lchantillon : s =
2 2

(x

mx i ) 2

n 1

On montre que, lorsque X suit une loi normale, m suit une loi drive de la loi normale. Lcart rduit t =
m H0 S2 n

suit alors une loi de Student n-1 ddl, avec

Polycopi de bio-statistique Facult de Mdecine de Montpellier-Nmes

80

Si la distribution de X nest pas normale, il ny a pas de moyen de comparer deux


moyennes qui convienne toutes les situations. Cependant, ds que lchantillon est grand (en pratique n30), la loi de Student peut tre assimile une loi normale, et s2 est une bonne approximation de 2.

I.4. EN PRATIQUE
Si n est grand : n 30 : Quand lchantillon est grand, lapproximation par la loi normale permet dviter lhypothse de normalit. Le test consiste calculer la quantit observe sur lchantillon et la comparer la valeur seuil au risque : u de la loi normale centre rduite, avec =
m H0 s2 n

Linterprtation du test est la suivante :


Test bilatral : On rejette H0 si || u Pour un seuil = 0,05, u=1,96, on rejette H0 si || 1,96 Test unilatral : H1 : >H0 on rejette H0 si u2

Pour un seuil = 0,05, u2 = 1,645, on rejette H0 si 1,645 H1 : <H0 on rejette H0 si u1-2 (= - u 2)

Pour un seuil = 0,05, -u2 = -1,645, on rejette H0 si -1,645


Remarque : quand lchantillon est grand, les deux tests (t ou ) peuvent tre utiliss et aboutissent des rgles de dcision identiques.

Si n est petit : n< 30 :

Si la distribution de X est normale :


Le test consiste calculer la quantit t observe sur lchantillon et la comparer la valeur seuil au risque : tn-1, de la loi de Student (n-1) ddl, avec t =
m H0 s2 n

Linterprtation du test est la suivante :


t n-l; : est la valeur lue dans la table de Student n 1 ddl Test bilatral : On fixe comme seuil = 0,05.
Polycopi de bio-statistique Facult de Mdecine de Montpellier-Nmes

81

Si |t| < t n-l; 0,05 : m ne diffre pas systmatiquement de H0. On ne rejette pas H0. Attention, rappelons que le fait de ne pas rejeter H0 ne signifie pas qu'elle est forcment vraie. Cela signifie seulement que l'information dont on dispose ne permet pas de la rejeter. Si |t| t
n-l; 0,05

la diffrence entre m et H0 est dite significative : on rejette H0 avec une

probabilit quelle soit vraie infrieure 5 %. On peut prciser le degr de signification correspondant la valeur t observe. Plus la probabilit que lhypothse nulle soit vraie diminue, plus on a confiance pour la rejeter. Test unilatral : H1 : > H0, on rejette H0 si t t n-l; 2 donc, si t t n-l; 0,10 m est significativement suprieure H0 au seuil = 0,05 H1 : < H0, on rejette H0 si t t n-l; 1-2 (= -t n-l; 2) donc , si t -t n-l; 0,10 m est significativement infrieure H0 au seuil = 0,05

Si la distribution de X nest pas normale :


On ne peut pas utiliser le test de Student. Il ny a pas de moyen qui convienne toutes les situations.

1.5. LIRE LA TABLE DE STUDENT


Il ny a pas une loi de Student mais une infinit qui diffrent par leur degr de libert (ddl).

Exemple : Pour un chantillon de taille n = 10 tir dune population o la moyenne est et la variance est inconnue. On lit dans la table de Student n 1 = 9 ddl que lcart t a : 5 % de probabilit datteindre ou de dpasser 2,262 1 % de probabilit datteindre ou de dpasser 3,250 1 de probabilit datteindre ou de dpasser 4,781
En examinant la table de Student on constate : Que les valeurs lues pour une probabilit donne sont toujours plus grandes que celles lues dans la table de la loi normale centre rduite. Que la diffrence entre les valeurs lues dans la table de la loi normale et celles lues dans la table de Student tend vers zro, quand le nombre de degr de libert tend vers linfini. A partir de 30 ddl, la diffrence est ngligeable et on peut se contenter de la table de la loi normale.
Polycopi de bio-statistique Facult de Mdecine de Montpellier-Nmes

82

I.6. EXEMPLES
On dispose dun chantillon de 400 adultes jeunes de sexe masculin, la moyenne de leur taille est de m = 172,23 cm avec un cart-type des tailles observes de s = 2,50 cm. On se demande si cet chantillon est reprsentatif de la population gnrale, o la taille moyenne est H0 = 171,33 cm, est reprsentatif signifie que la variable dans lchantillon a la mme distribution que dans la population. On pose : H0 : l'chantillon est reprsentatif de la population gnrale o la taille moyenne est 171,33 cm. = H0 (171,33) H1 : l'chantillon nest pas reprsentatif de la population gnrale, soit il provient d'une autre population, soit il sagit dun sous groupe de la population tudie non reprsentatif H0. (La distribution de la variable tudie dans lchantillon nest pas reprsentative de celle de la population. On calcule = 172,23 171,33 2,50 2 400 = 7,2 et on compare la valeur lue dans la table de la loi

normale. On trouve ( = 7,2) > (u0,001 = 3,29). Conclusion : on rejette H0, m nest pas lestimation de H0. On peut considrer que cet chantillon nest pas reprsentatif de la population. Pour la variable tudie, le degr de signification est p > 0,001. Le mme problme que le prcdent est pos avec les mmes donnes, mais leffectif de lchantillon dont on dispose nest que de 16 sujets. Pour avoir le droit de rsoudre ce problme, il faut vrifier si la distribution du poids suit une loi normale dans la population (en pratique on regarde si lhistogramme du caractre dans lchantillon est assez proche dune forme en cloche : unimodal et symtrique). Si oui, on peut poser les hypothses qui sont les mmes que prcdemment et calculer : t= 172,23 171,33 2,5 2 16 = 1,44

Polycopi de bio-statistique Facult de Mdecine de Montpellier-Nmes

83

Cette valeur doit tre compare aux valeurs donnes dans la table de Student n 1 = 15 ddl, Or t = 1,44 < t15, 0,05=2,131. Conclusion : On ne rejette pas H0, la diffrence entre m et H0 peut tre le reflet de simples fluctuations dchantillonnage, la probabilit que H0 soit vraie est suprieure 0,05. Le nombre de sujets de lchantillon conditionne la variabilit des rsultats. Si lchantillon est petit, une grande diffrence peut tre le simple reflet de cette variabilit, aucune conclusion nest possible. Lchantillon doit tre suffisamment grand pour permettre des conclusions avec une puissance convenable, do la ncessit de calculer avant toute tude un nombre de sujets qui garantira la possibilit de mettre en vidence la diffrence minimum cliniquement intressante.

II. COMPARAISON DE DEUX MOYENNES OBSERVEES SUR DES ECHANTILLONS INDEPENDANTS.


Echantillons indpendants signifie que les deux chantillons sont composs de sujets diffrents et que les caractristiques des sujets de lun sont indpendantes de celles des sujets de lautre (dans la ou les populations dont ils sont tirs). Exemple : On veut comparer le primtre crnien moyen dun chantillon de 82 nouveauns prmaturs (ns avant terme, mais de dveloppement normal) m1 = 30,06 celui dun chantillon de 87 nouveau-ns dysmatures (de dveloppement intra-utrin retard par rapport au terme), m2 = 30,72. Ces deux moyennes sont elles diffrentes ? On veut savoir si la diffrence observe entre m1 et m2 est attribuable aux fluctuations dchantillonnage ou correspond une diffrence relle entre les valeurs vraies dans les populations do sont issus les chantillons. On note 1 et 2 les moyennes vraies dans les populations do sont issus les deux chantillons.

II.1. LES 2 HYPOTHESES : NULLE ET ALTERNATIVE Hypothse nulle :


H0 : 1 = 2 = Les deux chantillons sont issus dune mme population o la moyenne thorique est .

Polycopi de bio-statistique Facult de Mdecine de Montpellier-Nmes

84

Dans ces conditions la diffrence m1 m2, ne peut tre que leffet de fluctuations dchantillonnage.

Hypothse alternative :
Selon le test : En test bilatral : H1 : 1 2 En test unilatral : soit H1 : 1 > 2 soit 1 < 2

Les deux chantillons sont tirs de deux populations distinctes o les moyennes sont respectivement 1 et 2.

II.2. PRINCIPE DES CALCULS


Soit deux chantillons deffectif n1 et n2, tirs au sort dans chacune des populations que lon veut comparer, soit m1, m2, s21 et s22 les moyennes et variances observes dans les deux chantillons. Cas de grands chantillons : N1 30 et N2 30 Si H0 est vraie : m1 suit approximativement une loi normale de moyenne 1 et de variance 12/n1 m2 suit approximativement une loi normale de moyenne 2 et de variance 22/n2 la diffrence m1 m2 suit aussi approximativement une loi normale, de moyenne : 1 - 2 = 0 et de variance 2 = 12/n1 + 22/n2 (la variance de la diffrence est gale la somme des variances). Donc lcart rduit =
1 2
2 1 2 + 2 n1 n 2

suit approximativement une loi normale centre rduite

avec Comme n1 et n2 sont grands, s12 et s22 sont de bonnes approximations de 12 et de 22, de sorte quon peut remplacer 12 et 22 par leurs estimations, et m1 est lestimation de 1 et m2 est lestimation de 2.
Polycopi de bio-statistique Facult de Mdecine de Montpellier-Nmes

85

Le test consiste donc : calculer la quantit =


m1 m 2
2 s1 s 2 + 2 n1 n 2

comparer la valeur seuil u lue dans la table de la loi normale centre rduite. La table nous donne le degr de signification p correspondant calcul En test bilatral : En test unilatral : on rejette H0 si || u H1 : 1 >2 on rejette H0 si u 2 H1 : 1 <2 on rejette H0 si u 1-2 (= - u2)

Ce test ne ncessite aucune condition dapplication autre que n1 et n2 30. Il repose cependant sur lapproximation des distributions des moyennes m1 et m2 par la loi normale, acceptable pour de grand chantillons. au moins un chantillon est petit : N1 et/ou N2 < 30 : Test de Student. Dans ce cas, lapproximation par la loi normale nest plus possible, et le test prcdent nest plus applicable. Il faut utiliser le test de Student.
1er cas : les distributions des variables sont normales et les variances gales 12 = 22

Ceci implique avant deffectuer le test de comparaison de moyennes, de procder deux vrifications : Distribution normale du caractre : on se contente de vrifier que dans les deux chantillons, le caractre prsente un histogramme unimodal et raisonnablement symtrique (en cloche). On vrifie que les deux variances observes s12 et s22 ne sont pas significativement diffrentes. Il existe des tests pour vrifier les deux hypothses prcdentes, mais leur dfinition et leur application dpassent lobjectif de ce cours. En admettant que ces deux conditions soient vrifies, on peut alors calculer s2 qui est lestimation de la variance commune aux deux chantillons : Cette estimation est donne par la formule suivante qui pondre s12 et s22 par leur nombre de degr de libert.
s2 =
2 (n 1 1)s1 + (n 2 1)s 2 ( x i m1 ) 2 + ( x i m 2 ) 2 2 = n1 + n 2 2 n1 + n 2 2

Polycopi de bio-statistique Facult de Mdecine de Montpellier-Nmes

86

Le test de Student consiste alors calculer la quantit t =

m1 m 2 1 1 s n + n 2 1
2

, qui lorsque que

H0 est vraie suit une loi de Student n1+n2-2 ddl, avec : On compare la valeur de t la valeur seuil de la loi de Student (n1+n2-2) ddl. La rgle de dcision du test reste toujours identique.
2nd Cas : Comparaison de deux moyennes quand les conditions dapplication du test t ne sont pas satisfaites.

Lorsque la distribution de X nest pas normale ou lorsque les variances ne sont pas gales, le test t de student nest en principe, plus applicable. Le test t, qualifi de robuste, reste cependant approximativement correct dans certaines conditions, dont la prsentation va au del des objectifs de ce cours. Il faut savoir que : On peut procder par changement de variables (ex : remplacer x par log(x) ou par x2) pour normaliser la distribution ou galiser les variances. On peut galement utiliser des tests non paramtriques (moins puissants, mais moins exigeants sur les conditions dapplications). 2.3. Exemples
Exemple quand n1 et n2 sont > 30.

On veut comparer le primtre crnien moyen dun chantillon de 82 nouveau-ns prmaturs (ns avant terme, mais de dveloppement normal) m1 = 30,06 variance s12 = 2,04 ; celui dun chantillon de 87 nouveau-ns dysmatures (de dveloppement intrautrin retard par rapport au terme), m2 = 30,72 variance s22 = 1,96. On pose : H0 : Les primtres crniens moyens des populations dont sont tirs les deux chantillons de nouveau-ns sont identiques : 1=2= H1 : Le primtre crnien moyen de la population des nouveau-ns prmaturs est diffrent de celui de la population des nouveau-ns dysmatures. 12 Pour savoir si les moyennes diffrent entre les deux groupes, on utilise lapproximation par la loi normale puisque les effectifs sont assez grands.
Polycopi de bio-statistique Facult de Mdecine de Montpellier-Nmes

87

On calcule =

30,72 30,06 = 2,14 qui doit tre compar la valeur lue dans la table 2 2,04 2 1,96 + 87 82

de la loi normale On trouve : u0,05 = 1,96 < 2,14< u0,01=2,58. Conclusion : On rejette H0, la diffrence m1 m2 est dite significative car en examinant la table, on constate que le degr de signification p est de lordre de 3 %. Exemple quand n1 et/ou n2 sont < 30.. Un laboratoire pharmaceutique produit des tubes de pommade dont les poids ont une distribution normale. On dispose de deux chantillons de contrle de 8 et 9 tubes, on veut savoir si les poids des tubes des deux chantillons diffrent. Les poids sont donns dans le tableau ci-aprs : Echantillon 1 Echantillon 2 On pose : H0 : Les deux chantillons de tubes proviennent d'une mme population o la moyenne des poids des tubes est : 1=2= H1 : Les deux chantillons ne proviennent pas d'une mme population : 12 On trouve : Echantillon 1 : Echantillon 2 : n1 = 9 m1 = 56,32 xi=506,9 xi2=28 572,45 donc s12 = 2,839 n2 = 8 m2 = 58,71 xi=469,7 xi2=27 605,93 donc s22 = 4,095 56,4 54,6 57,5 58,2 55,8 60,3 54,3 59,5 58,9 61,1 56,9 58,7 54,8 59,8 54,2 57,5 58,1

On suppose que le test de comparaison des variances s12 et s22 montre quelles ne diffrent pas significativement. On peut donc calculer la variance commune s2 puis le test de Student t. s2 =
56,32 58,71 8 2,839 + 7 4,095 = 3,425 et donc t = = 2,658 9+82 1 1 3,425 + 9 8

Le seuil de signification au risque 5 % de la loi de Student 15 ddl tant de 2,131 pour un test bilatral, |t|=2,658 > t0,05=2,131, on conclut au rejet de H0, les moyennes des deux chantillons sont significativement diffrentes avec p 0,02.
Polycopi de bio-statistique Facult de Mdecine de Montpellier-Nmes

88

III. COMPARAISON DE DEUX MOYENNES SUR DES ECHANTILLONS APPARIES.


Parmi les conditions dapplication des tests que nous avons vus prcdemment figure lindpendance de composition des deux chantillons. Dans certains cas, les chantillons ne sont pas indpendants, ces chantillons sont dits apparis.

On dit que deux sries sont apparies quand on fait deux mesures de mme nature (par exemple avant et aprs traitement) sur les mmes sujets.
Exemples : On veut comparer chez les mmes malades la mesure de la pression artrielle systolique moyenne aprs administration dun mdicament placebo (mdicament sans effet pharmacologique) et aprs administration dun mdicament hypotenseur. Sur chacun des n chantillons de sang, on fait deux dosages dune mme substance par deux mthodes de mesure que lon veut comparer. Sur un paquet de copies dexamen on pratique une double correction. On a donc dans tous les cas, n sujets qui sont lobjet de deux mesures dun mme paramtre, quil sagit de comparer :

Sujet 1 Sujet 2 Sujet n Attention :

1re mesure x1 x2 xn

2me mesure y1 y2 yn

Il ne faut pas procder comme si les deux chantillons taient indpendants et vouloir comparer la moyenne des xi la moyenne des yi. Ce serait mconnatre le problme pos ; les deux mesures sont faites sur le mme sujet, il y a donc un effet sujet . Il convient de comparer chaque xi lyi correspondant et pour cela : il faut effectuer les n diffrences : di = xi - yi

Polycopi de bio-statistique Facult de Mdecine de Montpellier-Nmes

89

On obtient un chantillon unique de n valeurs di, sur lequel on calcule la moyenne md

et lcart type sd. Si les xi ne sont pas diffrents des yi, alors la moyenne md ne doit pas
diffrer beaucoup de zro. On est donc ramen au problme prcdent de la comparaison dune moyenne observe d une valeur thorique 0.

III.1. HYPOTHESES NULLE ET ALTERNATIVE


Hypothse nulle : H0 : d = 0. Les diffrences di sont tirs dune population de diffrences dont la moyenne thorique est 0 (ou les deux mesures ont des moyennes identiques m1-m2 = 0). Hypothse alternative : H1 : d 0 (les deux mesures ont des moyennes diffrentes)

III.2. PRINCIPE DES CALCULS


Cas ou lchantillon est grand : N 30 Si H0 est vraie, suit alors une loi normale centre rduite Le test consiste calculer = md 0
2 sd n

et comparer , la valeur seuil pour le risque =

5 %, lue dans la table de la loi normale centre rduite (en pratique 1,96 pour : 0,05) et valuer le degr de signification. Ce test ne requiert aucune condition dapplication particulire. Cas ou lchantillon est petit : N < 30 Si H0 est vraie et que la distribution des di est normale. Le test consiste calculer t = md 0
2 Sd n

et comparer t, la valeur seuil pour le

risque =5 %, de la loi de Student (n-1) ddl.

Polycopi de bio-statistique Facult de Mdecine de Montpellier-Nmes

90

III.3. EXEMPLE
On veut comparer chez 10 malades la pression artrielle systolique moyenne aprs administration d'un mdicament hypotenseur et aprs administration d'un placebo (mdicament sans effet pharmacologique). Le tableau suivant nous donne les rsultats :
PLACEBO x1 1er malade 2 3 4 5
me me me me

HYPOTENSEUR x2 16 11 12 13 14 11 13 13 17 10

d = x1- x2

17 15 15 13 12 17 15 16 19 11

+1 +4 +3 0 -2 +6 +2 +3 +2 +1

malade malade malade malade

6me malade 7me malade 8 9


me me

malade malade malade

10

me

On pose : H0 : Dans la population l'effet de l'hypotenseur est en moyenne identique l'effet placebo. Autrement dit la diffrence moyenne est gale zro d = 0 H1 : La diffrence moyenne est diffrente de zro : d 0, lhypotenseur a donc une action diffrente du placebo. On calcule :

di = 20 et di2 = 84
md = di / n = 20 / 10 = 2 d
2 i

2 sd =

(d i )2
n 1 n

= 4,89 et donc t =

md 0
2 Sd n

2 0,489

= 2,86 qui doit tre compar

valeur lue dans la table de Student 9 ddl. On trouve que (t0,05 = 2,26) < 2,86 < (t0,01 = 3,25) et que le degr de signification est voisin de 2%.

Polycopi de bio-statistique Facult de Mdecine de Montpellier-Nmes

91

Conclusion : On rejette H0, le traitement hypotenseur a une influence sur la pression artrielle systolique. La probabilit davoir observ une telle diffrence alors que H0 serait vraie = 2 %
Remarque :

l' ecart rduit

md 0 S n
2 d

, calcul pour des chantillons apparis est suprieur

m1 m 2 S12 S 22 + n1 n 2

, calcul pour des

Si nous avions procd comme si les deux chantillons taient indpendants, la diffrence serait apparue comme non significative. Ceci est du au fait que sd2 est infrieur la variance commune (s12/n1 + s22/n2) et par consquent : chantillons indpendants. Le test pour les chantillons apparis dtectera plus facilement une diffrence significative, car sa variabilit est plus faible.

IV. COMPARAISON

DE

PLUSIEURS

MOYENNES

INTRODUCTION A L'ANALYSE DE VARIANCE


L'analyse de variance est une mthode statistique qui permet la comparaison des moyennes de plusieurs chantillons. Exemple : On veut comparer les valeurs moyennes de glycmie jeun de quatre groupes de patients diabtiques qui reoivent un traitement hypoglycmiant diffrent. Il s'agit de 4 traitements bien dfinis. Le facteur tudi est le traitement. Soient : X la variable dont on veut comparer les moyennes (exemple :la glycmie). 1, 2, ., k les moyennes vraies de X dans les k groupes que l'on veut comparer.

Les hypothses testes s'crivent : H0 : 1 = 2 = .= k ou les k groupes proviennent dune population o X a une moyenne H1 : il y a au moins une moyenne diffrente entre les k moyennes, les k groupes ne proviennent pas de cette population. Le problme peut tre aussi prsent comme celui de la liaison entre une variable qualitative A (plus de 2 traitements hypoglycmiants par exemple) et une variable quantitative X (glycmie dans lexemple). On parle aussi d'analyse de variance un facteur.
Polycopi de bio-statistique Facult de Mdecine de Montpellier-Nmes

92

Considrons le cas o il y a 4 populations diffrentes (k = 4) mais dans lesquelles la variance de X est la mme : 12=22=32=42=2 (hypothse ncessaire la validit du test).

Si H1 est vraie :
Les moyennes 1, 2, 3 et 4 ne sont pas gales. Si lon regroupe les 4 populations, la moyenne gnrale est T = (1+2+3+4)/4 et la variance totale est T2 (figure 1). 2 T2

2 1 3 4 T

T2 est dautant plus grande que les moyennes 1, 2, 3 et 4 sont disperses, cest dire que les diffrences entre ces 4 moyennes sont plus grandes. les moyennes 1, 2, 3 et 4 sont diffrentes. La variance totale T2 est plus grande que la variance 2 de chacune des populations.

A linverse si H0 est vraie :


les moyennes 1, 2, 3 et 4 sont gales , et T2 est gale 2 qui est la variance au sein de chacune des populations (figure 2). 2 T2

Polycopi de bio-statistique Facult de Mdecine de Montpellier-Nmes

93

les moyennes 1, 2, 3 et 4 sont gales. La variance totale T2 est gale la variance 2 de chacune des populations. On comprend donc quon puisse comparer les moyennes de X dans les diffrentes populations en comparant la variance 2 de X lintrieur de chacune des populations la variance T2 de X obtenue en regroupant les populations. Lampleur de la dispersion totale (ou variabilit de x) T2, dpend dune part de lampleur de la dispersion au sein de chacune des k populations (variabilit intra population) mesure par 2 et dautre part de la dispersion entre ces populations (variabilit inter population). Lanalyse de variance consiste comparer la variabilit intra population (due des fluctuations dchantillonnage) et la variabilit inter population (due leffet ventuel du traitement dans notre exemple). Si toutes les moyennes sont identiques la variance totale tend vers 2 Si elles ne sont pas identiques la variance totale tend vers T2>2 Les conditions dapplication de lanalyse de variance imposent que la variable X ait une

distribution normale et de mme variance dans chacune des k populations.


Il faut avoir compris le principe de lanalyse de variance mais les mthodes de calcul dpassent lobjectif de cours.

les points ne pas oublier


La mthodologie gnrale est la mme : (1). Bien poser le problme : variable qualitative et comparaison de moyennes (2). Bien dfinir ce que lon compare : chantillon compar une valeur thorique, ou deux chantillons indpendants ou deux chantillons apparis (3). Bien poser les deux hypothses : nulle et alternative (4). Penser la taille des chantillons : les formules, les calculs et la table de comparaison en dpendent

Polycopi de bio-statistique Facult de Mdecine de Montpellier-Nmes

94

REFERENCES BIBLIOGRAPHIQUES
.Bouyer J. Mthodes statistiques mdecine et biologie. Estem, ditions INSERM 1996. Daures JP. Probabilits et statistiques en mdecine. Montpellier, Sauramps mdical 1993 Schwartz D. Mthodes statististiques lusage des mdecins et des biologistes, 4me dition. Paris, Mdecine-sciences Flammarion 1993.

Polycopi de bio-statistique Facult de Mdecine de Montpellier-Nmes

95

CHAPITRE VII ANALYSE DE LA LIAISON ENTRE DEUX VARIABLES QUANTITATIVES LA CORRELATION

INTRODUCTION
Pour analyser la liaison entre 2 variables quantitatives alatoires, deux problmes sont considrer : 1. Y a-t-il une liaison entre 2 variables quantitatives X et Y (ou question quivalente : sont-elles indpendantes ?) 2. Comment quantifier la liaison entre 2 variables lorsqu'elle existe ? Considrons par exemple deux variables alatoires, le poids de naissance et le poids maternel avant la grossesse. La question est de savoir s'il existe un lien entre le poids de la mre et celui de l'enfant la naissance. Les situations dans lesquelles on se pose la question de savoir si deux variables continues sont lies sont extrmement frquentes. En voici quelques exemples : La tension artrielle augmente t-elle avec la consommation de sel ? La consommation journalire de cigarettes et la capacit respiratoire sont-elles lies ? La cholestrolmie et la masse cardiaque sont-elles lies ? Lge de dveloppement mesur par une chelle psychomtrique est-elle corrle lge civil ?

I. PRINCIPE DE DETERMINATION DE R
La question de l'indpendance entre deux variables quantitatives correspond aux hypothses suivantes :
Polycopi de bio-statistique Facult de Mdecine de Montpellier-Nmes

96

Hypothse nulle : il n'existe aucune relation entre X et Y. Les variables sont indpendantes : Y doit avoir en moyenne, la mme valeur quel que soit X, et inversement. Hypothse alternative : il existe une liaison statistique linaire entre X et Y (relation de dpendance liant X et Y). Sous l'hypothse d'indpendance, la courbe reprsentant la variation de mY en fonction de X, appele courbe de rgression de Y en X, est une droite horizontale, dordonne mX. Sil nen est pas ainsi, les variables sont lies.
Exemple : Etude de la relation entre poids de la mre et poids de naissance de l'enfant.
Poids la naissance
Poids la naissance

Poids moyen

Poids moyen

50

52

54

56

58

...

Poids de la mre

50

52

54

56

58

...

Poids de la mre

Figure 1 : Schma thorique correspondant l'hypothse nulle indpendance entre le poids de naissance et le poids de la mre

Figure 2 : Ajustement d'une droite aux points observs pour des poids de naissance moyens correspondants aux diffrents poids des mres

Sur un chantillon, il nen sera pas ainsi, par suite des fluctuations dues au hasard. On ajustera au mieux une droite aux points observs et on cherchera si elle ne scarte pas trop de lhorizontale, cest dire si sa pente est suffisamment voisine de 0 (hypothse nulle H0). Si lcart est trop grand, on rejettera H0 et on conclura que X et Y sont lies. Il sagit de dterminer une droite reprsentant la variation de Y en fonction de X : Ajustement dune droite D0 aux points observs. Cette droite est appele "droite des

moindres carrs" ou encore droite de rgression. Cest la droite qui rend minimum la
somme des carrs des carts des points cette droite. Ces carts sont compts perpendiculairement laxe des abscisses, Ox
Exemple : Le nuage de points est reprsent avec la droite des moindres carrs pour la

densit optique des urines et la cratininmie.

Polycopi de bio-statistique Facult de Mdecine de Montpellier-Nmes

97

Nuage de points correspondant la densit optique des urines selon la cratininmie des sujets
170 150 Densit optique 130 110 90 70 50 30 30 50 70 90 110 130 150 170 cratininmie
Ecart D0 Droite de rgression

La pente de la droite de rgression dpend des units de X et Y. Pour pallier cet inconvnient, on exprimera les x et les y en "coordonnes rduites", c'est dire les x par rapport leur cart-type SX et les y par rapport SY. Cette pente exprime en coordonnes rduites est appele coefficient de corrlation. En pratique, c'est ce paramtre, not , qui est utilis pour mesurer la dpendance linaire entre 2 variables alatoires. Dans un chantillon de n sujets, sur lesquels on relve le couple de variables (X,Y), on

r=
montre que la quantit :

(x

m X )( y i m Y )

(x i m X ) 2 ( yi m Y ) 2

est un estimateur sans biais de la corrlation . On montre que la formule suivante permet un calcul pratique du coefficient de corrlation :

r=

x y ( x ) x
i i 2 i i

( x i )( y i )
2

( y i ) 2 2 y i n

Polycopi de bio-statistique Facult de Mdecine de Montpellier-Nmes

98

I.1. PRINCIPALES PROPRIETES DU COEFFICIENT DE CORRELATION :


Il est utilis dans le cas o X et Y sont 2 variables alatoires distribues normalement. Le coefficient de corrlation est une expression de la pente indpendante des units et/ou de l'origine de X et Y, symtrique en X et en Y,

Il varie de -1 +1 et mesure, en cas de dpendance, lintensit de la liaison entre les 2

variables. Plus est proche de -1 ou + 1 et plus l'association est forte, ainsi : si = +1 ou -1, alors la dpendance entre X et Y est totale, il y a une relation
linaire parfaite entre X et Y,

si = 0, il ny a aucune liaison linaire entre X et Y (mais il peut y avoir une


liaison non linaire).

si > 0, alors X et Y varient dans le mme sens, si < 0, alors X et Y varient en sens inverse.
Donc :

Plus est grand en valeur absolue, plus les variables sont corrles. La valeur absolue de dcrot lorsque le nuage devient moins rectiligne ou lorsqu'il s'paissit.

Une valeur absolue trs faible de ne permet pas de conclure l'indpendance de deux variables (car il ne teste que lexistence dune relation linaire), en revanche deux variables indpendantes auront un coefficient de corrlation trs faible.

Les figures ci-dessous prsentent diverses situations relativement au coefficient de corrlation sur la base de donnes exprimentales :
_ y-y x x x xxx xx _ x-x
_ y-y x x x x x xxx x x x xx xx x xx x x x x xxx x

_ y-y x x x x x xx x x x x xx xx x x xx x x x x

_ y

x x xx x x x xx x x xxx x x x x _ x

_ y

_ x-x

_ y

_ x-x

_ x

_ x

r >0, grand

r <0, |r| grand

r voisin de 0
99

Polycopi de bio-statistique Facult de Mdecine de Montpellier-Nmes

REMARQUES : 1 - Covariance de X et Y :

Dans une population, soit (X, Y) un couple de variables alatoires de moyennes X et Y ,on appelle covariance de X et Y la quantit :

cov(X, Y ) = E(X x )(Y y )

Dans la population, la covariance est gnralement note XY

cov(X, Y) =

( x m X )( y m Y ) n 1

Dans un chantillon de n couples de moyennes mX et mY, la covariance est estime par : on remplace

Si

cov( X , X ) =

xm

x n 1

par

X,

on

retrouve

la

formule

de

la

variance

de

= S x2

On peut exprimer le coefficient de corrlation de X et Y, (X,Y), en fonction de la covariance de X et Y et des variances de X et Y :

cov(X, Y) var(X). var(Y)

2 - Dtermination de la droite de rgression D0 :

a) D 0 passe par le centre de gravit du nuage de points, cest dire par le point ayant pour coordonnes mX et mY b) D 0 a pour pente : p 0 =

(x m X )(y m Y ) 2 (x m X )

c) La pente p 0 dpend de la covariance du couple (X, Y) et de la variance de X :

p0 =

cov(X, Y) (x m X )(y m Y ) / n 1 = 2 S2 (x m X ) / n 1 X

3 - Calcul de r partir de la pente de la droite de rgression :

Polycopi de bio-statistique Facult de Mdecine de Montpellier-Nmes

s r = p0 x sy

(1)
100

r sobtient en divisant po par

sy sx

, ce qui correspond la valeur de la pente en coordonnes rduites

(lorsque X et Y sont exprims en prenant pour units sx et sy , leur fonction de rpartition peuvent ainsi tre dcrites sous H0 par une table). si X et Y ont mme variance, le coefficient de corrlation est gal la pente. En remplaant chaque paramtre dans l'expression (1), on obtient :

r =

( x x)( y y) 2 ( x x)

(x N (y N

x) 2 1 y) 2 1

d'o :

r=

( x x )( y y) / n 1
2 2 ( x x ) ( y y) / n 1

ou encore :

r=

cov(X, Y) s2 s2 x y

II. TEST DE LA LIAISON ENTRE 2 VARIABLES


II.1. TEST DINDEPENDANCE (OU TEST DU COEFFICIENT DE

CORRELATION) :
Le problme statistique est, partir d'un chantillon de n sujets sur lesquels on relve les couples de valeurs (X,Y), d'estimer et de vrifier si l'estimation obtenue est suffisamment distante de 0 pour rejeter l'hypothse d'indpendance ( = 0). H0 : = 0
H1 : 0

Les variables ne sont pas corrles (test bilatral) Les variables sont corrles

Le risque correspondant l'intervalle de pari peut tre obtenu : soit par la table du coefficient de corrlation pour un nombre de degr de libert (ddl) gal au nombre de couples d'observation (x,y) diminu de 2 soit : n-2 ddl
Polycopi de bio-statistique Facult de Mdecine de Montpellier-Nmes

101

soit lorsque celle-ci est insuffisante (cas o ddl > 100 et < 1%), en calculant : t = r 1 r2 n2

et en cherchant le risque correspondant dans la table de Student pour n-2 ddl.

Rappel : On compare p au seuil de significativit choisi =0.05 :


Si p > 0,05, la liaison nest pas significative 0,05 Si p 0,05, la liaison est significative et p mesure son degr de signification. On rejette l'hypothse d'indpendance entre X et Y.

Conditions de validit :
La distribution de (X,Y) doit tre "binormale" : pour chaque valeur de X, les valeurs de Y doivent tre normalement distribues et vice versa.

Exemples : 1) Soit un chantillon de 27 couples (x, y), r = 0,5. Cette valeur est-elle significativement diffrente de 0 et si oui, quel risque? hypothses H0 : les variables X et Y sont indpendantes, = 0 H1 : les variables X et Y sont lies de faon significative ou r diffre significativement de 0 ou 0. conclusions Valeur lue dans la table du coefficient de corrlation pour r = 0,5 et ddl=25 : p < 0,01

r est significativement diffrent de 0


2) Soit un chantillon de 150 couples (x, y) avec r = 0,2 Cette valeur est-elle significativement diffrente de 0. Le degr de signification p est-il infrieur au seuil de significativit choisi =0.05 ? Valeur de p pour r = 0,2 et ddl=148 table inutilisable, on calcule : t= 0,2 1 0,2 2 150 2 = 2,48 0,01 < p < 0,02
102

valeur lue dans la table de Student pour t = 2,48 et ddl=148 :


Polycopi de bio-statistique Facult de Mdecine de Montpellier-Nmes

r est significativement diffrent de 0


II.2. INTERPRETATION DE R :
On accorde beaucoup plus dimportance la valeur de r qu la significativit du test dindpendance qui est facilement atteinte sur de grands effectifs. Pour donner un sens la valeur de r, il est possible de matrialiser la force d'une corrlation par lexamen de la quantit R. Ce paramtre, appel coefficient de

dtermination, reprsente la proportion de variance de Y qui est explique par X.


Exemples : r = 0,08 est significatif sur 630 sujets alors que X ne reprsente que 0,64% de la variance totale de Y. r = 0,50 nest pas significatif sur 15 sujets

Examen du nuage de points :

Lexamen du nuage de points renseigne fortement sur lexistence, le signe (variation dans le mme sens ou en sens inverse) et la force de la liaison entre X et Y.

Polycopi de bio-statistique Facult de Mdecine de Montpellier-Nmes

103

xx x xx x x xx x x xx x x xx xx x xx x x x x

x x x x xx x xx x x xx x x xx xx x xxx x x x

xx x xx x x x xx x x xx x x xx x x xx x xxx x x

r ~ 0,9

r ~ 0,7

r ~ 0,7

x x xx x x x x xx x x x xx x x x xx x x xx x x x x xxx x x xx x x

x x xx x x x x xx x x x xx x x x xx xx x x x x xx x x xx x xx x x

x x xx x xx x xxx x xx x xx x x x x x xx x x xx x xx x x x x x xx x xx x x xx x x x x xx x xxx x x xx x x x x

r ~ 0,6

r ~ 0,5

r ~ 0,5

x x xx x x x x x xx x x xx x x x x xx x x x xx x x x x x x xx x x xx x x x x x xx

xxx x x x x xx x xx x xx xx x x x x xx xx xx xx x x x x xxx x x xx xx x xx xx x x xx x

xx

r ~0

r ~0

III. INTERVALLE DE CONFIANCE ET STATISTIQUES INFERENTIELLES


Remarque : Ce chapitre III est destine enrichir la culture gnrale de ltudiant, sa lecture est facultative.

Dans le cas o la population de n couples (x,y) est binormale, Fisher a dmontr lintrt de se ramener une variable auxiliaire z (la transformation r z est donne par des tables) : z= z suit une loi normale de moyenne :

1 1+ r Ln 2 1 r et d'cart-type :
1 n 3

1 1+ Ln 2 1

Polycopi de bio-statistique Facult de Mdecine de Montpellier-Nmes

104

III.1. COMPARAISON DE R A LA VALEUR THEORIQUE

Comparer r = 0, revient tester lindpendance entre X et Y (test du coefficient de corrlation)

Si on constate une valeur r 0 qui semblerait suggrer un certain degr de dpendance linaire, on peut comparer r avec 0 .

On est ramen comparer z (coefficient z thorique). On calcule l'cart-rduit :


=

z z

Dans la table de l'cart-rduit, on pourra lire la prob ( ) =


Exemple : N=19 et r=0,30, l'chantillon provient-il de la population o =0,80 ? On calcule : =

1 1 + 0,8 Ln = 1,10 et l'cart-type : 2 1 0,8

1 = 0,25 19 3

d'o : =

1,10 0,31 = 3,2 0,25

, sur la table de L.-G., on lit : p<0,002

III.2. ESTIMATION DUN COEFFICIENT THEORIQUE : INTERVALLE DE CONFIANCE DE R


On dtermine z partir de r : prob{z z < < z + z } = 1 Soient : z i = z z et z s = z + z tels que prob {z i < < z s } = 1

On veut en dduire : prob{ri < < rs } = 1 avec :


z=

1 1+ r Ln 2 1 r exp(2z) 1 exp(2z) + 1

on en dduit :

r=

ri = transf de ( z z ) et rs = transf de ( z + z ) : D'o l'intervalle de confiance de au risque (1 - ) :

ri < < rs

Polycopi de bio-statistique Facult de Mdecine de Montpellier-Nmes

105

III.3. COMPARAISON DE 2 COEFFICIENTS DE CORRELATION OBSERVES


On se ramne la comparaison des transforms z1 et z2 Sous H0, z1 - z2 suit une loi de LG (0,Var(z1 - z2)) Var ( z1 z 2 ) = Var ( z1 ) + Var ( z 2 ) = Do : 0 =
Exemple : N1=15 N2=20 dans la table : r1=0,55 r2=0,82 z1=0,62 avec 21 = z z2=1,16 avec 22 = z L'cart rduit : =
z1 z 2 21 + 22 z z = 0,72 1 = 0,083 15 3 1 = 0,059 20 3 z1 z 2 21 z
+

1 1 + n1 3 n 2 3
Prob ( 0 / sous H0 vraie) =

22 z

et

On lit p 0,15 , donc les 2 coefficients ne sont pas diffrents.

IV. CORRELATION ET REGRESSION LINEAIRES


IV.1. CAS OU LES 2 VARIABLES ETUDIEES SONT ENTIEREMENT ALEATOIRES PAR LEUR NATURE ET LEUR DISTRIBUTION :
Exemples : X et Y sont 2 variables quantitatives de nature diffrente, prleves sur le mme sujet : - cholestrol et tension artrielle - glycmie de la mre et poids de naissance - Poids et tension artrielle - Densit optique des urines et cratininmie

Le paramtre permettant d'tudier la relation entre X et Y est le coefficient de corrlation entre les 2 variables.
Polycopi de bio-statistique Facult de Mdecine de Montpellier-Nmes

106

IV.2. CAS OU LES 2 VARIABLES JOUENT UN ROLE DISSYMETRIQUE


Exemple : X reprsente la dose dun produit toxique administre des souris et Y le temps de survie.
La variable X prend des valeurs contrles antrieures celles de Y, et X est considr comme une cause, Y comme un effet :

Dans ce cas, on s'intressera la rgression de Y en fonction de X :


Pour dcrire le lien entre X et Y, la rgression consiste dcrire au mieux la faon dont Y varie en fonction de X. Cela revient, en pratique, dcrire la distribution de Y pour chaque valeur de X. Lorsque X est une variable contrle (non distribue suivant une loi normale) et Y est une variable alatoire, la rgression linaire permet de calculer la variation de Y en fonction de X.

V. CONDITIONS DE VALIDITE NON RESPECTEES


Lorsque la distribution de (X,Y) n'est pas binormale, deux alternatives sont envisager : Transformer les donnes pour normaliser la distribution Avoir recours aux mthodes dites non paramtriques

V.1. PRINCIPE DE LA CORRELATION NON PARAMETRIQUE


Corrlation de Spearman

On classe sparment les x et les y, chaque x correspond un rang de 1 n, de mme pour les y On substitue chaque valeur de x ou y, son rang puis on calcule le coefficient de corrlation habituel Formule simplifie : r = 1 s
6 d i2 n( n 2 1)

di reprsentent les diffrences entre les rangs (yi - xi) Test de rs par les mthodes classiques avec (n-2) ddl

Autre coefficient de corrlation non paramtrique : Coefficient de Corrlation de Kendall


Polycopi de bio-statistique Facult de Mdecine de Montpellier-Nmes

107

En rsum :
Le coefficient de corrlation mesure la part linaire de lassociation entre deux variables continues, indpendamment de leurs units. La corrlation ne sert pas prdire une variable en fonction dune autre ou mesurer leffet dune variable sur une autre : les deux variables ont le mme rle. Le coefficient de corrlation se situe entre 1 et +1. La valeur 0 correspond lindpendance linaire. Les valeurs 1 et +1 correspondent la liaison linaire parfaite. Compte tenu des fluctuations dchantillonnage, il existe un test statistique permettant dtablir si r est significativement diffrent de 0. Ce test est rapidement significatif lorsque lchantillon est grand, on accorde donc une grande importance la valeur de r dans linterprtation des rsultats.

Polycopi de bio-statistique Facult de Mdecine de Montpellier-Nmes

108

ANNEXE - TABLES STATISTIQUES


Table de la loi Normale centre rduite

La table donne la probabilit pour que lcart-rduit gale ou dpasse, en valeur absolue, une valeur donne , cest dire la probabilit extrieure lintervalle (-, +).

0,00
+ 1,645 1,282 1,036 0,842 0,674 0,524 0,385 0,253 0,126

0,01
2,576 1,598 1,254 1,015 0,824 0,659 0,510 0,372 0,240 0,113

0,02
2,326 1,555 1,227 0,994 0,806 0,643 0,496 0,358 0,228 0,100

0,03
2,170 1,514 1,200 0,974 0,789 0,628 0,482 0,345 0,215 0,088

0,04
2,054 1,476 1,175 0,954 0,772 0,613 0,468 0,332 0,202 0,075

0,05 1,960
1,440 1,150 0,935 0,755 0,598 0,454 0,319 0,189 0,063

0,06
1,881 1,405 1,126 0,915 0,739 0,583 0,440 0,305 0,176 0,050

0,07
1,812 1,372 1,103 0,896 0,722 0,568 0,426 0,292 0,164 0,038

0,08
1,751 1,341 1,080 0,878 0,706 0,553 0,412 0,279 0,151 0,025

0,09
1,695 1,311 1,058 0,860 0,690 0,539 0,399 0,266 0,138 0,013

0,00 0,10 0,20 0,30 0,40 0,50 0,60 0,70 0,80 0,90

La probabilit s'obtient par addition des nombres inscrits en marge. Exemple : pour = 1,960, la probabilit est = 0,00 + 0,05 = 0,05 TABLE POUR LES PETITES VALEURS DE LA PROBABILIT

0,001

0,000 1

0,000 01

0,000 001 0,000 000 1 0,000 000 01

0,000 000 001

3,29053

3,89059

4,41717

4,89164

5,32672

5,73073

6,10941

(d'aprs Fisher et Yates, Statistical tables for biological, agricultural, and medical research (Oliver and Boyd, Edinburgh) avec l'aimable autorisation des auteurs et des diteurs)

Polycopi de biostatistiques Facult de Mdecine de Montpellier-Nmes

109

Table de Student
La table donne la probabilit pour que t gale ou dpasse, en valeur absolue, une valeur donne, en fonction du nombre de degrs de libert (d.d.l.).
ddl / 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 + 0,90 0,158 0,142 0,137 0,134 0,132 0,131 0,130 0,130 0,129 0,129 0,129 0,128 0,128 0,128 0,128 0,128 0,128 0,127 0,127 0,127 0,127 0,127 0,127 0,127 0,127 0,127 0,127 0,127 0,127 0,127 0,126 0,50 1,000 0,816 0,765 0,741 0,727 0,718 0,711 0,706 0,703 0,700 0,697 0,695 0,694 0,692 0,691 0,690 0,689 0,688 0,688 0,687 0,686 0,686 0,685 0,685 0,684 0,684 0,684 0,683 0,683 0,683 0,674 0,30 1,963 1,386 1,250 1,190 1,156 1,134 1,119 1,108 1,100 1,093 1,088 1,083 1,079 1,076 1,074 1,071 1,069 1,067 1,066 1,064 1,063 1,061 1,060 1,059 1,058 1,058 1,057 1,056 1,055 1,055 1,036 0,20 3,078 1,886 1,638 1,553 1,476 1,440 1,415 1,397 1,383 1,372 1,363 1,356 1,350 1,345 1,341 1,337 1,333 1,330 1,328 1,325 1,323 1,321 1,319 1,318 1,316 1,315 1,314 1,313 1,311 1,310 1,282 0,10 6,314 2,920 2,353 2,132 2,015 1,943 1,895 1,860 1,833 1,812 1,796 1,782 1,771 1,761 1,753 1,746 1,740 1,734 1,729 1,725 1,721 1,717 1,714 1,711 1,708 1,706 1,703 1,701 1,699 1,697 1,645 0,05 12,706 4,303 3,182 2,776 2,571 2,447 2,365 2,306 2,262 2,228 2,201 2,179 2,160 2,145 2,131 2,120 2,110 2,101 2,093 2,086 2,080 2,074 2,069 2,064 2,060 2,056 2,052 2,048 2,045 2,042 1,960 0,02 31,821 6,965 4,541 3,747 3,365 3,143 2,998 2,896 2,821 2,764 2,718 2,681 2,650 2,624 2,602 2,583 2,567 2,552 2,539 2,528 2,518 2,508 2,500 2,492 2,485 2,479 2,473 2,467 2,462 2,457 2,326 0,01 63,657 9,925 5,841 4,604 4,032 3,707 3,499 3,355 3,250 3,169 3,106 3,055 3,012 2,977 2,947 2,921 2,898 2,878 2,861 2,845 2,831 2,819 2,807 2,797 2,787 2,779 2,771 2,763 2,756 2,750 2,576 0,001 636,619 31,598 12,924 8,610 6,869 5,959 5,408 5,041 4,781 4,587 4,437 4,318 4,221 4,140 4,073 4,015 3,956 3,922 3,883 3,850 3,819 3,792 3,767 3,745 3,725 3,707 3,690 3,674 3,659 3,646 3,291

Exemple : avec d. d. l. = 10, pour t = 2,228, la probabilit est = 0,05


(d'aprs Fisher et Yates, Statistical tables for biological, agricultural, and medical research (Oliver and Boyd, Edinburgh) avec l'aimable autorisation des auteurs et des diteurs)

Polycopi de biostatistiques Facult de Mdecine de Montpellier-Nmes

110

Table du Chi deux


La table donne la probabilit pour que 2 gale ou dpasse une valeur donne, en fonction du nombre de degrs de libert (d.d.l.).
ddl / 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 0,90 0,0158 0,211 0,584 1,064 1,610 2,204 2,833 3,490 4,168 4,865 5,578 6,304 7,042 7,790 8,547 9,312 10,085 10,865 11,651 12,443 13,240 14,041 14,848 15,659 16,473 17,292 18,114 18,939 19,768 20,599 0,50 0,455 1,386 2,366 3,357 4,351 5,348 6,346 7,344 8,343 9,342 10,341 11,340 12,340 13,339 14,339 15,338 16,338 17,338 18,338 19,337 20,337 21,337 22,337 23,337 24,337 25,336 26,336 27,336 28,336 29,336 0,30 1,074 2,408 3,665 4,878 6,064 7,231 8,383 9,524 10,656 11,781 12,899 14,011 15,119 16,222 17,322 18,418 19,511 20,601 21,689 22,775 23,858 24,939 26,018 27,096 28,172 29,246 30,319 31,391 32,461 33,530 0,20 1,642 3,219 4,642 5,989 7,289 8,558 9,803 11,030 12,242 13,442 14,631 15,812 16,985 18,151 19,311 20,465 21,615 22,760 23,900 25,038 26,171 27,301 28,429 29,553 30,675 31,795 32,912 34,027 35,139 36,250 0,10 2,706 4,605 6,251 7,779 9,236 10,645 12,017 13,362 16,684 15,987 17,275 18,549 19,812 21,064 22,307 23,542 24,769 25,989 27,204 28,412 29,615 30,813 32,007 33,196 34,382 35,563 36,741 37,916 39,087 40,256 0,05 3,841 5,991 7,815 9,488 11,070 12,592 14,067 15,507 16,919 18,307 19,675 21,026 22,362 23,685 24,996 26,296 27,587 28,869 30,144 31,410 32,671 33,924 35,172 36,415 37,652 38,885 40,113 41,337 42,557 43,773 0,02 5,412 7,824 9,837 11,668 13,388 15,033 16,622 18,168 19,679 21,161 22,618 24,054 25,472 26,873 28,259 29,633 30,995 32,346 33,687 35,020 36,343 37,659 38,968 40,270 41,566 42,856 44,140 45,419 46,693 47,962 0,01 6,635 9,210 11,345 13,277 15,086 16,812 18,475 20,090 21,666 23,209 24,725 26,217 27,688 29,141 30,578 32,000 33,409 34,805 36,191 37,566 38,932 40,289 41,638 42,980 44,314 45,642 46,963 48,278 49,588 50,892 0,001 10,827 13,815 16,266 18,467 20,515 22,457 24,322 26,125 27,877 29,588 31,264 32,909 34,528 36,123 37,697 39,252 40,790 42,312 43,820 45,315 46,797 48,268 49,728 51,179 52,620 54,052 55,476 56,893 58,302 59,703

Exemple : avec d. d. l. = 3, pour 2 = 0,584, la probabilit est = 0,90


(d'aprs Fisher et Yates, Statistical tables for biological, agricultural, and medical research (Oliver and Boyd, Edinburgh) avec l'aimable autorisation des auteurs et des diteurs)

Polycopi de biostatistiques Facult de Mdecine de Montpellier-Nmes

111

Table du coefficient de corrlation


La table donne la probabilit pour que le coefficient de corrlation gale ou dpasse, en valeur absolue, une valeur donne r, cest dire la probabilit extrieure lintervalle (-r, +r), en fonction du nombre de degrs de libert (d.d.l.).
ddl / 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 25 30 35 40 45 50 60 70 80 90 100 0,10 0,9877 0,9000 0,8054 0,7293 0,6694 0,6215 0,5822 0,5494 0,5214 0,4973 0,4762 0,4575 0,4409 0,4259 0,4124 0,4000 0,3887 0,3783 0,3687 0,3598 0,3233 0,2960 0,2746 0,2573 0,2428 0,2306 0,2108 0,1954 0,1829 0,1726 0,1638 0,05 0,9969 0,9500 0,8783 0,8114 0,7545 0,7067 0,6664 0,6319 0,6021 0,5760 0,5529 0,5324 0,5139 0,4973 0,4821 0,4683 0,4555 0,4438 0,4329 0,4227 0,3809 0,3494 0,3246 0,3044 0,2875 0,2732 0,2500 0,2319 0,2172 0,2050 0,1946 0,02 0,9995 0,9800 0,9343 0,8822 0,8329 0,7887 0,7498 0,7155 0,6851 0,6581 0,6339 0,6120 0,5923 0,5742 0,5577 0,5425 0,5285 0,5155 0,5034 0,4921 0,4451 0,4093 0,3810 0,3578 0,3384 0,3218 0,2948 0,2737 0,2565 0,2422 0,2301 0,01 0,9999 0,9900 0,9587 0,9172 0,8745 0,8343 0,7977 0,7646 0,7348 0,7079 0,6835 0,6614 0,6411 0,6226 0,6055 0,5897 0,5751 0,5614 0,5487 0,5368 04869 0,4487 0,4182 0,3932 0,3721 0,3541 0,3248 0,3017 0,2830 0,2673 0,2540

Exemple : avec d. d. l. = 30, pour r = 0,3494, la probabilit est = 0,05


(d'aprs Fisher et Yates, Statistical tables for biological, agricultural, and medical research (Oliver and Boyd, Edinburgh) avec l'aimable autorisation des auteurs et des diteurs)

Polycopi de biostatistiques Facult de Mdecine de Montpellier-Nmes

112

Vous aimerez peut-être aussi