Vous êtes sur la page 1sur 145

Lecture

cri)que dar)cle Rappels Bio sta,s,ques


Dr MARC CUGGIA MCU-PH

Informa)on
Bonjour, Le cours de rappel en amphi du 13/2 na malheureusement pas pu avoir lieu pour un incident de transmission de planning. Voici le prsent support de cours qui vous permeMra davoir un rappel global des no)ons de sta)s)ques u)les en LCA, essen)ellement vue en 1er anne mais expurges des formules. Si vous avez des ques)ons, nhsitez pas me contacter sur mon adresse email : marc.cuggia@univ-rennes1.fr En cas de besoin, jorganiserai un nouveau crneau en amphi Avec toutes mes excuses. Dr Marc CUGGIA
http://www.med.univ-rennes1.fr

Plan du cours
Rappels fondamentaux Sta)s)ques descrip)ves No)ons de tests sta)s)ques Algorithme de dcision Quelques tests
Test T de student 2 Corrla)on rgressions linaire et Logis)que

Survie : Kaplan Meier et Log Rank


http://www.med.univ-rennes1.fr

L chan)llon
Un bon chan)llon = image rduite de la popula)on. Lchan)llon doit tre reprsenta)f de la popula)on tudie Dans le cas contraire, on dit que l'chan)llon est biais. Le choix de l'chan)llon, le recueil des donnes ncessaires l'tude la par)e fondamentale, la plus longue, de l'tude.
http://www.med.univ-rennes1.fr

Sta)s)ques descrip)ves
Le but : dcrire un ensemble d'observa)ons l'aide de quelques lments caractris)ques. Entraine gnralement une perte dinforma)on Mthode sta)s)ques descrip)ves dpendent de la nature des variables

http://www.med.univ-rennes1.fr

Variables
Caractris)que ou facteur suscep)ble de prendre une valeur dirente selon les individus tudis Dirents types de variables Quan)ta)ves Qualita)ves

http://www.med.univ-rennes1.fr

Variables qualita)ves
Non mesurables Revient dnir des catgories ou classes exclusives correspondant aux direntes modalits du caractre observ, puis dterminer quelle classe appar)ent chaque individu. On dnombre les eec)fs appartenant chacune des classes Exemples: le sexe, la couleur des yeux, l'ecacit ou la non ecacit d'un traitement, la nature des cellules d'un 8ssu, le groupe sanguin,.... 3 types Variables qualita)ves ordinales Variables qualita)ves nominales Variables qualita)ves binaires

http://www.med.univ-rennes1.fr

Variables quan)ta)ves
Caractrises par des valeurs numriques Exploitable arithm)quement Variables quan)ta)ves con,nues Prennent nimporte quelles valeurs numriques dans lintervalle dobserva)on Appar)ent lensemble des rels : toutes les valeurs sont possibles Poids 56,3 kg Taille 1,72 m Cholestrol 2,22 g/l AMen)on au nombre de dcimale Trs u)lises en mdecine La prcision est limite par linstrument de mesure
http://www.med.univ-rennes1.fr

Variables quan)ta)ves discrtes Variables numriques discon)nues. En gnral valeurs en)res Souvent un dnombrement Rechute dune maladie 3 rechute par an Rappel de vaccin 4 injec)ons Den))on 32 dents Variables temporelles Variables quan)ta)ves par)culires u)lisant les units de temps Analyse de survie

http://www.med.univ-rennes1.fr

http://www.med.univ-rennes1.fr

Caractrisa)on des donnes qualita)ves et ordinales unidimensionnelles


Frquence absolue et tableau des eec8fs Frquences rela8ves Frquences cumules (rela8ves et absolues) Diagramme "camembert" Diagramme en btons et mode

http://www.med.univ-rennes1.fr

Frquence absolue et tableau des eec8fs


La frquence absolue est le nombre d'individus par classe. Ce dnombrement donne lieu une reprsenta)on des donnes sous forme de tableau.

http://www.med.univ-rennes1.fr

Sur les classes ainsi formes, seules les opra)ons suivantes sont permises: raliser des classes disjointes par)r d'une seule classe, regrouper certaines classes. La seule rela)on qui puisse tre u)lise sur ces donnes est la rela)on d'appartenance une mme classe.

http://www.med.univ-rennes1.fr

Frquences rela)ves
Les frquences rela)ves sont, pour chaque classe, le rapport de son eec)f au nombre total d'individus de la srie des mesures. i

n fi = N

La somme des frquences rela)ves est gale 1. Parfois, les rsultats sont exprims en pourcentage, chacune des frquences rela)ves tant mul)plie par 100 et arrondies l'unit

http://www.med.univ-rennes1.fr

On peut reprsenter les eec)fs absolus ou rela)fs des classes par des secteurs de cercle dont la surface est propor)onnelle l'eec)f. Le diagramme "camembert" est bien adapt la reprsenta)on des donnes qualita)ves "pures".
Yeux Eec)f Marron 50 Vert 10 Bleu 28 Noir 12

http://www.med.univ-rennes1.fr

Diagramme en btons
Pour les donnes ordinales on peut galement reprsenter les frquences absolues, rela)ves ou cumules par un diagramme en btons. Exemple: chan8llon de 500 cancreux dont on a not le stade.

http://www.med.univ-rennes1.fr

Caractrisa)on des donnes qualita)ves deux dimensions


Les modalits de deux variables qualita)ves permeMent de cons)tuer des classes exclusives auxquelles sont aectes chaque observa)on. Les classes exclusives sont reprsentes sous la forme d'un tableau appel tableau de con)ngence.

http://www.med.univ-rennes1.fr

Caractrisa)on des donnes quan)ta)ves une dimension


Rappel: les variables quan)ta)ves peuvent tre de deux types: variables discon)nues (ou discrtes) et variables con)nues. Dans le cas des variables discon)nues, il est possible de reprsenter les donnes par un diagramme en btons, comme dans le cas de donnes ordinales. Dans tous les cas, on peut diviser l'intervalle de varia)on de la variable en un certain nombre de classe et l'on dnombre toutes les mesures l'intrieur de chaque classe.

http://www.med.univ-rennes1.fr

Histogramme
Construc)on: on porte sur l'axe des abscisses les extrmits de chaque classe pour chacune d'elles on construit un rectangle dont la base est le segment limit aux extrmits de la classe et la surface est propor)onnelle l'eec)f de la classe.
effectif

an
http://www.med.univ-rennes1.fr

Histogramme
Pour les variables quan)ta)ves
Il faut le plus souvent regrouper en classe
Intervalle : 1 ans Intervalle : 5 ans

Intervalle : 10 ans

http://www.med.univ-rennes1.fr

Les graphiques
Les tableau reprsentent les donnes exactes Les graphique font ressor)r une vision synth)que Recommanda)on dans un ar)cles : Figures numrotes en chire arabe Numrota)on correspond lordre dappel dans le texte Toute gure est appele dans le texte Pas de 3 d ni de camembert viter les superposi)ons de graphe Pas de colorisa)on abusive Simple Lgend ()tre, axes, units) Honnte
http://www.med.univ-rennes1.fr

Mesures en sta)s)ques

http://www.med.univ-rennes1.fr

Paramtres
2 types : Paramtres de POSITION Mdiane Quar)les, dciles, percen)les Mode Moyenne Frquences rela)ves Paramtres de Dispersion Extrmes (Minimum, Maximum) Entendue (Range) Intervalle interquar)le Variance cart type Coecient de varia)on Frquence

DISPERSION

POSITION

http://www.med.univ-rennes1.fr

Moyenne
Moyenne La moyenne s'exprime dans les mmes units que les valeurs observes. Indicateur de tendance centrale servant rsumer une srie de donnes dune variable quan)ta)ve

Frquence

http://www.med.univ-rennes1.fr

Mdiane
Est la valeur qui partage la srie des individus en 2 groupes deec)fs gaux. La mdiane est moins inuence que la moyenne arithm)que par les valeurs extrmes de la variable. La moi) des sujets prsentent une valeur infrieure la mdiane. Lautre moi) une valeur suprieure la mdiane.
http://www.med.univ-rennes1.fr

Quar)les Sont les 3 valeurs qui partagent la distribu)on en 4

25%

25% 25%

25%

http://www.med.univ-rennes1.fr

1er quar)le : spare 25% des valeurs les plus faibles et 75% des valeurs les plus levs

25%

75%

http://www.med.univ-rennes1.fr

3 me quar)le : spare 75% des valeurs les plus faibles et 25% des valeurs les plus levs

75%

25%

http://www.med.univ-rennes1.fr

Le deuxime quar)le spare 50 % des valeurs les plus faible de 50% des valeurs les plus leves 2me quar)le Mdiane !

50 %

50 %

http://www.med.univ-rennes1.fr

Dispersion

http://www.med.univ-rennes1.fr

Dispersion
Min Max : Trs sensible aux valeurs extrmes Permet de dtecter les erreurs tendue : Valeur Max Valeur min Espace interquar)les Qi = Q3 Q1 con)ent 50% des valeurs de la srie
http://www.med.univ-rennes1.fr

cart type : Dune popula)on

Dun chan)llon

cart type = mme grandeur que la moyenne. ms


http://www.med.univ-rennes1.fr

http://www.med.univ-rennes1.fr

0.8

C " Des changements pour les valeurs de la moyenne et la variance entranent des changements dans la forme et la position de la distribution normale. " A. = 4, = 1 " B. = 8, = 1 " C. = 8, = 0.5

0.6

frel
0.4 A

0.2 B 0 2 4 6 8 10 12

http://www.med.univ-rennes1.fr

POINT DINFLEXION DE LA COURBE

http://www.med.univ-rennes1.fr

Box Plot

http://www.med.univ-rennes1.fr

Un distribu)on peut donc tre rsum par :


Un paramtre de posi)on Un paramtre de dispersion

http://www.med.univ-rennes1.fr

les rsultats d'une tude, ralise sur un chan)llon reprsenta)f de nourrissons masculins, ont donn une es)ma)on de la taille moyenne de 60,2 cm avec un intervalle de conance 95 % de [59,2 - 61,2]. Il y aurait donc 95 chances sur cent pour que la taille moyenne des nourrissons masculins Franais de 3 mois soit comprise entre 59,2 et 61,2 cm.
http://www.med.univ-rennes1.fr

savoir
Les auteurs doivent prciser comment les rsultats sont exprims (% pour v. ql moy+- ec.t pour vq) Variables qt : mdiane, extrmes AMen)on lerreur standard (ec.t/racine(n))
Fausse impression de prcision dans les rsultats

AMen)on aux valeurs manquantes : normalement explicites. Gros impact sur les analyses mul)varies : 1 valeur maquante perte dune observa)on.
http://www.med.univ-rennes1.fr

Valeurs aberrantes
Lar)cle doit explorer les valeurs aberrantes (erreurs de mesure, individus hors norme, erreur de calcul).

http://www.med.univ-rennes1.fr

Principes des tests sta,s,ques

Lintervalle de conance est lou)l sta)s)que de les)ma)on Le test sta)s)que est lou)l de la comparaison On peut assimiler le test une pese

Lorsque lon eectue une comparaison entre deux ou plusieurs sries de donnes, on observe toujours une dirence, plus ou moins grande entres les paramtres mesurs. Le but du test est de dterminer si la dirence observe est simplement due au hasard,
cest--dire aux uctua)ons dchan)llonnage, ou si au contraire la dirence observe est bien relle.

exemple
En 1997 : tour de taille moyen de la popula)on franaise = 84,6 cm En 2006 : sondage : Tirage au sort de 30 personnes (en cm)

Population Franaise 2006

ECHANTILLON (n=30)
88,39 87,36 87,71 87,56 91,35 85,92 83,82 89,91 87,98 86,44 88,41 86,19 88,86 87,31 90,22 96,36 87,19 90,93 88,56 91,41 87,15 90,34 88,6 88,95 85,92 88,5 89,66 83,67 87,67 91,47

m = 88,26 cm

Dirence de quelques cen8mtres entre moyenne observe (88,26 cm) et valeur de rfrence (84,6 cm) La moyenne du tour de taille des franais a-t-elle vraiment change entre 1997 et 2006 ?

exemple
Observa)on dune dirence 2 hypothses
Soit la dirence observe est due uniquement au hasard (uctua)on dchan)llonage)
et donc les popula)ons de 1997 et 2006 ont globalement les mmes tours de tailles (1997=2006)

Soit la dirence est due en par)e au hasard ET en par,e leet dun autre facteur (modica)on de lalimenta)on, traitement mdicamenteux, etc).
et donc les popula)ons de 1997 et 2006 ont chang de tour de taille (19972006)

Dmarche des test


modifier
1.Hypothses

dduire

5.Conclusion

2.Situa)on

interprter

4.Confronta)on

3. Observa8on

Dmarche hypothtico-dductive Etape 1: poser les hypothse Ho (nulle) et H1 (alternative) Etape 2: Dduire des hypothses la situation observable : si mon hypothse est vraie que dois je observer ? Etape 3 : Etape de lexprience tude de lchantillon Etape 4 : Confronter lhypothse avec les observations recueillies lors du sondage ralisation du test statistique Etape 5 : Interprtation et conclusion. Il existe un risque systmatique de se tromper mais les tests statistiques permettent de maitriser ce risque

Ce quil ne faut pas faire


On veut comparer la taille des individus qui passent le samedi aprs midi sur les troMoirs droites et gauches de la rue de la libert Rennes. On pourrait eec)vement trouver une dirence, mme signica)ve. Mais elle naurait aucun sens. La dmarche qui consisterait rechercher POSTERIORI une explica)on ce phnomne serait absurde.

Un test na de sens que si une hypothse est pralablement pose afin de rpondre une question.

Principe des tests


Un test statistique est une mise lpreuve dune hypothse concernant une population sur la base de donnes fournies partir dun chantillon reprsentatif de de la population. Le test statistique permet de prendre la dcision daccepter ou de rejeter les hypothses. ncessit de suivre une dmarche rigoureuse hypothtico-dductive

Dmarche des test


modifier
1.Hypothses

dduire

5.Conclusion

2.Situa)on

interprter

4.Confronta)on

3. Observa8on

Dmarche hypothtico-dductive Etape 1:


Ho le tour de taille des franais est rest le mme entre 1997 et 2006 H1 le tour de taille des franais est different entre 1997 et 2006

Etape 2: Sous Ho, je ne devrais observer pas de diffrence significative entre la moyenne 1997 et 2006 Etape 3 : Tirage au sort dun chantillon reprsentatif de la population en 2006 et mesure du tour de taille Etape 4 : Test de comparaison dune moyenne observe (m2006=88,26cm) sur lchantillon une moyenne thorique (1997=84,6cm) Etape 5 : Le test indique si lcart observ de poids est ngligeable (d uniquement une fluctuation dchantillon) ou vraiment diffrent (par exemple d changement de consommation). Dans les deux cas, il y a toujours une incertitude de se tromper

1997 1997=84,6cm

1997=84,6cm

On connat les paramtres de distribution de la population de rfrence 1997 Donc grce au thorme central limite on sait que les fluctuations dchantillonage des moyennes sont rgis par la loi normale N(1997;97/n) On ne connat pas les paramtres de distribution de la population de rfrence 2006 On connat juste une moyenne m2006 calcul partir de lchantillon

2006 2006=? 2006=?

Echantillon m2006=88,26 N(?,?)

1997=84,6cm

1997

1997=84,6cm

Si lon part de lhypothse (Ho) que les 2 populations sont quivalentes On dduit que les moyennes des chantillons issues de 2006 suivent la mme loi normale de 1997 donc

2006 2006=? 2006=?

m2006=88,26

m2006~N(1997;1997/n)

Sous Ho Si Ho est vraie La probabilit dobserver une valeur m2006 proche de 1997 est plus grande que de lobserver loin. On ne va raisonner sur le positionnement de m2006 mais sur son cart par rapport la moyenne de rfrence : m 2006 1997

m2006-1997

m2006
1997=2006=84,6cm

Par consquent, P(m2006-1997) grand <P(m2006-1997) petit

Sous Ho Si Ho est faux La probabilit dobserver une valeur m2006 proche de 1997 est plus petite que de lobserver loin Par consquent, P(m2006-1997) Grand >P(m2006-1997) Petit m2006-1997
1997=2006 =84,6cm

m2006=88,26

Sous Ho

Sous H1

P(m2006-1997)

P(m2006-2006)

1997=2006=84,6cm

m2006=88,26

2006=?1997

si lon compare les deux hypothse Ho et H1 la probabilit dobserver lcart (m2006-1997) sous lhypothse Ho (1997=2006) (aire rouge) reste suprieure celle dobserver lcart (m2006-2006) sous lhypothse H1 (19972006) (aire bleue)

Sous Ho

Sous H1

Pm2006-1997

Pm2006-2006

1997=2006=84,6cm

2006=?

m2006=100 Supposons un cart observ plus grand, la probabilit dobserver lcart (m20061997 ) sous Ho (aire rouge) diminue et celle dobserver lcart (m2006-2006 ) sous lhypothse H1 (19972006) augmente (aire bleue)

Le problme de rejet ou dacceptation de lhypothse Ho revient donc tudier la probabilit dobserver lcart entre la moyenne observe et la moyenne de rfrence sous cette hypothse On connat la loi de distribution de lcart sous Ho car

m2006 ~ N ( 1997 ;

) n

=>

(m2006 1997 ) ~ N (0;

) n

et donc en divisant lcart par on se ramne une loi n

normale centre rduite sur laquelle on pourra raisonner.

m ( 2006 1997 ) ~ N (0;1) n

Si on ne dispose pas le de la pop de rfrence, on va utiliser la s, lcart type de lchantillon

Appelons Z cet cart rduit

m Z=( ) s n
on peut calculer zo partir des donnes de lchantillon de la population de 2006 et des donnes de la population de 1997
m2006 1997 88, 26 84, 6 zo = ( )=( ) = 9,86 s 4,13 30 n

interprta)on
Donc sous Ho, Z une variable alatoire suit une loi de distribu)on normale .
Sous Ho 1
Loi de distribu8on de Z

interprta)on
Laire de la courbe entre 2 valeurs de Z reprsente la probabilit que Z soit compris entre ces deux valeurs
Sous Ho

On dnit deux valeurs seuils : -Vs et +Vs dlimitant 3 zones. La zone centrale des valeurs probable de Z .

Sous Ho

1 -Vs +Vs

Valeurs probable de Z

On dnit deux valeurs seuils symtrique: -Vs et +Vs dlimitant 3 zones. La zone centrale des valeurs probables de Z et les 2 zones extrieures cet intervalle dont laire totale reprsente les valeurs peu probables de Z.

Sous H0

1 -Vs +Vs

Valeurs peu probable de Z

Valeurs probable de Z

Valeurs peu probable de Z

= 1+ 2 la somme des aires des deux zones extrieures de [-Vs;+Vs] peu probables.
Sous Ho

1 -Vs +Vs

Valeurs peu probable de Z

Valeurs probable de Z

Valeurs peu probable de Z

On en dduit que La probabilit que Z soit infrieur -Vs est gale 1 : P(Z<-Vs)=1 La probabilit que Z soit suprieur +Vs est gale 2: P(Z>+Vs)=2 La probabilit que Z soit lextrieur de lintervalle [-Vs+Vs] est gale : P(Z<-Vs ou Z>+Vs)=1+2= =P(Z>VsI / Ho vraie ) On xe -Vs et +Vs de manire symtrique de sorte que : 1=2,5% ( en loccurrence -Vs=-1,96 et +Vs=+1,96) 2=2,5% Sous Ho =5%

1=2,5%

2=2,5%

-Vs=-1,96

+Vs=+1,96


Valeurs peu probable de Z
Valeurs probable de Z

Valeurs peu probable de Z

-Vs et +Vs dterminent les zones daccepta)on ou de rejet de H0 Mais si on dcide de rejeter H0, il persistera toujours un risque dobserver Zo Ce risque est matrialis par = 1+ 2 est le risque de rejeter H0 alors quen ralit Ho est vrai est dit risque de premire espce

Pour conclure un test, on va donc rechercher la posi)on de Zo par rapport ces seuils

Sous Ho
Zone de rejet Ho

Zone non rejet Ho

Zone de rejet Ho

1=2,5%

2=2,5%


-Vs=-1,96 +Vs=+1,96

Valeurs peu probable de Z

Valeurs probable de Z

Valeurs peu probable de Z

Rsultats dun test de comparaison


Concernant la posi)on de zo on a deux situa)ons. 1er situa)on Si La valeur zo est lintrieur de lintervalle [-Vs;+Vs]. Alors on ne rejeXe pas Ho lobserva)on de cet cart rduit Zo est trop probable sous lHo ( les 2 popula)on de 1997 et 2006 sont supposes iden)ques) On dduit quil nexiste donc pas de une dirence signica)ve entre les paramtres ou les distribu)ons des popula)ons tudies.

Zone de rejet Ho

Zone non rejet Ho

Zone de rejet Ho

1 -Vs=-1,96 Zo

2 +Vs=+1,96

Valeurs peu probable de Z

Valeurs probable de Z

Valeurs peu probable de Z

Rsultats dun test de comparaison


2e situation, linverse Si la valeur zo est lextrieur de lintervalle [-Vs;+Vs].
Ce qui revient dire P(zo>IVsI)< P(zo>1,96)<5% Cela revient dire quil est peu probable dobserver lcart rduit Zo sous Ho Remarque : il est toujours possible de lobserver et cela est due une simple fluctuation dchantillonage

Cependant on dcide de ne pas en tenir compte Alors On rejette donc Ho. Et on accepte H1, lhypothse alternative On dit quil existe une relle diffrence entre les paramtres ou les distributions des populations tudies. Cette diffrence est dite significative

Zone de rejet Ho

Zone non rejet Ho

Zone de rejet Ho

1 -Vs=-1,96

2 +Vs=+1,96 Zo

Valeurs peu probable de U

Valeurs probable de U

Valeurs peu probable de U

P-value
Si on rejeMe Ho, quel est le risque que lon prend dobserver zo si malgr tout Ho est vrai ? Ce risque est matrialis par laire sous la courbe en jaune Cest la probabilit dobserver une valeur aussi grande que zo, si Ho est vrai CeMe probabilit est exprime par la p-value (ou degr de signica)on) Reprsente par laire sous la courbe dlimite par zo La p-value est donne par la table de probabilit de Z en fonc)on de zo

Zone de rejet Ho

Zone non rejet Ho

Zone de rejet Ho

1 -Vs=-1,96

2 +Vs=+1,96 Zo=9,86

P-value<0,001

Valeurs peu probable de U

Valeurs probable de U

Valeurs peu probable de U

Comment dterminer la p-value Ex : test de lcart rduit Z


Zo=9,86

1,28 0,2

1,65 0,1

1,86 0,5

2,33 0,02

2,58

3,3
p<0,001

0,01 0,001

On dispose dun table de Z associant les valeurs de Z au risque Pour un risque x 5%, on cherche la valeur Z immdiatement infrieure zo=9,86 et disponible (ici Z=3,3 associ =0,001) la p-value est donc infrieure 0,001

Hypothse H1
Le rejet de Ho se fait au bnce de lhypothse alterna,ve H1 Il y a 2 hypothses H1 possible H1 bilatrale :
On fait lhypothse que les paramtres des distribu)ons sont dirents (on ne se proccupe pas du sens de la dirence)

H1 unilatrales : il y a 2 sous hypothses alterna)ves unilatrales

le paramtre dune popula)on est suprieur celui de lautre popula)on le paramtre dune popula)on est infrieur celui de lautre popula)on Au concours : pas dhypothse unilatrale

Dans notre exemple : H1 est bilatrale

On veut tester simplement que la moyenne des tours de tailles en 2006 est dirente de 1997 Soit : H1: 20061997

Exemple
On veut comparer la frquence du paludisme dans deux rgions dAfrique.
P1 et P2 les frquences des individus infects dans ces deux rgions. Poser lhypothse nulle Ho Lhypothse alterna)ve H1

Exemple
Ho : P1=P2 : les frquences du paludisme dans les deux popula)ons sont iden)ques H1 : P1P2 : les frquences du paludisme dans les deux popula)on sont direntes. Il sagit dune hypothse alterna)ve bilatrale car on ignore priori dans quelle rgion la frquence du palu est la plus leve.

Exemple
On dsire tester un vaccin contre le paludisme en comparant la survenue de palu entre un groupe vaccin et un groupe tmoin non vaccin. Pct1vac et Pct2non vac les pourcentages des individus infects dans chacune des deux popula)ons reprsentes par les deux groupes. Posez Ho et H1

Exemple
Hypothse nulle : Ho: Pct1vac=Pct2non vac
Le vaccin na aucune ecacit

Hypothse alterna)ve : H1: Pct1vac <Pct2non vac

La frquence des individus infects dans le groupe vaccin est infrieure la frquence dans le groupe non vaccin.

Choix de H1 unilatrale car on sintresse dans ce cas exclusivement aux eets bnques aMendus du vaccin.

risque
Le rejet de Ho se fait au bnce de lhypothse alterna)ve H1 Sous H1, on prend galement le risque de ne pas rejeter Ho alors que Ho est faux. Ce risque est appel risque ou risque de deuxime espce Dans notre exemple =P(Z<IVsI / H1 est vrai)
sous Ho
/2 /2

-Vs
rejet Ho

0
non rejet Ho

+Vs
rejet Ho

sous H1

Risques lis la dcision du test


Une dcision daccepta)on ou de rejet dune hypothse est toujours prise avec incer)tude (car la ralit nest pas connue) Les direntes situa)ons sont rsumes ainsi :
Ralit (inconnue) Ho vrai Ho crdible non rejet dHo Ho non crdible rejet dHo Pas derreur Ho fausse Risque

Dcision retenue via le test

Risque

Pas derreur

Au total : 2 situa)ons
sous Ho
p/2 /2 p/2 /2

-Vs
rejet Ho

-zo

+zo

+Vs
rejet Ho

non rejet Ho

soit IzoI<IVsI
p> (les aires en jaunes) on ne rejeMe pas Ho au risque de le faire tord pas de dirence signica)ve entre les deux popula)ons

sous Ho
/2 p/2 -zo
rejet Ho

/2 p/2 -Vs +Vs +zo


rejet Ho

0
non rejet Ho

soit IzoIIVsI
p on rejefe Ho au risque de le faire tord (on prend priori mois de 5% de risque de se tromper) Il existe une dirence sta8quement signica8be entre les les 2 popula8ons.

Dans notre exemple


IzoI=9,86 IVsI=1,86 IzoIIVsI rejet de Ho la conclusion est que 20061997 Quel est le risque (p-value) de rejeter postriori lHo ? Ce risque est donne par la table de Z : on cherche la valeur immdiatement infrieur IzoI et on prend le risque associ p< 0,0001

Gnralisa)on
sous Ho
p/2 /2 p/2 /2

Loi de distribution de U

-Vs
rejet Ho

-uo

+uo

+Vs
rejet Ho

non rejet Ho

sous Ho
/2 p/2 -Vs +Vs /2 p/2

Loi de distribution de U

-uo
rejet Ho

0
non rejet Ho

+uo
rejet Ho

Lindicateur statistique pris en exemple est lcart rduit Z. Le principe des tests statistiques est gnralisable tout type dindicateur exprimant une diffrence entre les paramtres des populations. Pour gnraliser, on notera cet indicateur U, et uo une estimation de cet indicateur ralis partir de lchantillon

No)on de puissance
La puissance dun test est dnie comme tant gale 1- Elle correspond la probabilit de rejeter Ho quand Ho est fausse (H1 tant vrai) 1-=P(UIVsI / H1 vraie) sous Ho
/2 /2 -Vs
rejet Ho

0
non rejet Ho

+Vs
rejet Ho

sous H1

1- : puissance

Varia)on de la puissance en fnt d


sous Ho sous H1

1-

Vs1

Vs1

sous H1 sous Ho

1-

2 Vs2 Lorsque la puissance du test augmente, on se met dans les conditions o lon souhaite discerner une diffrence lorsquelle existe (sous H1) en contre partie on augmente mcaniquement le risque : on prend plus de risque de ne pas rejeter Ho alors que Ho est vraie

Variation de la puissance en fnt de la taille de lchantillon


sous Ho sous H1

1- 0 Vs 1-

Vs

La prcision dune estimation augmente avec la taille de lchantillon. Cela se traduit par un resserrement de la courbe de distribution autour de la valeur estime. Sous Ho, pour conserver un risque =5%, la valeur Vs seuil diminue. Il sensuit une augmentation de la puissance

exercice
Le rsultat dun test bilatral montre uo=4,5 La table suivante donne les probabilit pour que |U| soit suprieur 2,3,4,5 U 2 0,05 3 0,02 4 0,01 5 0,001

Quen concluez vous ?

uo=4,5

2 0,05

3 0,02

4 0,01

5 0,001

La rgle est si uo>U=5% alors on rejeMe Ho et on garde lhypothse alterna)ve H1 uo=4,5 est suprieur la valeur U5%=2 On rejeMe donc Ho. Pour dterminer p, on prend la valeur de U immdiatement infrieure uo et on regarde le risque associ. La valeur immdiatement infrieure est 4 soit U1%. On conclut donc de rejeter Ho et daccepter H1 avec un degr de signica)on p<0,01

Exercice
Posez Ho et H1 dans les situa)ons suivantes:
Comparaison de 2 traitements nouveaux A et B Comparaison de 4 traitements ABC et D Comparaison dun traitement A versus placebo Varia)on de la hauteur des arbres en fonc)on de leur al)tude

Posez Ho et H1 dans les situa)ons suivantes:

Comparaison de 2 traitement nouveaux A et B Ho : les deux traitements sont quivalents H1 bilatrale : les deux traitement ont une ecacit dirente Comparaison de 4 traitements ABC et D Ho : les 4 traitement sont quivalents. H1 bilatrale : les quatre traitement ont une ecacit dirente. Comparaison dun traitement A versus placebo Ho : le traitement A et le placebo sont quivalent H1 unilatrale: Le traitement A a une ac)vit suprieure au placebo Varia)on de la hauteur des arbres en fonc)on de leur al)tude Ho : il nexiste aucune liaison entre la hauteur des arbre et lal)tude H1 : il existe une liaison nga)ve entre la hauteur des arbres et leur al)tude.

Exercice
Une tude comparant les performances psychomotrices de deux groupes de candidats A et B une qualica)on professionnelle. Les auteurs concluent que les performances du groupe A sont suprieures celles du groupe B avec un risque derreur de moins de 2 % A quoi correspond ce chire : p ?

Exercice
Vous par)ciper la mise au point dun traitement suppos ecace sur une maladie mortelle, mais dangereux en cas du)lisa)on errone. Lecacit du produit est teste sur des groupes danimaux malades et sains. Vous choisissez 10, 5 ou 1 %

Ho : Le traitement nest pas ecace H1 : le traitement est ecace Comme le traitement est dangereux, on veut minimiser le risque de conclure que le traitement est ecace alors quil ne lest pas autrement dit minimiser le risque de rejeter lhypothse nulle alors quelle est vraie. Il faut donc choisir le plus pe)t possible (ici 1%)

Exercice
Vous par)ciper la mise au point dun vaccin poten)ellement ecace dans la prven)on dune maladie grave, et par ailleurs nayant pas deet secondaire. Lecacit est teste en comparant un chan)llon de sujets vaccins par le nouveau vaccin et un chan)llon de sujets vaccins par un vaccin placebo. Vous choisissez de diminuer prioritairement :
puissance taille des chantillon

Ho le vaccin nest pas ecace H1 le vaccin est ecace Ici il ne faudrait pas passer ct dune ecacit relle du vaccin. Donc daccepter Ho alors que Ho est fausse Cest la dni)on du risque On choisira un risque faible. ce choix conduit une augmenta)on de la puissance (1- ) et donc de la taille de lchan)llon

Catgorisa)on des tests Paramtrique et non paramtriques


il existe 2 familles de tests : Les test paramtriques qui comparent les paramtres entres eux, en ncessitant certaines condi)ons sur la distribu)on de la variable. La condi)on la plus frquente est que les distribu)ons correspondent des lois normales Les test non paramtriques ou de rang, qui comparent des distribu)ons, sans hypothse par)culire sur la distribu)on de la variable tudie.

Catgorisa)on des tests test de comparaison et de liaison


Test de comparaison
Comparaison de moyenne Comparaison de pourcentage Comparaison des variances Comparaison des distribu)ons

Tests de liaison

Lien entres 2 variables qualita)ves

Lien entres 2 variables quan)ta)ves

Y a t il un lien entre la couleur des yeux et le sexe des individus ? Y a t il une lien entre le poids des nouveaux n et le poids de leurs mres ?

Catgorisa)on des tests chan)llons indpendants ou dpendant Sries indpendantes


Linforma)on concernant la variable tudie est mesure sur deux ou plusieurs chan)llons indpendants. ex : Comparaison des dures moyennes de sjour (DMS) dans les service de ranima)on chirurgicale (DMSReaChir) et de ranima)on mdicale (DMSReaMed)

Catgorisa)on des tests chan)llons indpendants ou dpendant


Echan)llons dpendants (ou sries apparies)
Les mesures eectues sont eectues chez les mmes individus. but : raliser des comparaisons pour un mme groupe mais dans des situa)ons direntes. Intrt : limina)on de la variabilit entre individus de la mme srie (il sagit des mmes). On ne prend en compte que la dirence entres paires de mesures. un test appari est donc plus puissant quun simple test de comparaison. ex : On mesure un nouveau traitement du diabete en mesurant leet sur la glycmie chez 15 sujets avant et aprs la prise du nouveau traitement

Le choix dun test


Le choix dun test dpend de :
du type de variables mises en relation
variable qualitative vs variable qualitative variable quantitative vs variable qualitative variable quantitative vs variable quantitative

de la taille des chantillons


taille infrieure 30 Taille de lchantillon > 30 : permet dutiliser un test paramtrique fond sur une loi normale

Les conditions dapplications


Elles sont spcifiques pour chaque test, si elles ne sont pas remplies on sorientera vers des tests non paramtriques plus souple dutilisation (mais gnralement moins puissants).

Le caractre dpendant ou indpendant des chantillons

Choix dun test


Echan)llons indpendants Type de variable
Paramtrique Non Paramtrique test du 2 qual vs qual test exact de Fisher Test Z Test de student non appari ANOVA Test U de Test de Student Mann-Whitney appari Test de Kruskall-Wallis r de Pearson r de Spearman Test de McNemar Test de Wilcoxon

Echan)llons dpendants
Paramtrique Non paramtrique

quant vs qual

2 chan)llons > 2 chan)llons

quant vs quant

2 Test du

Test du 2
Formula)on quivalente : Test du chi-deux, du chi-carr, du 2 Pearson Ils servent tudier la rela)on entre 2 variables qualita)ves : Liens entre survenue dune maladie (M+,M-) et sexe (M,F) Catgorie socioprofessionnelles et dpartement bretons % des prmaturs en France versus Angleterre

Tableau de con)ngence
sapplique des eec)fs regroups sur un tableau de con)ngence Un tableau comportant des eec)fs observs (Oij) dans ces cases et les totaux de chaque ligne et de chaque colonne dans ses marges
Classes de la variable A A1 A2 Ai Total n1 n2 Oij nj ti N B1 O11 O21 B2 O12 Bj Total t1 t2

Comparaison de 2 pourcentages (5)

Interprta)on du test de 2 ( = 5%)


Condi)on dapplica)on :
Les eec)fs thoriques doivent tre suprieurs ou gaux 5

H1 bilatrale :
Si 2o est infrieur 25% on ne rejeMe pas H0. : pas de lien entre les 2 variables, ou pas de dirence entre les % Si 2o est suprieur 25% on rejeMe H0 : il existe un lien signica)f entre les 2 variables, ou dirence signica)ve entre les %. On cherche alors p.

Comparaison de 2 pourcentages (1)


Exemple de problme :
Des pa)ents aMeints de la mme maladie ont t traits par deux traitements dirents. Parmi les 70 qui ont reu le traitement A, 22 (31,4%) ont guri. Parmi les 50 qui ont reu le traitement B, 25 (soit 50%) ont guri. Le taux de gurison est il dirent entre les deux traitement ?

Test de T

Exercice : 1 chan)llon / popula)on


Dans un chan)llon de 18 sujets suspects dtre aMeints de trypanosomiase, on mesure la quan)t de protines dans le liquide cphalorachidien. On trouve dans ce groupe une protinorachie moyenne de 460 mg/l avec un cart type de 280 mg/l. Dans la popula)on gnrale, la protinorachie est en moyenne de 300 mg/l. On se demande si ce groupe de sujet prsente une protinorachie dirente de normale ? Formulez les hypothses H0 et H1 Quel test u)lisez-vous ? Jus)ez la rponse Que concluez vous ?

Rponse
H0: la protinorachie des sujets aMeints de drpanocytose ne dire pas de celle de la popula)on gnrale H1: la protinorachie des sujets aMeints de drpanocytose est dirente de celle de la popula)on n < 30 : Test de T Condi)on dapplica)on : on suppose que la protinorachie est distribue normalement chez les sujets aMeints de drpanocytose to>t5%: on rejeMe H0 la protinorachie des sujets aMeints de drpanocytose est signica)vement dirente de celle de la popula)on p < 0,03

Exercice 2 : comparaison de 2 chan)llons independants


On a mesur un marqueur biologique chez 2 sries de sujets, lune compose de sujets sains, lautre de sujets aMeints dhpa)te alcoolique. Ltude a trouv les rsultats suivants:
Effectif (n) Sujets sains Sujets alcooliques 15 12 Moyenne du marqueur (g/l) 1,6 1,4 Ecart type 0,19 0,21

On veut comparer les 2 popula)ons. Formuler les hypothses Quel test choisissez vous ? Quelles en sont les condi)ons dapplica)on ? Que concluez vous ?

Exercice (2)
H0: la valeur moyenne du marqueur est iden)que dans les 2 popula)ons H1: la valeur moyenne du marqueur est dirente chez les sujets aMeints dhpa)te alcoolique

n < 30 : test de T Condi)on dapplica)on : on suppose que :


le marqueur se distribue normalement dans les 2 popula)ons Les variances des 2 popula)ons sont gales

Calcul du test = on rejeMe H0 Les malades aMeints dhpa)te alcoolique prsentent une valeur du marqueur signica)vement dirente de celle des sujets sains p < 0,02

Exercice (1)
On dsire tudier leet dune nouvelle stratgie de traitement du diabte sur la glycmie. On dose la glycmie chez 15 sujets avant le dbut du nouveau protocole (srie A) et 3 mois aprs (srie B) :
A B 2,47 2,30 3,09 2,96 2,14 2,23 2,47 2,34 3,06 2,84 2,72 2,59 2,29 2,15 1,90 1,88 2,34 2,32 2,75 2,65 2,67 2,68 2,80 2,58 2,51 2,43 2,23 2,02 2,20 2,17

Le nouveau protocole est-il ecace ? Formuler les hypothses Quel test choisissez vous ? Quelles en sont les condi)ons dapplica)on ? Que concluez vous ?

Rponse
Comparaison de moyennes sur sries apparies :
H0 : les glycmies sont iden)ques avant et aprs le nouveau protocole H1 : la glycmie est abaisse grce au nouveau protocole

n < 30 : test de T Condi)on dapplica)on : la dirence de glycmie avant et aprs le traitement est distribue de faon normale Calculs : on rejeMe H0 La glycmie est abaisse signica)vement aprs administra)on de la nouvelle stratgie p < 0,0005

Corrla)on et Rgression linaire

Reprsenta)on graphique
Etudier le lien entre 2 variables quan)ta)ves : scaMer ou nuage de points Reprsenter les couples de valeurs (x,y)
1 individu : Mr Dupont 1,85 m et 74 kg

Correla)on et rgression
La rgression permet dtudier lassocia)on entre deux variables quan)ta)ves, en tudiant les varia)ons de lune en fonc)on des valeurs de lautre. Le coecient de corrla)on est une mesure dassocia)on entre deux variables quan)ta)ves faisant jouer des rles symtriques aux valeurs. On cherche savoir simplement sil existe une liaison entre ces deux variables et quan)er lintensit de la liaison

Interprta)on de
>0 <0

=0

Proprit de
est toujours compris entre -1 et 1 permet de mesurer la FORCE DE LASSOCIATION entre X et Y. Plus est proche de +1 ou de -1, plus lassocia)on est forte

Test du r
Rappel : r concerne les variables dun chan)llon Le calcul de r peut tre sujet uctua)on. Tester r, cest tenter darmer ou pas que sa valeur est sta)s)quement signica)ve et ce avec un risque matris (p<0,05) Mme mcanisme que pour les autres test : hypothses sur la popula)on Ho = Hypothse nulle : =0 H1 = Hypothse alterna)ve :

=0

(test bilateral)

Rgression linaire

Exemple
Terme (semaine) 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 Poids moyen de naissance (grammes) 1146,92 1292,73 1694,52 1892,00 1986,11 2000,34 2119,46 2290,85 2569,11 2800,77 3019,50 3210,61 3364,59 3475,05 3553,32 3582,63 3604,81

Termes de naissances (X) et les poids de naissance (Y) dune POPULATION de nouveau n

Exemple
Le poids moyen varie en fonc)on du terme il y a une liaison entre le terme et le poids de naissance La courbe de rgression est celle qui joint les points successifs La FONCTION de REGRESSION est la fonc)on qui permet de dcrire mathma)quement ceMe courbe

La droite de rgression permeMant de mieux reprsenter les points est : = + x Sans tre strictement linaire, la liaison entre le terme et le poids peut tre reprsente par une droite. On es)me et On teste si est signica)vement dierent de 0

Comment interprter et
= - 3115,6 + 162,30 x Es)ma)on de = 162,30 (p=0,003) augmenta)on moyenne du poids de naissance quand le terme augmente dune semaine Augmenta)on MOYENNE Les poids de 2 bbs ns 1 semaine dintervalle dirent EN MOYENNE de 162,30 g Elle nest considrer que sur la priode considre na pas dinterprta)on concrte. au poids moyens des nouveau ns ayant un terme = 0 semaine

Rgression linaire mul)ple


Y=1X1 + 2X2 ++ nXn +
Y = variables dpendantes Xn covariables ou variables explica)ves

Taille dni,ve (cm) = 0,881xT 0,198xP 1,597xAO + 0,403xTP + 3,958 T : taille actuelle, P: actuel, AO= ge osseux, TP= moy taille parents Montre que la taille dni)ve dpend de dirents facteurs Montre le poids rela)f des facteurs Taille actuelle >5 cm taille dni)ve = 0,881x5cm = 4,4cm

Chaque coecient est test (par rapport 0) Exprim soit avec le p soit avec intervalle de conance : IC AO [-1,3;3] Si lIC inclut 0 alors pas signica)f

Rgression logis)que
Idem rgression linaire Variable dpendante : qualita)ve binaire
Ex : survenue ou pas dune HTA Logit probaHTA =0,068xtabac + 0,7xOb+0,9xRonf Les Co-variables sont qualita)ves ou quan)ta)ves
Les exp odd ratio. : OR Ronf = exp(0,9) = 2,5 les sont tests (p ou IC) : pas de significatif si contient 1

Introduc)on lanalyse de survie

Etude de survie
Principe :
Sintresser la survenue dun vnement dcs au cours du temps Prendre en compte les donnes incompltes ou censures. Descrip)on de la survie dun groupe de sujet Comparaison de la survie de 2 ou plusieurs groupes dans un but
Pronos)que Ou dinterven)on (traitement, programme sanitaire, etc)

Champs dapplica)on

Lvnement peut tre toute variable dtat de nature binaire

Exemple dorigines et dvnements

En pra)que clinique
La descrip)on des vnements est rarement exhaus)ve.
Il est rare de comptabiliser tous les dcs
Observations compltes Observations incompltes

Dni)ons pour lanalyse de survie


Date dorigine
Date de dbut de prise en compte du suivi des observa)ons
Essai thrapeu)que : par ex date du )rage au sort Etude pronos)que : date du diagnos)c

Date des dernires nouvelles Etat aux dernires nouvelles

Date laquelle les derniers renseignements concernant ltat du sujet ont t colligs tat caractris par une variable binaire : par ex : vivant ou dcd.

Dni)ons pour lanalyse de survie


Date de point :
Choix dune date au-del de laquelle on ne )endra pas compte de ltat

Recul :
Dlai coul entre la date dorigine et la date de point

Temps de par,cipa,on
Calcul par)r de la date dorigine et de la date des dernires nouvelles ou de la date de point

Date dorigine

Date des dernires nouvelles

Date de point

Temps de participation

temps

Recul

Dni)ons pour lanalyse de survie


Perdu de vue :
Sujet dont on ne connat pas ltat la date de point

Exclu vivant :
Sujet vivant la date de point

Dni)ons pour lanalyse de survie


Les dates permeMent de calculer la dure du suivi pour chaque sujet ou le temps de par)cipa)on l'tude. On dis)ngue deux situa)ons : le dcs est survenu au cours du suivi, c'est--dire avant la date de point (ou date de n de suivi). La dure de suivi est calcule entre la date d'origine et la date du dcs. le dcs n'est pas observ au cours du suivi sa dure est alors censure. Deux cas se prsentent alors

Exclus-vivants
soit le sujet n'est pas dcd la date de point.
Il est dit exclu-vivant. Sa dure de suivi est gale la dirence entre la date de point et la date d'origine. Mais, cela ne signie pas qu'il est exclu de l'tude. Au contraire, on enrichit l'analyse
Date dorigine Date de point

temps

Temps de participation

Perdus de vue
soit le sujet est perdu de vue.
Il ne vient plus aux visites de surveillance. Sa dure de suivi est gale la dirence entre la date des dernires nouvelles et la date d'origine. Les perdus de vue requirent une analyse aMen)ve car il faut s'assurer que le mcanisme par lequel ils sont perdus de vue est indpendant du phnomne tudi, sinon un biais est introduit dans l'analyse.
Date dorigine

Date des dernires nouvelles

Date de point

Temps de participation

Reprsenta)on graphique : courbe de survie

Sujet n1 DCD S(3)=0,9

Intervalle de conance de les)mateur de kaplan Meier


Reprsenta)on graphique des intervalles de conance

Mdiane de survie
Dnie comme le temps auquel la fonc)on de survie es)me vaut 0,5.

Comparaison des courbes de survie


Donnes du problmes :
tude de popula)on prsentant le syndrome dAlport. vnement tudi : survenue dune insusance rnale terminale

Ex : Comparer les courbes de non survenue de l'insusance rnale terminale chez les hommes par rapport aux femmes issus de familles direntes.

Comparaison des courbes de survie

Le test du Log Rank


Comment vrier si ceMe dirence entre les 2 groupes est signica)ve au seuil de 5 % ?
La mthode sta)s)que la plus employe est le test du logrank consiste comparer le nombre d'vnements observs, ici l'insusance rnale terminale, au nombre d'vnements aMendus,

Si le test est signica)f, les 2 courbes sont signica)vement direntes

Limites de linterprta)on
Chirurgie

Courbes qui se croisent

Chimiothrapie

Dans ce cas, les risques s'inversent pour chaque groupe un moment donn. Le test du logrank n'est plus appropri. dans un groupe, la mortalit postopratoires est prcoce aprs la chirurgie d'un cancer mais qu'elle se stabilise ultrieurement et si la mortalit ini)ale est modre aprs chimiothrapie mais qu'elle est importante ultrieurement, la dcision mdicale peut en tre modie.

Par exemple si,

Un nouveau protocole peut permeMre de prciser ces prols de mortalit diren)elle.

Limites de linterprta)on des courbes de survie


Des interprta)ons errones lies la lecture de la par)e droite d'une courbe de survie. Il est habituel qu'une courbe s'aplanisse aprs un certain dlai lorsque la survenue des vnements est moins frquente.
Il n'est pas judicieux d'interprter cet aplanissement comme porteur de sens sauf si le nombre de sujets encore risque reste encore important. A l'inverse, si la dernire donne est un dcs, la courbe de survie plonge vers l'axe des abscisses. Ceci ne signie pas qu'aucun sujet ne survivrait au del de ce temps de suivi.

Mthode actuarielle
Mme principe que KM U)le lorsque les eec)fs sont importants Les taux sont valus intervalle rgulier xs a priori (par exemple tous les mois, ou tous les ans )

ACTUARIELLE

KAPLAN MEIER

Vous aimerez peut-être aussi