Vous êtes sur la page 1sur 199

Estadsitica inferencial;

Prueba de hiptesis

Matemticas para la Computacin


Dr. Felipe Orihuela-Espina
Estadstica inferencial

Lord Sir Ernest Rutherford of


Nelson
If your experiment Neo Zelands / Britnico,
1871-1937
needs statistics, you Padre de la fsica nuclear
ought to have done a Descubridor del protn
Nobel de Qumica 1908
better experiment.

(c) 2012-6 Dr. Felipe Orihuela


2
Espina
Contenidos
1. Contraste o Testeo de Hiptesis
2. Errores de tipo I y tipo II.
1. p-valor
2. Especificidad, sensitividad, ROC
3. Tests estadsticos bsicos
4. Intervalos de confianza
5. Un anotador vs multiples anotadores
1. Intra-rater and inter-rater score

(c) 2012-6 Dr. Felipe Orihuela


3
Espina
Lecturas recomendadas
Dean, A and Voss, D. Design and Analysis of
Experiments. Springer (1999)

DeGroot, M- H. y Schervish, M.-J. Probability and


Statistics. 4a Ed. 2012 Cap 9

Martin Bland An introduction to Medical Statistics


Oxford Medical Publications, 3rd Edition (2000) 405pgs

Prueba de hiptesis
Wayne, WD (2008) Bioestadstica para el anlisis de las
ciencias de la salud. Wiley, 4 Edicin (en espaol). Cap 7

(c) 2012-6 Dr. Felipe Orihuela


4
Espina
Lecturas recomendadas
Intervalos de confianza:
Altman et al Eds. (2000) Statistics with Confidence: Confidence intervals and
statistical guidelines, 2nd Edition, Wiley
Efectivamente, un libro completo slo sobre intervalos de confianza
Desafortunadamente no tengo acceso al libro
http://www.wiley.com/WileyCDA/WileyTitle/productCd-0727913751,descCd-
tableOfContents.html

Gardner MJ y Altman DG (1986) Confidence intervals rather than P values:


estimation rather than hypothesis testing BMJ 292:746-750
>1200 citas (Google scholar)
No tiene desperdicio

duPrel, JB et al (2009) Confidence Interval or P-Value? Deutsches rzteblatt


International; 106(19): 3359

Loftus GR y Masson ME (1994) Using confidence intervals in within subjects


designs Psychonomic Bulletin &Review 1(4):476-490

(c) 2012-6 Dr. Felipe Orihuela


5
Espina
Lecturas recomendadas
Anotadores:
Gwet, KL (2008) Computing inter-rater reliability and its
variance in the presence of high agreement British
Journal of Mathematical and Statistical Psychology
61:29-48

Bland JM y Altman DG (1986) Statistical methods for


assessing agreement between two methods of clinical
measurement Lancet 327(8476):307-310

Banerjee M (1999) Beyond Kappa: A review of interrater


agreement measures The Canadian Journal of Statistics
27(1):3-23
(c) 2012-6 Dr. Felipe Orihuela
6
Espina
Lecturas recomendadas
Otros recursos:
http://www.mathtrench.com/contents/Statistics
+1000 problemas resueltos incluyendo:
Estadstica descriptiva
Distribuciones de probabilidad
Estadstica no paramtrica
Estadstica inferencial
Correlaciones y regresiones
Prueba de hiptesis
Intervalos de confianza
Requiere registrarse pero es gratuito

(c) 2012-6 Dr. Felipe Orihuela


7
Espina
CONTRASTE O TESTEO DE
HIPTESIS
(c) 2012-6 Dr. Felipe Orihuela
8
Espina
Citas sobre la significancia estadstica
[BlandM1996] Acceptance of statistics, though gratifying
to the medical statistician, may even have gone too far.
More than once I have told a colleague that he did not
need me to prove that his difference existed, as anyone
could see it, only to be told in turn that without the magic
p-value he could not have his paper published.

[Nicholls in KatzR2001] In general, however, null


hypothesis significance testing tells us little of what we
need to know and is inherently misleading. We should be
less enthusiastic about insisting on its use.

(c) 2012-6 Dr. Felipe Orihuela


9
Espina
Citas sobre la significancia estadstica
[Falk in KatzR2001] Significance tests do not provide the
information that scientists need, neither do they solve the
crucial questions that they are characteristically believed to
answer. The one answer that they do give is not a question
that we have asked.

[DuPrelJB2009] Unfortunately, statistical significance is often


thought to be equivalent to clinical relevance. Many research
workers, readers, and journals ignore findings which are
potentially clinically useful only because they are not
statistically significant. At this point, we can criticize the
practice of some scientific journals of preferably publishing
significant results [...] ("publication bias").
(c) 2012-6 Dr. Felipe Orihuela
10
Espina
Citas sobre la significancia estadstica
[GardnerMJ1986, co-authored by Altman] ...the use of statistics
in medical journals has increased tremendously. One unfortunate
consequence has been a shift in emphasis away from the basic
results towards an undue concentration on hypothesis testing. In
this approach data are examined in relation to a statistical "null"
hypothesis, and the practice has led to the mistaken belief that
studies should aim at obtaining "statistical significance. [...] The
excessive use of hypothesis testing at the expense of other ways
of assessing results has reached such a degree that levels of
significance are often quoted alone in the main text and abstracts
of papers, with no mention of actual concentrations, proportions,
etc, or their differences. The implication of hypothesis testing-
that there can always be a simple "yes" or "no" answer as the
fundamental result from a medical study-is clearly false and used
in this way hypothesis testing is of limited value.

(c) 2012-6 Dr. Felipe Orihuela


11
Espina
Prueba de hiptesis

Considerado el padre de la estadstica


inferencial
Creador de ANOVA entre otros

Trabajo principalmente en Cambridge y UCL,


fue miembro de la Royal Society
Reemplaz a Pearson en su ctedra en UCL

Cmo buen genio trabajo en otros campos:


matemticas, biologa evolutiva, gentica, etc
De hecho, tambin es el padre de la gentica
poblacional, que describe los fenmenos evolutivos
en funcin de la variacin y distribucin de la
frecuencia allica
Tambin descubri la utilidad del uso de los Sir Ronald Aylmer Fisher (1890-196
cuadrados latinos para mejorar significativamente los
mtodos agrcolasy algunos enlaces:
Una biografa
Britnico
http://www-history.mcs.st-andrews.ac.uk/Biographies/Fisher.html
Enlace vigente a 16-Nov-2015.
(c) 2012-6 Dr. Felipe Orihuela
12
Espina
Prueba de hiptesis
El mtodo cientfico en breve
1. Observacin de un fenmeno fsico
2. Emisin o postulacin de una hiptesis o
explicacin plausibleOdelbsefenmeno que pueda
e v i r
tado va que h
explicar las observaciones
d e m usar e
3. Experimentcin alterando l a pa
ostra las condiciones y
r (au
auto el fenmeno l ab
midiendo/observando res q n q u e ra
en condiciones
cambiantes En g ue s h ay
ener la us
a
4. Confirmacin o refutacin
c a l , a n).
umu slo basada
la hiptesis en
la ev recogida se en el
la evidencia (observaciones) iden
experimento
c ia.
1. Si se confirma se obtiene una tesis o teora cientfica.
(c) 2012-6 Dr. Felipe Orihuela
13
Espina
Prueba de hiptesis

The scientific method


Divulgative Formal
Observation of a Establishment of a XRY|C
phenomenon formal construct
Emission of a Formulation of a Y=f(X,C)
falsable hypothesis model
Experimentation Experiment design,
(or analytical data harvesting
development) and analysis
Confirmation or Validity of model XRY|C Y=f(X,C)
rejection of
hypothesis
Elaboracin propia.
(c) 2012-6 Dr. Felipe Orihuela
14
Espina
Prueba de hiptesis
Fenmeno
En la filosofa de Immanuel Kant, lo que es objeto de la experiencia
sensible.
[Real Academia Espaola de la Lengua]

In philosophy, any object, fact, or occurrence perceived or observed. In


general, phenomena are the objects of the senses (e.g., sights and
sounds) as contrasted with what is apprehended by the intellect.
[Enciclopedia britnica]

Un evento observable
[American Heritage Dictionary of the English Language]

Un fenmeno es cualquier ocurrencia o evento observable


directamente o mediante instrumentacin.
O incluso indirectamente! mediante la observacin de sus consecuencias
https://en.wikipedia.org/wiki/Phenomenon

(c) 2012-6 Dr. Felipe Orihuela


15
Espina
Prueba de hiptesis
Hiptesis (o conjetura)
Una hiptesis es una explicacin propuesta para un
fenmeno
[https://en.wikipedia.org/wiki/Hypothesis]

Una hiptesis es una suposicin de algo posible o imposible


que se establece provisionalmente como bse de una
investigacin que puede confirmar o negar la validez de
aquella.
[Real Academia Espaola de la Lengua]

Una hiptesis es una proposicin consistente con las


observaciones, pero que no ha sido verificada ni refutada.
[http://mathworld.wolfram.com/Hypothesis.html]
(c) 2012-6 Dr. Felipe Orihuela
16
Espina
Prueba de hiptesis
Hiptesis
Existen 2 tipos de hiptesis:

De investigacin o cientfica

Estadstica

Ambos tipos de hiptesis estn relacionadas.

(c) 2012-6 Dr. Felipe Orihuela


17
Espina
Prueba de hiptesis
Hiptesis de investigacin o cientfica
La hiptesis de investigacin es una afirmacin
sobre la asociacin o relacin esperada entre
variables.
por ende, una hiptesis bien definida indica al
menos, implcita o explcitamente, las variables
independientes y las dependientes, y
preferiblemente tambin las controladas.
O sea, es un modelo.

Es la conjetura que motiva la investigacin


[WayneWD2008]
(c) 2012-6 Dr. Felipe Orihuela
18
Espina
Prueba de hiptesis
Hiptesis de investigacin o cientfica
La hiptesis cientfica debe ser falseable o refutable
esto implica que se pueden disear experimentos que en el caso
arrojar resultados distintos a los predichos, negaran la hiptesis
puesta a prueba
Puede ser refutable de forma directa o indirecta.

Falsabilidad (refutabilidad) es la propiedad que tendr una


proposicin universal si existe al menos un enunciado
lgicamente posible que se deduzca de ella que pueda
demostrarse falso mediante observacin emprica. Si ni
siquiera es posible imaginar un enunciado empricamente
comprobable que contradiga la proposicin original, entonces
tal proposicin no ser falsable.
La falsabilidad es un pilar del mtodo cientfico
(c) 2012-6 Dr. Felipe Orihuela
19
Espina
Prueba de hiptesis
Hiptesis de investigacin o cientfica
La hiptesis cientfica debe ser operacional
esto implica que este formulada claramente, sin
ambigedades, de modo que a partir de ella se
pueda efectuar la deduccin, estableciendo
claramente (i) la relacin de las variables, (ii) las
implicaciones de las relaciones establecidas y (iii)
la descripcin clara de los ndices que han de
utilizarse.

(c) 2012-6 Dr. Felipe Orihuela


20
Espina
Prueba de hiptesis
Hiptesis de investigacin o cientfica
A menudo se expresan en forma de afirmaciones de tipo Si-
entonces.
Ejemplos:
Si se ingiere una aspirina, entonces el dolor disminuye
Si fumar causa cncer de pulmn, entonces aquellos individuos que fuman deben
tener una frecuencia ms alta de desarrollo de la enfermedad.

Lectura recomendada:
Castillo Bautista, R.: La hiptesis en investigacin, Contribuciones a las
Ciencias Sociales, abril 2009
www.eumed.net/rev/cccss/04/rcb2.htm
Enlace vigente a 16-Nov-2015.
MUY recomendada y est en espaol
http://www.sciencebuddies.org/blog/2010/02/a-strong-hypothesis.php
Enlace vigente a 16-Nov-2015.
Algunos consejos sobre como formular una hiptesis

(c) 2012-6 Dr. Felipe Orihuela


21
Espina
Prueba de hiptesis
Ejercicio: Un trabajador de una piscifactora observa el
siguiente fenmeno: Las truchas arcoris tienen ms
liendres en verano cuando el nivel del agua baja. Cul
de estas dos hiptesis est mejor formulada?
a) El nivel o altura del agua afecta a la cantidad de liendres
padecidas por la trucha arcoris
b) La trucha arcoris padece ms liendres en condiciones de
niveles de agua baja por que el agua contiene menos oxgeno
Solucin:
La segunda es la correcta; establece los participantes (las truchas), las
variables independientes (oxgeno en el agua) y dependientes (nmero de
liendres) e indica el efecto predicho (aumento del nmero de liendres como
consecuencia de una disminucin del oxgeno).
La primera no es falseable; no se puede disear un experimento que la
confirme ya que no explica el porqu ocurre el fenmeno observado y carece
de variables establecidas y controladas. Observa que el nivel o altura del
agua, no es una variable, sino parte del fenmeno observado.
Ejemplo modificado de: [http://explorable.com/how-to-write-a-hypothesis y
http://www.sciencebuddies.org/blog/2010/02/a-strong-hypothesis.php]
(c) 2012-6 Dr. Felipe Orihuela
22
Enlaces vigentes a 16-Nov-2015. Espina
Prueba de hiptesis
Ejercicio: Indica si las siguientes hiptesis
estn bien o mal formuladas y por qu:
a) Nuestro universo est rodeado por otro universo
mayor, con el que no tenemos contacto
b) Las plantas infectadas de insectos fidos
expuestas a catarinas/mariquitas presentarn
menos insectos fidos tras una semana en
comparacin con plantas infectadas que no sean
expuestas a catarinas/mariquitas
c) Las catarinas/mariquitas son un buen pesticida
natural para tratar plantas afectadas por insectos
fidos
Ejemplo de: [http://www.sciencebuddies.org/blog/2010/02/a-strong-
hypothesis.php] (c) 2012-6 Dr. Felipe Orihuela
23
Enlace vigente a 16-Nov-2015. Espina
Prueba de hiptesis
Solucin:
a) Mal formulada. Independientemente o no de si es cierta, la
hiptesis es inherentemente no falseable; no hay ninguna
medicin/observacin con la que podamos demostrar o refutarla. Esto
es una especulacin, no una hiptesis.

b) Bien formulada. Indica la variable independiente (exposicin a


catarinas/mariquitas), la variable dependiente (nmero de insectos
fidos), y predice el efecto (la exposicin reduce el nmero de fidos).
Es ms incluso da una direccin para el experimento (la capacidad de
la catarina/mariquita de atacar la infeccin en una semana)

c) Mal formulada. Contiene ambigedades; son un buen pesticida


natural demasiado vago. Adems carece de una indicacin clara de
cmo se va a medir el efecto.

Ejemplo de: [http://www.sciencebuddies.org/blog/2010/02/a-strong-


hypothesis.php] (c) 2012-6 Dr. Felipe Orihuela
24
Enlace vigente a 16-Nov-2015. Espina
Prueba de hiptesis
Hiptesis estadstica
Una hiptesis estadstica es una proposicin
o supuesto acerca de una o ms poblaciones
[WayneWD2008]

La hiptesis estadstica se formula como


parte de una prueba de hiptesis o test
estadstico.

(c) 2012-6 Dr. Felipe Orihuela


25
Espina
Prueba de hiptesis
Hiptesis estadstica

Un hiptesis estadstica es simple si su formulacin


slo requiere de igualdades.
Ejemplos: a=0, a=b=c, a+b=c

Un hiptesis estadstica es compuesta si su


formulacin requiere de desigualdades (distinto de,
mayor que, menor que, etc)
Ejemplos: a0, a>0, a<b<c, a+b<c

A su vez, puede ser de un lado (mayor/menor) o de dos


lados (distinto de)

(c) 2012-6 Dr. Felipe Orihuela


26
Espina
Prueba de hiptesis
Qu es un test estadstico o prueba de
hiptesis?
Es un mecanismo para determinar si hay suficiente
evidencia para rechazar o aceptar una conjetura.

El test estadstico se utiliza para aceptar o rechazar


hiptesis estadsticas

La prueba de hiptesis es el uso de la estadstica para


determinar la probabilidad que una determinada
hiptesis es cierta.
[http://mathworld.wolfram.com/HypothesisTesting.html]
Enlace vigente a 16-Nov-2015.

(c) 2012-6 Dr. Felipe Orihuela


27
Espina
Prueba de hiptesis
Prueba de hiptesis:
El propsito de la prueba de hiptesis es:
ayudar al investigador a tomar una decisin acerca de la poblacin
mediante el examen de una muestra. [WayneWD2008]

decidir si un parmetro cualquiera yace en un subconjunto del


espacio de parmetros, o en su complemento [DeGroot MH 2012,
Cap 9]

...tomar una decisin con base en las muestras sobre si rechazar


ciertas restricciones se cumplen en el modelo asumido. [UrielE2012]

La prueba de hiptesis siempre es sobre parmetros de


poblacin [UrielE2012]

(c) 2012-6 Dr. Felipe Orihuela


28
Espina
Prueba de hiptesis
Prueba de hiptesis:

Un test estadstico es una funcin definida


sobre una muestra aleatoria, y por ende es
una variable aleatoria.

(c) 2012-6 Dr. Felipe Orihuela


29
Espina
Prueba de hiptesis
El test estadstico se utiliza para aceptar o
rechazar hiptesis estadsticas. Siempre consta
de 2 hiptesis:

Hiptesis nula (H0): No hay diferencias o relacin


entre las variables; las diferencias son debidas al
azar
Ejemplo: H0: 1=2

Hiptesis alternativa (Ha o H1): Existe una


diferencia o relacin genuina entre las variables
Ejemplo: Ha: 12
(c) 2012-6 Dr. Felipe Orihuela
30
Espina
Prueba de hiptesis
Hiptesis nula y alternativa:

En principio; tanto la hiptesis nula como la


alternativa pueden ser simples o compuestas

pero es ms comn:
Hiptesis nula simple
Hiptesis alternativa compuesta

(c) 2012-6 Dr. Felipe Orihuela


31
Espina
Prueba de hiptesis
Hiptesis nula y alternativa:
Ejemplo:
Pregunta de investigacin: Son los hombres ms
altos que las mujeres?
Hiptesis nula: No hay diferencia en la altura entre
gneros
Hiptesis alternativa: Hay una diferencia en la altura
debida al gnero

Figure de: [genderedinnovations.stanford.edu]

(c) 2012-6 Dr. Felipe Orihuela


32
Espina
Prueba de hiptesis

Proceso de prueba de hiptesis


(informal)
1. Definir las hiptesis
Vam nula y alternativa
os a
2. Tomar datos u ir vien
paso no de do c
ada
3. Elegir la pruebas/elestadstica
orde ement tos
e s apropiada
4. n) del
Calcular elrevalor os(score
a lo test (no -t,F, 2)
sto d larg en
o
e lao no la dhiptesis
5. Decidir si rechazar unid el nula
a d*
basndose alguna regla de decisin

* Salvo el paso 2.
(c) 2012-6 Dr. Felipe Orihuela
33
Espina
Prueba de hiptesis

Proceso de prueba de hiptesis


(informal)
1. Definir las hiptesis nula y alternativa
2. Tomar datos
3. Elegir la prueba estadstica apropiada
4. Calcular el valor del test (score -t,F,2)
5. Decidir si rechazar o no la hiptesis nula
basndose alguna regla de decisin

(c) 2012-6 Dr. Felipe Orihuela


34
Espina
Prueba de hiptesis
De la hiptesis de investigacin a la
hiptesis estadstica.
Intuitivo:
Ciencia Estadstica

Azar Hiptesis nula

Hiptes Hiptesis
is alternativa
cientfi
ca (c) 2012-6 Dr. Felipe Orihuela
Espina
35
Prueba de hiptesis
De la hiptesis de investigacin a la
hiptesis estadstica.
Ejemplo:
Supongamos un experimento para determinar el
efecto de 2 metodologas de enseanza.
El primer mtodo implica clases con un profesor y
seminarios, el segundo involucra nicamente las clases
con el profesor.

Hiptesis de investigacin: Si los estudiantes


asisten a seminarios, adems de tomar las clases
con un profesor, su rendimiento mejora
Fuente: [https://statistics.laerd.com/statistical-guides/hypothesis-testing.php]
(c) 2012-6 Dr. Felipe Orihuela
36
Espina
Prueba de hiptesis
De la hiptesis de investigacin a la
hiptesis estadstica.
Ejemplo (continuacin):
Definimos las distribuciones que se van a
comparar:
Distribucin 1 (sin seminarios): Grupo de n alumnos que
asisten a clases con un profesor pero no toman
seminarios

Distribucin 2 (con seminarios): Grupo de n alumnos que


asisten a clases con un profesor y adems toman
seminarios

(c) 2012-6 Dr. Felipe Orihuela


37
Espina
Prueba de hiptesis
De la hiptesis de investigacin a la
hiptesis estadstica.
Ejemplo (continuacin):
Finalmente, re-expresamos la hiptesis de
investigacin en trminos de las hiptesis
estadsticas:
Hiptesis nula: Tomar seminarios no mejora el
rendimiento de los estudiantes
Hiptesis alternativa: Tomar seminarios tiene un efecto
positivo en el rendimiento de los estudiantes.

(c) 2012-6 Dr. Felipe Orihuela


38
Espina
Prueba de hiptesis
Cuidado!
Imprecisin comn: A la hiptesis estadstica
alternativa, muy a menudo se refieren a ella
como hiptesis de investigacin

Rechazar la hiptesis nula y aceptar la


hiptesis alternativa no necesariamente
respalda la hiptesis de investigacin.

Incluso cuando una hiptesis se acepta cmo


vlida bajo una investigacin, puede llegar a
ser refutada por otra/s investigacin/es

Lectura recomendada:
http://statisticalsage.wordpress.com/2011/09/21/di
fficult-concepts-research-hypotheses-vs-statistica
l-hypotheses/
Enlace vigente a 13-Nov-2016.

(c) 2012-6 Dr. Felipe Orihuela


39
Espina
Prueba de hiptesis
Del anlisis de regresin a la prueba
estadstica.
Un modelo de regresin e.g. una hiptesis,
expresa una asociacin entre variables

La prueba estadstica nos indica si la


asociacin entre variables es genuina o
debida al azar.

(c) 2012-6 Dr. Felipe Orihuela


40
Espina
Prueba de hiptesis
Del anlisis de regresin a la prueba
estadstica.
Ya sabemos:
El GLM se puede escribir como:

y en particular, un modelo lineal aditivo simple

(c) 2012-6 Dr. Felipe Orihuela


41
Espina
Prueba de hiptesis
Del anlisis de regresin a la prueba
estadstica.
En el modelo regresivo el grado y direccin
de la asociacin viene dada por los
coeficientes de regresin i.
Si i 0 entonces no hay una relacin entre
la variable independiente Xi y la
independiente Y.
en caso contrario, hay una relacin (ms
fuerte o ms dbil es otra cuestin)

(c) 2012-6 Dr. Felipe Orihuela


42
Espina
Prueba de hiptesis
Del anlisis de regresin a la prueba
estadstica.
Queremos saber si la asociacin expresada por el
modelo regresivo es genuina
en otras palabras, si para la poblacin representada por la
muestra, ocurre que el i0

Por tanto:
Hiptesis nula: H0: i=0 (no hay relacin)
Hiptesis alternativa: Ha: i0 (existe una relacin
genuina)

El coeficiente de interseccin 0 no importa


(c) 2012-6 Dr. Felipe Orihuela
43
Espina
Prueba de hiptesis
Del anlisis de regresin a la prueba
estadstica.
En el contexto de un modelo de regresin, la
hiptesis nula siempre es simple (slo usa el
operador igualdad). [UrielE2012]

Ejemplos:
H0: 1=0
H0: 1+2=0
H0: 1=2=0
H0: 2+3=1
(c) 2012-6 Dr. Felipe Orihuela
44
Espina
Prueba de hiptesis
Del anlisis de regresin a la prueba
estadstica.
En el contexto de un modelo de regresin, la
hiptesis alternativa siempre es compuesta.
[UrielE2012]

Ejemplos:
H0: 10 (de dos colas)
H0: 1<0 (de una cola)
H0: 1>0 (de una cola)
(c) 2012-6 Dr. Felipe Orihuela
45
Espina
Prueba de hiptesis
Hypothesis Test for the Slope of a Regression Line (EjemploEste
con
video
una prueba t) utiliza
algunos
concept
os que
an no
hemos
visto
pero que

veremos
en
breve.
Video:
10:46 mins
Largo pero
merece la
pena.

http://www.youtube.com/watch?v=q_ma0FtFp04
(c) 2012-6 Dr. Felipe Orihuela
46
Enlace vigente a 13-Nov-2016. Espina
Prueba de hiptesis
Del anlisis de regresin a la prueba
estadstica.
Observaciones finales:
Cada vez que aplicamos una prueba estadstica,
de forma implcita estamos asumiendo un modelo
aunque a menudo esto es transparente

El modelo general lineal puede ser utilizado para


implementar un amplio rango de test estadsticos
[Friston KJ et al 1995, HBM, 2:189:210]

(c) 2012-6 Dr. Felipe Orihuela


47
Espina
ERRORES DE TIPO I Y TIPO II

(c) 2012-6 Dr. Felipe Orihuela


48
Espina
Nivel de significancia ()
y poder estadstico (1-)

Recuerda:
Proceso de prueba de hiptesis
(informal)
1. Definir las hiptesis nula y alternativa
2. Tomar datos
3. Elegir la prueba estadstica apropiada
4. Calcular el valor del test (score -t,F,2)
5. Decidir si rechazar o no la hiptesis nula
basndose alguna regla de decisin
(c) 2012-6 Dr. Felipe Orihuela
49
Espina
Nivel de significancia ()
y poder estadstico (1-)

(c) 2012-6 Dr. Felipe Orihuela


50
[Figuras de: joanakompa.com] Espina
Nivel de significancia ()
y poder estadstico (1-)

En prueba de hiptesis podemos cometer


2 tipos de errores:
Errores de Tipo I o de Tipo : Rechazar la
hiptesis nula cuando esta es cierta. Falso
positivo.

Errores de Tipo II o de Tipo : No rechazar


la hiptesis nula cuando esta es falsa. Falso
negativo.
No confundir
esta con los
coeficientes
de la (c) 2012-6 Dr. Felipe Orihuela
51
regresin! Espina
Tamao de efecto

La probabilidad de
cometer cada uno de
los tipos de errores
ser;
mayor cuanto ms se
solapen las
distribuciones real o
control A y modelada
B
menor cunto menos
se solapen Figura de: [http://1.bp.blogspot.com/-
_OLIOItvoUE/VEuAQZV9nXI/AAAAAAAAD4E/E8KEI
eBW4jA/s1600/javiertouron.es_effectsize.png]

(c) 2012-6 Dr. Felipe Orihuela


52
Espina
Tamao de efecto

El tamao de efecto
importa y mucho ;)
de hecho es crtico, y
si no lo crees, lee
Por qu importa el tamao de efecto? [Ioannidis JPA (2005)
Why Most Published
Por que en presencia de la misma dispersin, este
Research Findings Are
False. PLoS Med 2(8):

determina el poder estadstico de tu modelo. e124]

Figura de: [http://www.designexperiments.org/?p=192]


(c) 2012-6 Dr. Felipe Orihuela
53
Espina
Tamao de efecto

El tamao de efecto
describe la magnitud
de la separacin de
las distribuciones.
En otras palabras,
expresa la fuerza de
una relacin sin
declarar si dicha
relacin refleja una
relacin poblacional
Figura de: [https://www.psychometrica.de/effect_size.html]

(c) 2012-6 Dr. Felipe Orihuela


54
Espina
Tamao de efecto

Existen muchos estimadores


para el tamao de efecto
incluso el smbolo usado
suele variar!!

y la forma de calcularlo
depende de
El tipo de variable (continua o
de ratio, categrica inc.
dicotmica, de intervalo o
rankeada, etc)
La estadstica usada (e.g. el
score de la prueba de
hiptesis)
Tabla: [Rosenthal R (1994) Parametric measures of effect size. Chapter
16 of The Handbook of Research Synthesis, Ed. Cooper H and Hedges,
LV (1994), pgs 231-244(c)
] 2012-6 Dr. Felipe Orihuela 55
Espina
Tamao de efecto

Ejemplo:
Sean las distribuciones real
o control A con tendencia
central A y dispersin A y
modelada B con tendencia
central B y dispersin B,
de la que se conocen sus
estimados muestrales
A~(A,sA) y B~(B,sB)

Uno de los estimadores del


tamao de efecto ms
conocidos es el g de Hedges
que se ilustra en la figura. Figura de: [http://i.ytimg.com/vi/tTgouKMz-eI/maxresdefault.jp

(c) 2012-6 Dr. Felipe Orihuela


56
Espina
Tamao de efecto

Pero en general, existen 2


familias de tamao de efecto;
La familia r o cuadrticos
Pierden el sentido de la
direccionalidad
Incluyen, entre otros, los clsicos
coeficientes de correlacin
que son una forma de
expresar el tamao del efecto ya
que miden la fuerza de la
relacin dada la varianza ;)

La familia d o directos o
direccionales
Incluye entre otros el popular d
de Cohen, as como el g de
Hedges, o el de Glass.
Tabla: [Rosenthal R (1994) Parametric measures of effect size. Chapter
16 of The Handbook of Research Synthesis, Ed. Cooper H and Hedges,
LV (1994), pgs 231-244(c)
] 2012-6 Dr. Felipe Orihuela 57
Espina
Tamao de efecto
Es conveniente distinguir entre:
El tamao de efecto real (a.k.a. true effect)
que es la verdadera diferencia que se
hubiese observado entre las poblaciones, y

El tamao de efecto observado (a.k.a.


observed effect) que es la diferencia que
podemos calcular a partir de una muestra
finita, y que es slo un estimado (sesgado o
no) del tamao de efecto real.

(c) 2012-6 Dr. Felipe Orihuela


58
Espina
Nivel de significancia ()
y poder estadstico (1-)

Implementacin de la regla de decisin:


Es difcil minimizar ambos errores a la vez.

A menudo (prueba de hiptesis clsica) se


elige un nivel de significancia determinado
(eleccin de ) que indica la tolerancia
aceptada a los errores de Tipo I.
Ejemplo: =5% significa que el investigador
est dispuesto a rechazar la hiptesis nula
H0 cuando esta es cierta el 5% de las veces.

(c) 2012-6 Dr. Felipe Orihuela


59
Espina
Nivel de significancia ()
y poder estadstico (1-)

Implementacin de la regla de decisin:


Una vez elegido el nivel de significancia () este
se traduce al llamado valor crtico c.
Puede haber ms de un valor crtico si la hiptesis es
compuesta de dos lados (dos colas).

El valor crtico c es el umbral contra el que se


compara el resultado del test estadstico en una
muestra para determinar si se rechaza o acepta
la hiptesis nula.
Cada prueba estadstica produce un tipo de score o
valor que se compara contra el valor crtico.
(c) 2012-6 Dr. Felipe Orihuela
60
Espina
Nivel de significancia ()
y poder estadstico (1-)

Implementacin de la regla de decisin:


La regla de decisin consiste simplemente en
la comparacin del resultado de la prueba
estadstica contra el valor crtico c:

Si sc rechazar H0
sino (s<c) no rechazar H0

(c) 2012-6 Dr. Felipe Orihuela


61
Espina
Nivel de significancia ()
y poder estadstico (1-)

[Figuras de: www.statstodo.com]


(c) 2012-6 Dr. Felipe Orihuela
62
Espina
Implementacin de la regla de decisin:
Por qu decimos no rechazar la hiptesis nula en
lugar de aceptar la hiptesis nula?

Si la hiptesis nula es rechazada con la evidencia de la


muestra, esta es una conclusin robusta. Recuerda que
hemos fijado un nivel de significancia ().
Sin embargo, aceptar la hiptesis nula es una conclusin
dbil ya que no conocemos la probabilidad de no rechazar la
hiptesis nula; en otras palabras, no conocemos, o no
hemos fijado, la probabilidad de cometer errores de Tipo II
().
Por tanto, no es que aceptemos la hiptesis nula, sino que
no tenemos evidencia suficiente como para rechazarla.
(c) 2012-6 Dr. Felipe Orihuela
63
Espina
Nivel de significancia ()
y poder estadstico (1-)

En el proceso de prueba
de hiptesis quizs la parte
ms subjetiva es la
Decisin \ H0 H0 falsa / Ha determinacin a priori de
Realidad verdadera verdadera nivel de significancia ()
/ Ha falsa
Aceptar Correcto Error de La probabilidad de cometer
H0; (p=1-) Tipo II
()
errores de tipo I se puede
Rechazar
Ha decrementar alterando el
nivel de significancia ()
Rechazar Error de Correcto
H0; Tipo I (1-) Desafortunadamente, esto
Aceptar Ha (p=) conlleva el incremento del
riesgo de cometer errores de
tipo II, y viceversa

(c) 2012-6 Dr. Felipe Orihuela


64
Espina
Nivel de significancia ()
y poder estadstico (1-)

[Figuras de: http://doetraining.com/article5.html]


(c) 2012-6 Dr. Felipe Orihuela
65
Espina
Nivel de significancia ()
y poder estadstico (1-)

La decisin sobre el nivel de significancia estadstico no debe ser


arbitraria sino basada en el tipo de error que queramos reducir.

Los valores del nivel de significancia ms comunes son 5%, 1% y 0.1%


A veces, la prueba estadstica se expresa de forma condicional a varios niveles
de significancia.
Figura de: [http://www.psycho.uni-
(c) 2012-6 Dr. Felipe Orihuela
duesseldorf.de/aap/projects/gpower/reference/reference_manual_02.html] 66
Espina
Significancia estadstica
La significancia estadstica de un
resultado es la probabilidad de que la
relacin observada, por ejemplo entre
variables, o que una diferencia por ejemplo
entre medias entre dos muestras ocurri por
azar, y que en la poblacin de donde se
obtuvieron las muestras tal relacin o
diferencia es inexistente
[http://www.statsoft.com/textbook/elementary-
statistics-concepts/]
Enlace vigente a 16-Nov-2015.
(c) 2012-6 Dr. Felipe Orihuela
67
Espina
Significancia estadstica
p-valor
El p-valor es el resultado cuantitativo de una
prueba hiptesis
La prueba de hiptesis da como resultado un valor o
score que se traduce a una probabilidad, el p-valor

Intuitivo:
El valor p, o p-valor (o si se me permite el
anglicismo, p-value) representa la probabilidad de
error que conlleva aceptar nuestros resultados como
vlidos.

(c) 2012-6 Dr. Felipe Orihuela


68
Espina
Significancia estadstica
p-valor
Formal
Sea la distribucin de una variable estadstica cualquiera.
El p-valor es la probabilidad de que la variable tome un
valor mayor que una determinada observacin
estrictamente por azar:

Por tanto para calcular p basta con tomar la integral bajo la


curva en .

(c) 2012-6 Dr. Felipe Orihuela


69
Espina
Significancia estadstica
p-valor
Formal (particularizado para el caso de la
variable Z)
El p-valor es la probabilidad de que una variable X
normalizada (Z) adquiera un valor mayor o igual al
valor observado normalizado (zobservada) puramente
por azar
[http://mathworld.wolfram.com/P-Value.html]
Enlace vigente a 16-Nov-2015.

(c) 2012-6 Dr. Felipe Orihuela


70
Espina
Significancia estadstica
p-valor

Regla de decisin:

La hiptesis nula se rechaza si: p

Cuanto ms pequeo el p-valor, ms fuerte


es la evidencia contra la hiptesis nula.

(c) 2012-6 Dr. Felipe Orihuela


71
Espina
Significancia estadstica
p-valor

El p-valor permite reconocer aquellos descubrimientos dignos


de mencin estadsticamente hablando. Cuanto menor es el
p-valor, menor es la posibilidad de la hiptesis nula; que no
haya diferencia entre los grupos de tratamiento
[DuPrelJB2009]

El p-valor representa un ndice decreciente de fiabilidad de un


resultado []. Cunto mayor es el p-valor, menos podemos
confiar en que la relacin observada entre variables en la
muestra sea indicativa de una posible relacin en la poblacin
[http://www.statsoft.com/textbook/elementary-statistics-
concepts/]

(c) 2012-6 Dr. Felipe Orihuela


72
Espina
Significancia estadstica
p-valor

Sin importar el p-valor;

NO SE PUEDE CONCLUIR NADA


SOBRE EL TAMAO DEL EFECTO!!!

Para eso se requieren los intervalos de


confianza

(c) 2012-6 Dr. Felipe Orihuela


73
Espina
Prueba de hiptesis
Proceso de prueba de hiptesis (formal; ms o menos)
1. Formular la hiptesis nula y la hiptesis alternativa
La hiptesis nula a menudo implica que las observaciones son el resultado del azar
La hiptesis alternativa a menudo implica que las observaciones representan un
fenmeno real combinado con un componente de variacin al azar
2. Identificar una prueba estadstica que permita evaluar si la hiptesis nula es
cierta.
1. Decidir a priori un determinado nivel de error que estemos dispuestos a aceptar mediante
la seleccin de un nivel de significancia,
2. Establecer el valor crtico del score de la prueba correspondiente al nivel de significancia
elegido
3. Calcular el score e.g. t,F, asociado a la prueba dada la evidencia (datos) que se tienen
3. Calcular el p-valor asociado al score de la evidencia
4. Comparar el p-valor con un umbral de significancia aceptable () i.e. el valor
crtico, via la regla de decisin
1. Si p< la prueba es positiva, y se dice que la observacin del fenmeno es
estadsticamente significativa (se rechaza la hiptesis nula)
2. Si p> la prueba es negativa, y se dice que la observacin del fenmeno no
es estadsticamente significativa (no se puede rechazar la hiptesis nula)

Modificado de: [http://mathworld.wolfram.com/HypothesisTesting.html]


(c) 2012-6 Dr. Felipe Orihuela
74
Espina
Prueba de hiptesis
La prueba de hiptesis y el tamao de
efecto estn relacionados por el tamao
de la muestra:

Prueba de significancia = tamao de efecto x tamao del estudio

Source: [Rosenthal R (1994) Parametric measures of effect size.


Chapter 16 of The Handbook of Research Synthesis, Ed. Cooper H and
Hedges, LV (1994), pgs 231-244 ]

(c) 2012-6 Dr. Felipe Orihuela


75
Espina
Poder estadstico
Informal: El poder estadstico es la
probabilidad de rechazo de la hiptesis nula
En otras palabras, es la probabilidad de que tu
modelo experimental (reflejado en la hiptesis de
investigacin) sea confiable.

Si piensas que es muy parecido al p-value


(probabilidad de que lo que observas no sea por
azar) no vas descaminado, ya que el p-value est
relacionado con la significancia estadstica y por
ende con los errores Tipo I, mientras que el poder
estadstico son los errores Tipo II.
(c) 2012-6 Dr. Felipe Orihuela
76
Espina
Poder estadstico
Studies with inadequate power are a
waste of research resources and arguably
unethical when subjects are exposed to
potentially harmful or inferior experimental
conditions.
[Krzywinski M y Altman N (2013) Nature
Methods, 10(12):1139-1142]

(c) 2012-6 Dr. Felipe Orihuela


77
Espina
Poder estadstico
La habilidad de detectar efectos experimentales est
lmitada por el poder estadstico [Krzywinski M y
Altman N (2013) Nature Methods, 10(12):1139-1142]

Si el poder estadstico es bajo, efectos importantes


podran no detectarse.

Si el poder estadstico es (muy) alto cualquier efecto se


vuelve significativo; i.e. no dejas hueco al azar
Recuerda, que esto no significa que tu hiptesis de
investigacin sea la correcta, slo que tienes certeza
experimental

(c) 2012-6 Dr. Felipe Orihuela


78
Espina
Poder estadstico

Funcin de potencia
Informal:
La funcin de potencia
de una prueba de
hiptesis indica la
probabilidad de rechazar
la hiptesis nula en
funcin del valor real del
parmetro sobre el que se
ha definido la hiptesis.

El valor que toma esta


funcin es el poder
estadstico.
Figura de: [Pinto et al (2003), Journal of Statistics Education 11(1):[Onlin
Available at [http://ww2.amstat.org/publications/jse/v11n1/pinto.html]

(c) 2012-6 Dr. Felipe Orihuela


79
Espina
Poder estadstico
Funcin de potencia
Formal:
Sea S un espacio de muestra y X una muestra
X=(X1,,Xn)S

Sea una particin de S formada por los


subconjuntos disjuntos S0 y S1 tal que:
S0 es el conjunto que contiene los valores de X
para los cuales se acepta la hiptesis nula
S1 es el conjunto que contiene los valores de X
para los cuales se rechaza la hiptesis nula,
a.k.a. regin crtica.

(c) 2012-6 Dr. Felipe Orihuela


80
Espina
Poder estadstico
Funcin de potencia
Formal (cont.):
Sea un test estadstico cualquiera , y sea el
parmetro sobre el que se ha definido el test
Al conjunto se le llama el espacio de parmetro

Sea 1, 2, una particin de


Observa que como 1, 2 forman una particin de , eso
significa que son disjuntos y por tanto, slo puede
pertenecer a 1 o 2 pero no a los dos.

Sean las hiptesis de la prueba de hiptesis:


H0: 0
Ha: 1
(c) 2012-6 Dr. Felipe Orihuela
81
Espina
Poder estadstico
Funcin de potencia
Formal (cont.):
Se llama funcin de potencia a la funcin:

(c) 2012-6 Dr. Felipe Orihuela


82
Espina
Poder estadstico
Esta es la

Ejemplo:
Funcin de potencia Probabilidad de
rechazo de la
hiptesis nula;
Si la hiptesis nula est definida sobre la i.e. el poder
media (H0: =0), la funcin de potencia de un estadstico.
test estadstico es la probabilidad de rechazar
H0 dado que la media es .

Sea un test estadstico, e.g. el t-test, cuya


hiptesis nula se define sobre un determinado
valor (poblacional); e.g. H0: =0.

La funcin de potencia (,t-test) es una


funcin definida sobre el resultado observado
de un test estadstico (e.g. el valor del
promedio muestral en el t-test) tal que:

para cada posible valor observado del


parmetro e.g. =14, se le hace corresponder
la probabilidad de que la hiptesis resulte
rechazada Aqu no siempre
e.g. (,t-test)=Pr(rechazar H0|=14). va la media, sino
el valor sobre el
que se define el
Figura de: [https://onlinecourses.science.psu.edu/stat414/node/306] test
(c) 2012-6 Dr. Felipe Orihuela
83
Espina
Poder estadstico

Figure from: [I CANT REMEMBER ]


(c) 2012-6 Dr. Felipe Orihuela
84
Espina
Poder estadstico

Observa que la
curva NO
siempre es
creciente

Figures from: [http://davegiles.blogspot.mx/2012/07/decline-and-fall-of-power-curve.html]


(c) 2012-6 Dr. Felipe Orihuela
85
Espina
Poder estadstico

Ni siquiera
tiene que ser
simtrica o
bonita
Esta es la
funcin de
potencia de los
test RESET y
FRESET

Figure from: [http://davegiles.blogspot.mx/2012/07/decline-and-fall-of-power-curve.html]


(c) 2012-6 Dr. Felipe Orihuela
86
Espina
Poder estadstico
Esta situacin es
desafortunada
cuando tu
autocorrelacin se
aproxima a 1 (que
es justamente
El Durbin-Watson cuando ms
quieres que el test
test detecta la te diga que hay
presencia de una alta
autocorrelacin en autocorrelacin de
los residuos, el
los residuos del test se queda sin
anlisis de poder estadstico!
NOTA:
regresin. Normalmente los
lmites comunes
del valor crtico te
mantienen fuera
de esta regin por
lo que el test no
suele verse
afectado.

Figura de: [Krmer, W. and H. Sonnberger (1986) The Linear Regression


Model Under Test, Physica-Verlag, Heidelberg., pp.19-22)]

(c) 2012-6 Dr. Felipe Orihuela


87
Espina
Poder estadstico
Funcin de potencia

Dada la funcin de potencia:

(|) es la probabilidad de rechazar la hiptesis


nula H0.

1-(|) es la probabilidad de aceptar la hiptesis


nula H0.

(c) 2012-6 Dr. Felipe Orihuela


88
Espina
Poder estadstico
Funcin de potencia
Idealmente:
0 (|)=0
1 (|)=1
Si esto ocurriese, entonces indistintamente
del valor de , el test llegara a la decisin
correcta con probabilidad 1. No habra
error!

Ahora podemos redefinir los tipos de errores


en trminos de la funcin de potencia.
(c) 2012-6 Dr. Felipe Orihuela
89
Espina
Poder estadstico
Funcin de potencia
La probabilidad de error de Tipo I del test es
por tanto:

(c) 2012-6 Dr. Felipe Orihuela


90
Espina
Poder estadstico
Funcin de potencia
La probabilidad de error de Tipo II del test es
por tanto:

(c) 2012-6 Dr. Felipe Orihuela


91
Espina
Poder estadstico
Funcin de potencia
Si la hiptesis nula es simple (=0), puede
determinarse el error de Tipo I,

Si la hiptesis alternativa es simple (=1),


puede determinarse el error de Tipo II,

Lo primero es comn, lo segundo no tanto


de aqu que normalmente fijemos el nivel de
significancia y disear la regla de decisin que,
manteniendo este nivel de significancia, conlleve el
menor riesgo de tipo II (test uniformemente ms potente)

(c) 2012-6 Dr. Felipe Orihuela


92
Espina
Poder estadstico
Lecturas recomendadas:
Krzywinski M y Altman N (2013) Power and Sample Size Nature
Methods, 10(12):1139-1142
De Groot 2012 Cap 9

Otros recursos:
http://people.stern.nyu.edu/churvich/Regress/Handouts/Chapt6.pdf
Enlace vigente a 21-Nov-2016.
La que tiene el lenguaje ms llano sin sacrificar exactitud
http://www.uv.es/ceaces/tex1t/6%20para/potencia/CHIPOTES.htm
Enlace vigente a 21-Nov-2016.
En espaol; Este es ms formal
https://onlinecourses.science.psu.edu/stat414/node/305
Enlace vigente a 21-Nov-2016.
Contiene 3 ejercicios resueltos y una explicacin ms visual
(c) 2012-6 Dr. Felipe Orihuela
93
Espina
Poder estadstico
Algunas cosas que afectan al poder
estadstico de una prueba de
hiptesis:
Tamao de la muestra
Cuanto mayor sea el tamao muestral,
menor ser el error estndar, y por ende,
menor la dispersin de las medias
muestrales, y en consecuencia, mayor ser
la potencia estadstica de un estudio.
Es por ello que en los estudios con muestras
muy grandes se detectan como significativas
diferencias poco relevantes (overpowering), y
en los estudios con muestras menores es
ms fcil obtener resultados falsamente
negativos.

Tamao del efecto


Cuanto mayor sea el tamao del efecto que
se puede detectar, mayor ser la probabilidad
de obtener hallazgos significativos y, por lo
tanto, mayor ser el poder estadstico.

Figure: [Krzywinski M y Altman N (2013) Nature Methods, 10(12):1139-


(c) 2012-6 Dr. Felipe Orihuela
94
Espina
Poder estadstico

MDE: Minimum detectable effect (the smallest


real effect size which we would be able to detect
at 80% power)
Figure from: [https://blog.twitter.com/2016/power-minimal-detectable-effect-and-
bucket-size-estimation-in-ab-tests]
(c) 2012-6 Dr. Felipe Orihuela
95
Espina
Poder estadstico
Algunas cosas que afectan al poder
estadstico de una prueba de hiptesis:

Variabilidad de la respuesta
Cuanto mayor sea la variabilidad en la respuesta,
ms difcil ser detectar diferencias entre los grupos
que se comparan y menor ser el poder estadstico
de la investigacin. Es por tanto recomendable
estudiar grupos lo ms homogneos posibles.
Notese que a mayor variabilidad, menor tamao de
efecto.

(c) 2012-6 Dr. Felipe Orihuela


96
Espina
Poder estadstico
Veremos en un segundo que
la especificidad(=1-) est
Algunas cosas que relacionada con la
significancia estadstica y
afectan al poder que la sensitividad(=1-)
estadstico de una coincide el poder estadstico.
prueba de hiptesis:

Nivel de significancia
Si se disminuye el valor de
tambin se disminuye el
poder de la prueba. Es decir,
si disminuimos la
probabilidad de cometer un
error de tipo I aumentamos
simultneamente la
probabilidad de un error de
tipo II
Figure: [Krzywinski M y Altman N (2013) Nature Methods, 10(12):1139-
(c) 2012-6 Dr. Felipe Orihuela
97
Espina
Poder estadstico
Algunas cosas que afectan al poder
estadstico de una prueba de hiptesis:

Balance del diseo


El poder es ms alto en diseos balanceados que
en los desbalanceados [Larson MG (2008)
Circulation 117:115-121]

Nmero de grupos
El poder el ms alto cuantos menos grupos haya
[Larson MG (2008) Circulation 117:115-121]
(c) 2012-6 Dr. Felipe Orihuela
98
Espina
Poder estadstico
pero tambin
Direccionalidad o tipo de hiptesis
Independencia de las muestras (pareamiento)
Paramtricas vs no paramtricas
Nmero de factores del modelo

estas si las veremos ahora

(c) 2012-6 Dr. Felipe Orihuela


99
Espina
Tipo de hiptesis / Direccionalidad
Direccionalidad
Pruebas de una cola: La hiptesis alternativa es
de un lado. Se utilizan es testeo de hiptesis
direccional
Hiptesis alternativa: Hay una diferencia entre las
variables y anticipamos la direccin de esa diferencia
Ha: 1<2
Ha: 1>2

Pruebas de dos colas: La hiptesis alternativa es


de dos lados. Se utilizan es testeo de hiptesis no
direccional
Hiptesis alternativa: Hay una diferencia entre las
variables pero no anticipamos la direccin de esa
diferencia
Ha: 12
[Figuras de: http://www.mathsrevision.net/alevel/pages.php?page=64]
(c) 2012-6 Dr. Felipe Orihuela
100
Espina
Tipo de hiptesis / Direccionalidad
Direccionalidad:
Ejemplo:
Pregunta de investigacin: Son los hombres ms
altos que las mujeres?
Hiptesis nula: No hay diferencia en la altura entre
gneros
Hiptesis alternativa de una cola: Los hombres son ms
altos que las mujeres.
Hiptesis alternativa de dos colas: Un gnero es ms
alto que el otro

Figure de: [genderedinnovations.stanford.edu]

(c) 2012-6 Dr. Felipe Orihuela


101
Espina
Tipo de hiptesis / Direccionalidad
Direccionalidad:
Las pruebas de una cola
ofrecen un mayor poder Prueba de dos cola
estadstico para detectar un
efecto
Elegir pruebas de una cola con
el nico propsito de obtener
una mayor significancia no es Prueba de una cola
apropiado; podras perder la
diferencia en la otra direccin!
Elegir pruebas de una cola tras
haber ejecutado una prueba de
dos colas que no rechaz la
hiptesis nula no es apropiado.

Fuente: [http://www.ats.ucla.edu/stat/mult_pkg/faq/general/tail_tests.htm]
Figura de: [http://www.psycho.uni-duesseldorf.de/aap/projects/gpower/reference/reference_manual_0
(c) 2012-6 Dr. Felipe Orihuela
102
Espina
Pareamiento
Independencia de las observaciones
Pareada: Existe una relacin biyectiva entre las observaciones de
las variables. Cada observacin en una variable tiene su par en la
otra variable.
Si las observaciones de un grupo se reorganizan, entonces tambin deben
reorganizarse de forma anloga las observaciones de la otra variable.
Ejemplos:
Experimentos de bloque aleatorizados con dos unidades por bloque
Estudios con controles emparejados de forma indivdual
Experimentos de tipo intra-sujeto con repetidas observaciones sobre el mismo
individuo

No pareada: No hay correspondencia entre las observaciones de


las variables.
Las observaciones en una variable pueden reorganizarse de forma
independiente una de la otra.

(c) 2012-6 Dr. Felipe Orihuela


103
Espina
Pareamiento
Independencia de las observaciones

El pareado o emparejamiento es una


estrategia de diseo, no de anlisis; el
emparejamiento ocurre durante la colecta de
datos. El emparejamiento reduce el sesgo e
incrementa la precisin [DinovI2005]

(c) 2012-6 Dr. Felipe Orihuela


104
Espina
Pareamiento
Ejemplo de datos pareados
N conjuntos de gemelos para saber si el
1er nacido es ms agresivo que el
segundo
Puntaje de
Pareja Agresividad
de
gemel 1er 2do
os nacido nacido

1 86 88
2 71 77
3 77 76
Dr. Felipe Orihuela
(c) 2012-6 Ejemplo
adaptado de [DinovI2005
105
Espina
N 87 72 Figura de: [www.trinity.edu]
Pruebas paramtricas y no-paramtricas

Pruebas paramtricas: Asumen una determinada


distribucin de la variable en la poblacin sobre la que se
pretende generalizar. Normalmente, Gaussiana.

Pruebas no-paramtricas: No presuponen una distribucin


de las variables en la poblacin.
Eso significa que es libre en trminos de la distribucin, pero NO
significa que est libre de toda presuncin.
Las pruebas no paramtricas observan el rango ordenado de los
valores de las observaciones.

Las pruebas paramtricas tiene ms poder estadstico que


las no paramtricas, y por ende deben ser usadas mientras
sea posible [GreenhalghT 1997 BMJ 315:364]
(c) 2012-6 Dr. Felipe Orihuela
106
Espina
Analisis de 1 factor, 2 factores, N-factores

El diseo experimental puede ser de 1 factor, de 2


factores,, de N-factores
Puede entenderse (con cautela) como responder a una
pregunta de investigacin, a dos preguntas de investigacin, o
en general a n preguntas de investigacin a la vez
Mientras ms factores ms difcil es el anlisis y menor es el
poder estadstico de la prueba

Anlisis de un factor mide la significancia


sobre...acertaste! ...un slo factor
Analisis de dos factores mide la significancia sobre
dos factores a la vez Aunque ya lo mencionamos
al principio de la unidad al
Etc definir las variables
independientes, an no
hemos definido formalmente
(c) 2012-6 Dr. Felipe Orihuela
107
Espina
que es un factor.
ANLISIS ROC

(c) 2012-6 Dr. Felipe Orihuela


108
Espina
Anlisis ROC
A partir de la tabla de contingencia* de los
errores podemos definir 4 desenlaces
bsicos:
TP: Verdaderos positivos
TN: Verdaderos negativos
FP: Falsos positivos Decisin
\
H 0 H0 falsa /
verdader Ha
FN: Falsos negativos Realida a / H a verdadera
d falsa
Aceptar
H0;
Rechazar TN FN
Ha
*Observa la similitud con la tabla
de confusin de un clasificador Rechazar
(c) 2012-6 Dr. Felipe Orihuela
EspinaH0;
109
FP TP
Anlisis ROC

Decisin H0 H0 falsa /
\ verdader Ha
Realida a / Ha verdadera
d falsa
Aceptar
TotalH0; Total
Negativ
Rechazar TN
Positivo FN
Ha
os s
Rechazar
(c) 2012-6 Dr. Felipe Orihuela
EspinaH0;
110
FP TP
Anlisis ROC
Decidir que tan bueno o malo (el rendimiento)
de nuestro estimador o prueba a la vista de la
tabla de contingencia es difcil
en el sentido que hay 4 valores que tener en
cuenta a la vez

para aliviar esta situacin, se han


desarrollado algunos conceptos que de
alguna forma resumen relaciones entre estos
4 desenlaces bsicos.

(c) 2012-6 Dr. Felipe Orihuela


111
Espina
Anlisis ROC
Algunas derivaciones de la tabla de
contingencia:
Sensitividad o Recuerdo (Recall)* o Ratio de
Verdaderos Positivos (TPR):

Observa que la Total


sensitividad es el Positivos
poder estadstico
o errores Tipo II 1-
! *El trmino Recuerdo o Recall est
[KrzywinskiM2013 prcticamente restringido al rea de
] aprendizaje mquina
(c) 2012-6 Dr. Felipe Orihuela
112
Espina
Anlisis ROC
Algunas derivaciones de la tabla de
contingencia:
Especificidad o Ratio de Verdaderos
Negativos (TNR):

Observa que la Total


especificidad est Negativos
relacionado con la
significancia estadstico
o errores Tipo I 1-!
[KrzywinskiM2013]
(c) 2012-6 Dr. Felipe Orihuela
113
Espina
Analisis ROC y Tipos de Error
Relacin entre sensitividad y especificidad
y los tipos de error I y II

Figure: [Krzywinski M y Altman N (2013) Nature Methods, 10(12):1139-


(c) 2012-6 Dr. Felipe Orihuela
114
Espina
Anlisis ROC
Algunas derivaciones de la tabla de
contingencia:
Ratio de Falsos Positivos (FPR):

Total
Negativos

(c) 2012-6 Dr. Felipe Orihuela


115
Espina
Anlisis ROC
Algunas derivaciones de la tabla de
contingencia:
Observa que:

(c) 2012-6 Dr. Felipe Orihuela


116
Espina
Anlisis ROC
Algunas derivaciones de la tabla de
contingencia:
Exactitud (Accuracy):

Total
Total Negativo
Positivos s

(c) 2012-6 Dr. Felipe Orihuela


117
Espina
Anlisis ROC
Algunas derivaciones de la tabla de
contingencia:
Valor Predictivo Positivo (PPV) o
Precisin:

(c) 2012-6 Dr. Felipe Orihuela


118
Espina
Algunas derivaciones de la tabla de
contingencia:
Valor predictivo negativo:
NPV = TN/(TN+FN)
Ratio de falsos descubrimientos:
RFD=FP/(FP+TP)
F-Measure:
F=2*(Precisin*Recuerdo)/(Precisin+Recuerdo)

(c) 2012-6 Dr. Felipe Orihuela


119
Espina
Anlisis ROC

Anlisis ROC (del ingls


receiver operating
characteristic)
El anlisis ROC o curva ROC
es una grfica de dispersin
que resume la relacin de los
errores de alguna prueba
estadstica o un estimador

La grfica de dispersin
presenta la relacin entre el
ratio de falsos positivos
(FPR=1-Especificidad) y el
ratio de verdaderos positivos
(TPR=Sensitividad).

Figura
(c) 2012-6 Dr. Felipe Orihuela de: [csb.stanford.edu]
120
Espina
Anlisis ROC

Intuitivamente; un
punto en el espacio
ROC es mejor que
otro si est situado
hacia el noroeste del
segundo (es decir,
tiene un mayor TPR,
y un menor FPR, o
ambos) [Fawcett
T2006]

(c) 2012-6 Dr. Felipe Orihuela


121
gura de: [FawcettT2006] Espina
Anlisis ROC

La curva ROC de una


estadstica (estimador, test,
etc,)

es la representacin de 1-
(|)

se construye variando el
umbral de discriminacin
(nivel de significancia).

a veces se
resume/describe mediante el
valor del rea bajo la curva

(c) 2012-6 Dr. Felipe Orihuela


122
de: [http://en.wikipedia.org/wiki/File:Receiver_Operating_Characteristic.png]
Espina
Anlisis ROC

(c) 2012-6 Dr. Felipe Orihuela


123
de: [http://en.wikipedia.org/wiki/File:Receiver_Operating_Characteristic.png]
Espina
Anlisis ROC

(c) 2012-6 Dr. Felipe Orihuela


124
gura de: [www-psych.stanford.edu] Espina
Anlisis ROC
Ejemplo:

(c) 2012-6 Dr. Felipe Orihuela


125
gura de: [gim.unmc.edu] Espina
Anlisis ROC
La curva ROC le da igual importancia a ambos tipos
de error (Tipo I y Tipo II) y muestra cmo varan
conjuntamente segn cambia el criterio para una
diferencia dada entre las medias de las dos hiptesis.

Lecturas MUY recomendadas:


CE Metz (1978) Basic principles of ROC analysis
Seminars in nuclear medicine, 8(4):283-298
>3000 citas (Google scholar)
Fawcett, T (2006) An introduction to ROC analysis
Pattern Recognition Letters 27:861874
>3000 citas (Google scholar)

(c) 2012-6 Dr. Felipe Orihuela


126
Espina
LAS PRUEBAS ESTADSTICAS
BSICAS
(c) 2012-6 Dr. Felipe Orihuela
127
Espina
Qu prueba debo aplicar?

Recuerda:
Proceso de prueba de hiptesis
(informal)
1. Definir las hiptesis nula y alternativa
2. Tomar datos
3. Elegir la prueba estadstica apropiada
4. Calcular el valor del test (score -t,F,2)
5. Decidir si rechazar o no la hiptesis nula
basndose alguna regla de decisin
(c) 2012-6 Dr. Felipe Orihuela
128
Espina
De una estadstica al p-valor
Sea la distribucin de una estadstica cualquiera.

El p-valor para un determinada valor es


bsicamente:

Por tanto para calcular p basta con tomar la


integral bajo la curva en .

(c) 2012-6 Dr. Felipe Orihuela


129
Espina
El t-test
Hiptesis Diferencia entre las medias de las muestras
Requisitos Variables numricas
Existen versiones para una y dos variables
Existen versiones para datos pareados y no pareados
Suposiciones Distribucin normal (o para ser exactos la t de
/ Supuestos Student con df grados de libertad)
Media y desviacin estndar independientes
Varianzas iguales
Tamao de las muestras alto (>30)
Resultado Valor t

La prueba estadstica t para una muestra compara


entre una distribucin muestreada y una asumida,
mientras que la prueba de dos muestras compara
las muestras de dos variables.
(c) 2012-6 Dr. Felipe Orihuela
130
Espina
El valor t
Sea el valor estimado del parmetro en
algn modelo estadstico. El valor t o
estadstica t es cualquier cantidad de la
forma:

Donde es la media muestral y SE el error


estndar muestral
(c) 2012-6 Dr. Felipe Orihuela
131
Espina
Del valor t al p-valor
El p-valor para un determinado valor t es
bsicamente:

Por tanto para calcular p basta con tomar


la integral bajo la curva en t.

(c) 2012-6 Dr. Felipe Orihuela


132
Espina
Del valor t al p-valor
El p-valor es el rea bajo la curva mayor
que el valor t.
Por tanto, calcular el p-valor exacto requiere
resolver una integral

Animacin de: [http://www.statsoft.com/textbook/distribution-tables/]


(c) 2012-6 Dr. Felipe Orihuela
133
Espina
El valor t

Figura de: [http://en.wikipedia.org/wiki/Standard_score]


(c) 2012-6 Dr. Felipe Orihuela
134
Espina
Del valor t al p-valor

Alternativamente y aceptando un margen


de error, se pueden consultar tablas
precalculadas

(c) 2012-6 Dr. Felipe Orihuela


135
Espina
Del valor t al p-valor
2
1

Selecciona la
direccionalidad
1 acorde a tu
hiptesis
alternativa
Busca la columna
2 acorde al nivel de
significancia
escogido
Selecciona la fila 4
acorde a los
3
grados de libertad

Encuentra tu valor
4 t en la
interseccin de 3
fila y columna

(c) 2012-6 Dr. Felipe Orihuela


136
Espina
Del valor t al p-valor
O bien, aqu tienes un par de calculadoras
del p-valor
Calculadora:
http://www.danielsoper.com/statcalc3/calc.as
px?id=8
Enlace vigente al 27-Nov-2016
Calculadora:
http://www.graphpad.com/quickcalcs/pvalue1.
cfm
Enlace vigente al 27-Nov-2016

(c) 2012-6 Dr. Felipe Orihuela


137
Espina
La prueba de Mann-Whitney U
o Wilcoxon Rank-sum
Hiptesis Desplazamiento en la localizacin. Evala si una o dos
muestras de observaciones independientes tiende a
producir valores ms grandes/pequeos que la otra
Requisitos Ordinales o Continuos
Suposiciones Muestreo aleatorio
/ Supuestos Independencia intra-muestral
Independencia mutua entre las muestras
La escala de medida debe ser al menos ordinal
Las distribuciones de las variables deben coincidir
excepto por sus medianas
Tamao de la muestra grande (al menos 42
observaciones para la aproximacin z)
Datos no pareados
Resultados Valor z

Cuando los datos son ordinales, la prueba de Mann-Whitney U es quizs la prueba


no paramtrica ms conocida.
Para datos pareados se debe utilizar la prueba de los rangos con signo de Wilcoxon.
(c) 2012-6 Dr. Felipe Orihuela
138
Espina
Del valor z al p-valor
Ya sabemos:
El valor z representa el valor estandarizado
de una observacin; es decir cuantas
desviaciones estndar se encuentra la
observacin a la derecha (z>0) o izquierda
(z<0) de su media (poblacional).

(c) 2012-6 Dr. Felipe Orihuela


139
Espina
Del valor z al p-valor
El p-valor para un determinado valor z es
bsicamente:

Por tanto para calcular p basta con tomar


la integral bajo la curva en z.

(c) 2012-6 Dr. Felipe Orihuela


140
Espina
Del valor z al p-valor
La distribucin normal estandarizada (media 0 y
desviacin estndar 1) se usa en varias pruebas de
hiptesis.

El valor p sobre la funcin de distribucin acumulada


normal es el equivalente al valor z sobre la funcin
de densidad de probabilidad normal

(c) 2012-6 Dr. Felipe Orihuela


141
Animacin de: [http://www.statsoft.com/textbook/distribution-tables/]
Espina
Del valor z al p-valor
El p-valor es el rea bajo la curva, mayor que el
valor z.
Por tanto, calcular el p-valor exacto requiere resolver una
integral

Alternativamente y aceptando un margen de error, se


pueden consultar tablas precalculadas

O bien, aqu tienes un par de calculadoras del p-valor


Calculadora: http://faculty.vassar.edu/lowry/ch6apx.html
Enlace vigente al 27-Nov-2016
Calculadora: http://www.graphpad.com/quickcalcs/pvalue1.cfm
Enlace vigente al 27-Nov-2016

(c) 2012-6 Dr. Felipe Orihuela


142
Espina
La prueba F

Hiptesis Diferencia en el valor de la varianza


Requisitos Variables numricas
Suposiciones Distribucin normal
/ Supuestos Varianzas homogneas (Homoscedascity)
Independencia de las observaciones
Resultados Valor F

La prueba F est diseada para comparar si las


varianzas de dos poblaciones son iguales. Para
ello, se calcula el ratio de estas varianzas; que si
son iguales debe ser cercano a 1.

(c) 2012-6 Dr. Felipe Orihuela


143
Espina
Del valor F al p-valor
El p-valor es el rea bajo la curva mayor
que el valor F.
Por tanto, calcular el p-valor exacto requiere
resolver una integral

Animacin de: [http://www.statsoft.com/textbook/distribution-tables/]


(c) 2012-6 Dr. Felipe Orihuela
144
Espina
Del valor F al p-valor
Alternativamente y aceptando un margen de
error, se pueden consultar tablas
precalculadas.

Aqu tienes un par de calculadoras del p-valor


Calculadora :
http://www.danielsoper.com/statcalc3/calc.aspx?id
=7
Enlace vigente a 27-Nov-2016
Calculadora:
http://www.graphpad.com/quickcalcs/pvalue1.cfm
Enlace vigente a 27-Nov-2016
(c) 2012-6 Dr. Felipe Orihuela
145
Espina
Prueba 2 sobre tabla de contingencia

Hiptesis Diferencias entre la distribucin de frecuencias


determinada por la tabla de contingencia comparada
con una tabla de contingencia esperada
Requisitos Categricas
Suposiciones Distribucin 2
/ Supuestos Tamao de la muestra grande (>30)
Independencia de las observaciones
Otros (Ms de 5 observaciones por celda de la tabla
de contingencia, sin celdas con valor 0, correccin de
Yates)
Resultados Valor 2
Los efectos en una tabla de contingencia se definen cmo relaciones entre la variable
representada en las filas y la variable representada en las columnas: lase, son los niveles
de la variable en las filas distribuidas de forma diferencial sobre los valores de la variable
representada en las columnas.
Un resultado significativo en esta prueba de hiptesis indica que la interpretacin de las
frecuencias de las celdas de las tablas est garantizada. Por el contrario, un resultado no
significativo indica que la distribucin de frecuencias de la tabla de contingencia puede ser
debido al azar [http://www.psychstat.missouristate.edu/introbook/sbk28m.htm]
(c) 2012-6 Dr. Felipe Orihuela
146
Espina
Del valor 2 al p-valor
Efectivamente.resolviendo al integral

(c) 2012-6 Dr. Felipe Orihuela


147
Animacin de: [http://www.statsoft.com/textbook/distribution-tables/]
Espina
Del valor 2 al p-valor
Alternativamente y aceptando un margen
de error, se pueden consultar tablas
precalculadas.

o bien, aqu tienes una calculadora del p-


valor
Calculadora:
http://www.graphpad.com/quickcalcs/pvalue1.
cfm
Enlace vigente al 27-Nov-2016
(c) 2012-6 Dr. Felipe Orihuela
148
Espina
Anlisis de varianza (ANOVA) univariable

Hiptesis Diferencia en el valor de la varianza para ms de 2


grupos
Requisitos Variables numricas
Suposiciones Distribucin normal
/ Supuestos Varianzas homogneas (Homocedasticidad)
Independencia de las observaciones
Resultados Valor F

ANOVA es como una prueba F para mltiples grupos, y de hecho, como


devuelve un valor F te sirve la misma forma de pasar del valor F al p-valor que
para la prueba F.
ANOVA no es uno, sino un familia de varios modelos.
Sobre la necesidad de homocedasticidad:
http://
blog.minitab.com/blog/statistics-and-quality-data-analysis/dont-be-a-victim-of-statistical-
hippopotomonstrosesquipedaliophobia
Enlace vigente a 27-Nov-2016
est escrito con cierta gracia, sin perder rigor
(c) 2012-6 Dr. Felipe Orihuela
149
Espina
Otras pruebas estadsticas populares y tiles
Prueba de normalidad de Shapiro-Wilk: Prueba si la muestra proviene de una
distribucin normal
Prueba de Anderson-Darling: Detecta la desviacin de una muestra de una
determinada distribucin (incluyendo la distribucin normal para la cual, esta prueba
se considera una de las ms potentes)
Prueba de Kolmogorov-Smirnov: Prueba no paramtrica de que las muestras
provienen de la misma distribucin (o comparacin contra una referencia). Puede
tambin ser usada como prueba de bondad de ajuste en una regresin.
Prueba de Kruskall-Wallis: Similar a ANOVA pero para datos no paramtricos
Prueba T de Welch: Compara diferencias entre las medias de dos variables
independientes
Prueba exacta de Fisher: Similar a 2 para tablas de contingencia de tamao 2x2
Prueba de McNemar: Similar a 2 para tablas de contingencia de tamao 2x2 con
observaciones dependientes (paredas)
Prueba de Friedman: Versin no paramtrica de ANOVA
Variantes de ANOVA: (1/2) factores ANOVA (entre/intra)-sujetos, ANCOVA (Anlisis
de Covarianza), MANOVA (versn multivariable de ANOVA), MANCOVA,

(c) 2012-6 Dr. Felipe Orihuela


150
Espina
Qu prueba debo aplicar?

Recuerda:
Proceso de prueba de hiptesis
(informal)
1. Definir las hiptesis nula y alternativa
2. Tomar datos
3. Elegir la prueba estadstica apropiada
4. Calcular el valor del test (score -t,F,2)
5. Decidir si rechazar o no la hiptesis nula
basndose alguna regla de decisin
(c) 2012-6 Dr. Felipe Orihuela
151
Espina
Qu prueba debo aplicar?
La seleccin de la prueba estadstica apropiada
depende de varios aspectos de los datos y del
diseo experimental:
Tamao de la muestra (pequeo <30; grande >30)
Independencia de las observaciones (pareadas o no)
Nmero de grupos (variables) que van a ser
comparados
Tipos de las variables (categricas, ordinales,
discretas, etc)
Distribucin/es asumida/s
Tipo de hiptesis alternativa (una cola, dos colas).

(c) 2012-6 Dr. Felipe Orihuela [GurevychI2011]


152
Espina
Qu prueba debo aplicar?

Fuente: [http://dc281.4shared.com/doc/HRgHf_KM/preview001.png]
(c) 2012-6 Dr. Felipe Orihuela
153
Espina
Qu prueba debo aplicar?

(c) 2012-6 Dr. Felipe Orihuela


154
Fuente: [http://dc281.4shared.com/doc/HRgHf_KM/preview001.png]
Espina
Qu prueba debo aplicar?
Parametric

(c) 2012-6 Dr. Felipe Orihuela


155
Fuente: [www.sigmazone.com] Espina
Qu prueba debo aplicar?
Non-Parametric

(c) 2012-6 Dr. Felipe Orihuela


156
Fuente: [www.sigmazone.com] Espina
Qu prueba debo aplicar?
Variable independiente Variable dependiente
Estadstica
Prueba
Nmero Tipo Nmero Tipo observada

1 poblacin N/A 1 Continuas t-test de una Media


normal muestra
2 2 categoras 1 Normal t-test de dos Media
poblaciones muestras
independient
1 Non-normal Mann Mediana
es
Whitney,
Wilcoxon
rank sum
test
1 Categrica 2 test, Proporcin
prueba
exacta de
Fisher
3 o ms categricas
Puedes encontrar 1
tablas ms completas Normal
en: ANOVA de un Medias
poblaciones factor
http://www.ats.ucla.edu/stat/mult_pkg/whatstat/choosestat.html
http://bama.ua.edu/~jleeper/627/choosestat.html

http://www.bmj.com/content/315/7104/364/T1.expansion.html

(c) 2012-6 Dr. Felipe Orihuela


157
Espina
INTERVALOS DE CONFIANZA

(c) 2012-6 Dr. Felipe Orihuela


158
Espina
Intervalos de confianza
Overemphasis on hypothesis testing and the use
of P values to dichotomise significant or non-
significant results has detracted from more useful
approaches to interpreting study results, such as
estimation and confidence intervals. []
Confidence intervals, if appropriate to the type of
study, should be used for major findings in both
the main text of a paper and its abstract. []
practice has led to the mistaken belief that studies
should aim at obtaining "statistical significance.
[Gardner MJ y Altman D (1986) BMJ, 292:746-750]

(c) 2012-6 Dr. Felipe Orihuela


159
Espina
Intervalos de confianza
Lecturas recomendadas:
Gardner MJ y Altman DG (1986) Confidence intervals
rather than P values: estimation rather than hypothesis
testing BMJ 292:746-750
>1500 citas (Google scholar)
No tiene desperdicio

duPrel, JB et al (2009) Confidence Interval or P-Value?


Deutsches rzteblatt International; 106(19): 3359

Loftus GR y Masson ME (1994) Using confidence


intervals in within subjects designs Psychonomic
Bulletin &Review 1(4):476-490
(c) 2012-6 Dr. Felipe Orihuela
160
Espina
Intervalos de confianza
Otros recursos:
Altman et al Eds. (2000) Statistics with
Confidence: Confidence intervals and
statistical guidelines, 2nd Edition,
Wiley
Efectivamente!, un libro completo slo
sobre intervalos de confianza
Desafortunadamente no tengo acceso al
libroas que no lo he leido
http://www.wiley.com/WileyCDA/WileyTitle/
productCd-0727913751,descCd-
tableOfContents.html
Enlace vigente al 27-Nov-2016
(c) 2012-6 Dr. Felipe Orihuela
161
Espina
Intervalos de confianza
Intervalos de confianza
Rango de valores que probablemente incluye
al parmetro real de la poblacin deseado
(media, mediana, etc) [DuPrelJB2009]

Indican un rango plausible para el valor real


relacionado a la medida del punto estimado a
partir de la muestra.
[http://www.stats.gla.ac.uk/steps/glossary/confiden
ce_intervals.html]

(c) 2012-6 Dr. Felipe Orihuela


162
Espina
Intervalos de confianza
Intervalos de confianza:
Ventajas intuitivas:
Un intervalo de confianza representa alejarse de establecer un valor
nico para un estimador, para ofrecer a cambio un rango de valores
plausible para la poblacin. [GardnerMJ1986]

En un experimento real, no obtenemos la media poblacional sino


slo su estimado. Por tanto, tener alguna forma de determinar que fe
le tenemos al estimado es conveniente [LoftusGR1994]
efectivamente, el error estndar va en esta direccin; no en vano:
The standard error of the sample statistic, [...] is a recognition that a sample is
most unlikely to determine the population value exactly. In fact, if a further
sample is taken in identical circumstances almost certainly it will produce a
different estimate of the same population value. The sample statistic is
therefore imprecise, and the standard error is a measure of this imprecision. By
itself the standard error has limited meaning, but it can be used to produce a
confidence interval, which does have a useful interpretation. [GardnerMJ1986]

(c) 2012-6 Dr. Felipe Orihuela


163
Espina
Intervalos de confianza
Intervalos de confianza
El nivel de confianza es el valor de probabilidad 1-
asociado a un intervalo de confianza.
Un nivel de confianza del k% significa que el intervalo de
confianza cubrira al valor real en k de cada 100 estudios
que se llevasen a cabo
Un intervalo de confianza calculado al k% se interpeta
como que tenemos una seguridad al k% de que el valor
real del parmetro est contenido en el intervalo

Un nivel de confianza frecuentemente usado es el


95%
pero obviamente podemos utilizar otros; 99%, 99.99%
(c) 2012-6 Dr. Felipe Orihuela
164
Espina
Intervalos de confianza
Lmites de confianza:
Los lmites de confianza son los valores
superior e inferior que delimitan al rango del
intervalo de confianza

Los valores fuera de los intervalos de


confianza no son imposibles; no se excluyen,
simplemente son improbables.

(c) 2012-6 Dr. Felipe Orihuela


165
Espina
Intervalos de confianza
Lmites de confianza:
La forma exacta de calcular los lmites de
confianza vara dependiendo:
del parmetro estimado (obviamente),
del diseo experimental (within-/between- subjects), y
de si se hace sobre una muestra o sobre diferencias
entre otras cosas

no obstante, hay un principio comn: sumar y


restar al estimador algn mltiplo del error
estndar
No veremos todas las posibilidades, slo algunas
(c) 2012-6 Dr. Felipe Orihuela
166
Espina
Intervalos de confianza
Lmites de confianza:
Intervalo de confianza para la media para una
sla muestra con muestras grandes:

Doble
cola

La distribucin Z es la distribucin normal estndar y


SE el error estndar.
(c) 2012-6 Dr. Felipe Orihuela
167
Espina
Intervalos de confianza
Lmites de confianza:
Intervalo de confianza para la media para una sla
muestra con muestras pequeas (si se asume
normalidad):

Doble
cola

Se utiliza la distribucin t con n-1 grados de libertad


asociado a una confianza 100(1-)%
No es un error; es el nivel de significancia
completo
(c) 2012-6(independientemente
Dr. Felipe Orihuela de la doble
168
Espina cola)
Intervalos de confianza
Lmites de confianza:
Intervalo de confianza para la diferencia entre
medias para dos muestras no pareadas (si se
asume normalidad):

Desviaci
Error
n
estndar donde: estndar
de la
de la
diferencia
diferencia

(c) 2012-6 Dr. Felipe Orihuela


169
Espina
Intervalos de confianza
Lmites de confianza:
Puedes encontrar algunos otros casos de cmo calcular los intervalos de confianza en:
Gardner MJ y Altman DG (1986) Confidence intervals rather than P values: estimation rather than
hypothesis testing BMJ 292:746-750

Loftus GR y Masson ME (1994) Using confidence intervals in within subjects designs Psychonomic
Bulletin &Review 1(4):476-490

Newcombe RG (1998) Two-sided confidence intervals for the single proportion: comparison of seven
methods Statistics in Medicine 17:857-872

Morris JA y Gardner MJ (1988) Calculating confidence intervals for relative risks (odds ratios) and
standardised ratios and rates BMJ 296:1313-1316

Kragten, J (1994) Calculating Standard Deviations and Confidence Intervals with a Universally
Applicable Spreadsheet Technique Analyst 119:2161-2165

Brookmeyer R y Crowley J A confidence interval for the median survival time Biometrics 38:29-41

Mehta CR et al (1985) Computing an exact confidence interval for the common odds ratio in several
22 contingency tables Journal of the American Statistical Association 80(392):969-973

(c) 2012-6 Dr. Felipe Orihuela


170
Espina
Intervalos de confianza
Intervalos de confianza
Los intervalos de confianza permiten hacer afirmaciones
sobre:
la direccin de un posible efecto,
el tamao del efecto,
y la presencia de un resultado estadsticamente significativo
(significancia)

Intervalos de confianza:
ms estrechos, representan una mayor confianza en los
resultados
ms amplios, indican que se debieran tomar ms muestras
antes de hacer alguna afirmacin sobre el parmetro.

(c) 2012-6 Dr. Felipe Orihuela


171
Espina
Intervalos de confianza
Intervalos de confianza
Dependen fuertemente del tamao de la
muestra y el nivel de confianza requerido de
los grupos de estudio
Tamaos de muestras ms grandes conllevan
intervalos de confianza ms estrechos

Desviaciones estndar ms grandes implican


mayor incertidumbre, y en consecuencia
mayores intervalos de confianza

(c) 2012-6 Dr. Felipe Orihuela


172
Espina
Intervalos de confianza
Intervalos de confianza
Los intervalos de confianza pueden
complementar, e incluso sustituir, a los
mecanismos tradicionales de prueba de
hiptesis [LoftusGR1994]

(c) 2012-6 Dr. Felipe Orihuela


173
Espina
Intervalos de confianza y p-valores
En contraste con los p-valores, los intervalos de
confianza indican la direccin del efecto estudiado.
[DuPrelJB2009]
Pequeas diferencias sin inters pueden ser
estadisticamente significativas dado un tamao de muestra
lo suficientemente grande, mientras que efectos
clnicamente importantes pueden no alcanzar la
significancia estadstica simplemente por un tamao de
muestra pequeo. [GardnerMJ1986]

En contraste con los intervalos de confianza, los p-


valores indican la diferencia con respecto a un umbral
estadstico previamente definido .
(c) 2012-6 Dr. Felipe Orihuela
174
Espina
Intervalos de confianza
Ejercicio: Dos farmacuticas comercializan sus marcas de Ibuprofeno. Queremos saber
si alguna de las marcas tiene una concentracin ms alta de Ibuprofeno en sus tabletas
con un nivel de significancia del 5%, y si esta es significativa cul tiene la concentracin
ms alta.
Datos:
Indolorex IbuGenrico
n=36 n=35
Media muestral x1=358 mg Media muestral x2=345 mg
Desviacin estndar muestral Desviacin estndar muestral
s1= 10 mg s2= 14 mg

Nota 1: La solucin original en la fuente (mathtrench) es correcta pero confusa; utiliza intervalos
de confianza basados en z, pero usa el valor t para la regla de decisin. Aqu lo resolveremos
utilizando slo la distribucin t, lo que lleva a pequeas diferencias numricas.
Nota 2: En este ejercicio se requiere el uso de tablas precalculadas (
http://easycalculation.com/statistics/t-distribution-critical-value-table.php) o de una calculadora de la
distribucin t en lnea (http://stattrek.com/online-calculator/t-distribution.aspx - Ojo! es 1-tail).

Problema modificado de:


(c) 2012-6 Dr. Felipe Orihuela
[http://www.mathtrench.com/Contents/Statistics/Confidence+Interva
Espina
175
Intervalos de confianza
Solucin:
La solucin requiere de 2 etapas de varios pasos cada
una;

A. Decidimos si la diferencia es significativa


1) Buscamos el valor crtico para la regla de decisin
2) Calculamos el valor t de la diferencia
3) Para saber si rechazamos o no la hiptesis nula, simplemente
comparamos nuestro valor t con el valor crtico para ver si cae dentro
del intervalo de confianza (regla de decisin)

B. Indicar cul marca tiene ms concentracin de Ibuprofeno.


4) Calculamos los intervalos de confianza al 95%
5) Finalmente, observamos los intervalos de confianza para saber cual
de las medias es mayor

(c) 2012-6 Dr. Felipe Orihuela


176
Espina
Intervalos de confianza
Solucin:
Bsicamente nos estn pidiendo un prueba de hiptesis de si
hay una diferencia entre las medias:
H0: 1=2
Ha: 12

Asumiendo distribuciones normales (ambos n>30 y


ninguna indicacin contraria), podemos utilizar un
simple t test de dos colas
Observa que en la solucin original el usa directamente la
distribucin z.

Si el nivel de significancia =5% entonces buscamos


el intervalo de confianza al 95%
(c) 2012-6 Dr. Felipe Orihuela
177
Espina
Intervalos de confianza
Solucin:
1) Buscamos el valor
crtico

para la regla de
decisin de dos colas:
Extraemos el valor
de t asociado para
un nivel de confianza
al 95% y
considerando 2 colas
(con n1+n2-2=69
grados de libertad):
t=1.9950
Valor t obtenido de la tabla (demasiado grande; no cabe en esta
diapositiva):
http://
easycalculation.com/statistics/t-distribution-critical-value-table.php
(c) 2012-6 Dr. Felipe Orihuela
Enlace vigente a 27-Nov-2016 178
Espina
Intervalos de confianza
Solucin:
2) Calculamos el valor t de la diferencia
Recuerda:
Sea la diferencia:

Donde:

y por nuestra hiptesis nula (H0: 1=2) no esperamos que


haya diferencia; por tanto:

Finalmente; SE = SEdiff
(c) 2012-6 Dr. Felipe Orihuela
179
Espina
Intervalos de confianza
Solucin:
2) Calculamos el valor t de la diferencia

Necesitamos calcular SEdiff

(c) 2012-6 Dr. Felipe Orihuela


180
Espina
Intervalos de confianza
Solucin:
2) Calculamos el valor t de la diferencia
Calculamos SEdiff

(c) 2012-6 Dr. Felipe Orihuela


181
Espina
Intervalos de confianza
Solucin:
2) Calculamos el valor t de la diferencia
Poniendo todo junto:

(c) 2012-6 Dr. Felipe Orihuela


182
Espina
Intervalos de confianza
Solucin:
3) Para saber si rechazamos o no la hiptesis
nula, simplemente comparamos nuestro valor
t con el valor crtico para ver si cae dentro del
intervalo de confianza (regla de decisin)

(c) 2012-6 Dr. Felipe Orihuela


183
Espina
Intervalos de confianza
Solucin:
4) An falta indicar cul marca tiene ms concentracin de
Ibuprofeno. Para ello, calculamos los intervalos de confianza al
95%.
Ya tenemos precalculado SEdiff del paso 2:

(c) 2012-6 Dr. Felipe Orihuela


184
Espina
Intervalos de confianza
Solucin:
4) Calculamos los intervalos de confianza al
95%:
Ya tenemos precalculado del paso 1:
Ya tenemos precalculado SEdiff del paso 2:
SEdiff=2.8813
Por tanto, podemos resolver

(c) 2012-6 Dr. Felipe Orihuela


185
Espina
Intervalos de confianza
Solucin:
5) Finalmente, para saber cual de las medias
es mayor observamos los intervalos de
confianza:
Como en este caso los lmites del intervalo de
confianza ambos son positivos eso significa que
1>2.
En otras palabras; Indolorex tiene una
concentracin de Ibuprofeno mayor que
Ibugenrico bajo un nivel de significancia
del 5%.

(c) 2012-6 Dr. Felipe Orihuela


186
Espina
ANOTADORES

(c) 2012-6 Dr. Felipe Orihuela


187
Espina
Anotadores
Lecturas recomendadas:
Gwet, KL (2008) Computing inter-rater reliability and its variance in the presence of
high agreement British Journal of Mathematical and Statistical Psychology 61:29-48
Bland JM y Altman DG (1986) Statistical methods for assessing agreement between
two methods of clinical measurement Lancet 327(8476):307-310
Banerjee M (1999) Beyond Kappa: A review of interrater agreement measures The
Canadian Journal of Statistics 27(1):3-23
Bartko JJ (1966) The intraclass correlation coefficient as a measure of reliability
Psychological Reports 19:3-11
Lpez de Ullibarri Galparsoro I, Pita Fernndez, S. (1999) Medidas de concordancia:
el ndice de Kappa Cad Atencin Primaria 6:169-171
Rousson, V et al (2002) Assessing intrarater, interrater and testretest reliability of
continuous measurements Statist. Med. 21:34313446
Kottner J (2011) Guidelines for Reporting Reliability and Agreement Studies (GRRAS)
were proposed Journal of Clinical Epidemiology 64:96-106
Stemler, Steven E. (2004). A comparison of consensus, consistency, and
measurement approaches to estimating interrater reliability. Practical Assessment,
Research & Evaluation, 9(4)
http://pareonline.net/getvn.asp?v=9&n=4

(c) 2012-6 Dr. Felipe Orihuela


188
Espina
Anotadores
Hasta ahora:
Cada variable aleatoria en cada observacin
tena un valor nico
Haba una nica medicin

En otras palabras, era observada por un slo


anotador u observador (sensor, experto,
mtrica, etc)

Este anotador u observador nico se supone


infalible, sin error
(c) 2012-6 Dr. Felipe Orihuela
189
Espina
Anotadores
En condiciones reales, los observadores u
anotadores no son infalibles

La diferencias pueden surgir por diferentes razones:


Variaciones en el procedimiento experimental
Variaciones en la interpretacin
Variaciones en la presentacin

Si no se conoce la verdad absoluta (ground truth), y


los anotadores no son infalibles, en estas
circunstancias es conveniente tener mltiples
anotadores.
(c) 2012-6 Dr. Felipe Orihuela
190
Espina
Anotadores
Anotador
A.k.a. observador, examinador, explorador
En ingls: annotator, rater, scorer, judges,
observer, tagger, coder

Cualquier sensor, experto, tcnica de


medicin, mtrica, etc que obtiene una
medicin de una variable aleatoria [definicin
propia].

(c) 2012-6 Dr. Felipe Orihuela


191
Espina
Anotadores
Hay discrepancias entre anotadores
Diferentes observadores califican o evalan de forma distinta el
mismo objeto
Cmo conciliar las anotaciones si estas difieren?
Concordancia (reliability o agreement): Consistencia entre las
decisiones

Hay incongruencias intra-anotador


El mismo observador presentado dos veces con el mismo objeto
no siempre evala de la misma forma
Cmo puedo saber que tanto fiarme de una anotador?
Fiabilidad ((test-retest) Reliability y Repeatibility): Variacin entre
medidas repetidas sobre un mismo objeto en condiciones
similares

(c) 2012-6 Dr. Felipe Orihuela


192
Espina
Anotadores
Sesgo entre observadores
Se habla de sesgo entre observadores
cuando un un observador da de forma
consistente valores mayores(menores) que
otro [Lpez de Ullibarri 1999]

(c) 2012-6 Dr. Felipe Orihuela


193
Espina
Anotadores
Concordancia entre anotadores
Grado de acuerdo entre observadores

La concordancia puede implicar el acuerdo:


Con una escala oficial
Con otros anotadores

(c) 2012-6 Dr. Felipe Orihuela


194
Espina
Anotadores

Concordancia
El plot de Bland y Altman presenta
el promedio de las (dos)
evaluaciones en el eje de abscisa
contra la diferencia entre (dos)
anotadores en cada observacin,
la diferencia media y los lmites de
acuerdo sobre el eje de ordenadas.

Permite observar no slo la


concordancia en general sino el
grado de acuerdo en relacin al
valor real supuesto (la media de
las evaluaciones)
Ejemplo: Dos anotadores pueden
tener una alta concordancia en valores
Fuente: [Bland
pequeosyy Altman, 1986,
tener desacuerdo en Lancet]
valores grandes
Figura de: [http://en.wikipedia.org/wiki/File:Bland-Altman-Plot.gif]
(c) 2012-6 Dr. Felipe Orihuela
195
Espina
Anotadores
Fiabilidad intra-observador
Grado de concordancia demostrado al
repetirse una medicin en condiciones
idnticas a cargo del mismo observador.

Grado en que pueden reproducirse los


resultados obtenidos por un procedimiento de
medicin.

finicin de: [http://htaglossary.net/fiabilidad+intra-observador+%28n.f.%29]


(c) 2012-6 Dr. Felipe Orihuela
196
Espina
Anotadores
Fiabilidad
La fiabilidad no implica validez

(c) 2012-6 Dr. Felipe Orihuela


197
Figura de: [http://en.wikipedia.org/wiki/Reliability_%28statistics%29]
Espina
Anotadores
Sin entrar en detalles, estadsticas para evaluar la concordancia y fiabilidad
intra- y entre-anotadores:
Probabilidad conjunta de acuerdo
La ms simple; Nmero de veces que cada valor se asigna por cada anotador dividido por el nmero
total de evaluaciones
Slo para datos categricos
No considera el acuerdo por azar
Kappa de Cohen
MUY popular
Slo sirve para 2 anotadores y variables categricas
Kappa de Fleiss
Extensin de la Kappa de Cohen a n anotadores
Correlacin inter-anotador
Coeficiente de correlacin de concordancia
Correlacin intraclase
Alpha de Krippendorff
Muy general
Permite n anotadores, variables de cualquier tipo (categricas, ordinales, discretas, de intervalos, de
ratio)
Robusta a pequeas muestras, diseos desbalanceados,

(c) 2012-6 Dr. Felipe Orihuela


198
Espina
GRACIAS, PREGUNTAS?

(c) 2012-6 Dr. Felipe Orihuela


199
Espina

Vous aimerez peut-être aussi