Estadistica Inferencial PruebaDeHipotesis

Estadsitica inferencial;
Prueba de hiptesis
Matemticas para la Computacin

Dr. Felipe Orihuela-Espina
Estadstica inferencial
Lord Sir Ernest Rutherford of

Nelson
If your experiment Neo Zelands / Britnico,
1871-1937
needs statistics, you Padre de la fsica nuclear
ought to have done a Descubridor del protn
Nobel de Qumica 1908
better experiment.
(c) 2012-6 Dr. Felipe Orihuela

2
Espina
Contenidos
1. Contraste o Testeo de Hiptesis
2. Errores de tipo I y tipo II.
1. p-valor
2. Especificidad, sensitividad, ROC
3. Tests estadsticos bsicos
4. Intervalos de confianza
5. Un anotador vs multiples anotadores
1. Intra-rater and inter-rater score

3
Espina
Lecturas recomendadas
Dean, A and Voss, D. Design and Analysis of
Experiments. Springer (1999)
DeGroot, M- H. y Schervish, M.-J. Probability and

Statistics. 4a Ed. 2012 Cap 9
Martin Bland An introduction to Medical Statistics

Oxford Medical Publications, 3rd Edition (2000) 405pgs
Prueba de hiptesis
Wayne, WD (2008) Bioestadstica para el anlisis de las
ciencias de la salud. Wiley, 4 Edicin (en espaol). Cap 7

4
Espina
Intervalos de confianza:
Altman et al Eds. (2000) Statistics with Confidence: Confidence intervals and
statistical guidelines, 2nd Edition, Wiley
Efectivamente, un libro completo slo sobre intervalos de confianza
Desafortunadamente no tengo acceso al libro
http://www.wiley.com/WileyCDA/WileyTitle/productCd-0727913751,descCd-
tableOfContents.html
Gardner MJ y Altman DG (1986) Confidence intervals rather than P values:

estimation rather than hypothesis testing BMJ 292:746-750
>1200 citas (Google scholar)
No tiene desperdicio
duPrel, JB et al (2009) Confidence Interval or P-Value? Deutsches rzteblatt

International; 106(19): 3359
Loftus GR y Masson ME (1994) Using confidence intervals in within subjects

designs Psychonomic Bulletin &Review 1(4):476-490

5
Espina
Anotadores:
Gwet, KL (2008) Computing inter-rater reliability and its
variance in the presence of high agreement British
Journal of Mathematical and Statistical Psychology
61:29-48
Bland JM y Altman DG (1986) Statistical methods for

assessing agreement between two methods of clinical
measurement Lancet 327(8476):307-310
Banerjee M (1999) Beyond Kappa: A review of interrater

agreement measures The Canadian Journal of Statistics
27(1):3-23
6
Espina
Otros recursos:
http://www.mathtrench.com/contents/Statistics
+1000 problemas resueltos incluyendo:
Estadstica descriptiva
Distribuciones de probabilidad
Estadstica no paramtrica
Estadstica inferencial
Correlaciones y regresiones
Prueba de hiptesis
Intervalos de confianza
Requiere registrarse pero es gratuito

7
Espina
CONTRASTE O TESTEO DE
HIPTESIS
8
Espina
Citas sobre la significancia estadstica
[BlandM1996] Acceptance of statistics, though gratifying
to the medical statistician, may even have gone too far.
More than once I have told a colleague that he did not
need me to prove that his difference existed, as anyone
could see it, only to be told in turn that without the magic
p-value he could not have his paper published.
[Nicholls in KatzR2001] In general, however, null

hypothesis significance testing tells us little of what we
need to know and is inherently misleading. We should be
less enthusiastic about insisting on its use.

9
Espina
[Falk in KatzR2001] Significance tests do not provide the
information that scientists need, neither do they solve the
crucial questions that they are characteristically believed to
answer. The one answer that they do give is not a question
that we have asked.
[DuPrelJB2009] Unfortunately, statistical significance is often

thought to be equivalent to clinical relevance. Many research
workers, readers, and journals ignore findings which are
potentially clinically useful only because they are not
statistically significant. At this point, we can criticize the
practice of some scientific journals of preferably publishing
significant results [...] ("publication bias").
10
Espina
[GardnerMJ1986, co-authored by Altman] ...the use of statistics
in medical journals has increased tremendously. One unfortunate
consequence has been a shift in emphasis away from the basic
results towards an undue concentration on hypothesis testing. In
this approach data are examined in relation to a statistical "null"
hypothesis, and the practice has led to the mistaken belief that
studies should aim at obtaining "statistical significance. [...] The
excessive use of hypothesis testing at the expense of other ways
of assessing results has reached such a degree that levels of
significance are often quoted alone in the main text and abstracts
of papers, with no mention of actual concentrations, proportions,
etc, or their differences. The implication of hypothesis testing-
that there can always be a simple "yes" or "no" answer as the
fundamental result from a medical study-is clearly false and used
in this way hypothesis testing is of limited value.

11
Espina
Prueba de hiptesis
Considerado el padre de la estadstica

inferencial
Creador de ANOVA entre otros
Trabajo principalmente en Cambridge y UCL,

fue miembro de la Royal Society
Reemplaz a Pearson en su ctedra en UCL
Cmo buen genio trabajo en otros campos:

matemticas, biologa evolutiva, gentica, etc
De hecho, tambin es el padre de la gentica
poblacional, que describe los fenmenos evolutivos
en funcin de la variacin y distribucin de la
frecuencia allica
Tambin descubri la utilidad del uso de los Sir Ronald Aylmer Fisher (1890-196
cuadrados latinos para mejorar significativamente los
mtodos agrcolasy algunos enlaces:
Una biografa
Britnico
http://www-history.mcs.st-andrews.ac.uk/Biographies/Fisher.html
Enlace vigente a 16-Nov-2015.
12
Espina
Prueba de hiptesis
El mtodo cientfico en breve
1. Observacin de un fenmeno fsico
2. Emisin o postulacin de una hiptesis o
explicacin plausibleOdelbsefenmeno que pueda
e v i r
tado va que h
explicar las observaciones
d e m usar e
3. Experimentcin alterando l a pa
ostra las condiciones y
r (au
auto el fenmeno l ab
midiendo/observando res q n q u e ra
en condiciones
cambiantes En g ue s h ay
ener la us
a
4. Confirmacin o refutacin
c a l , a n).
umu slo basada
la hiptesis en
la ev recogida se en el
la evidencia (observaciones) iden
experimento
c ia.
1. Si se confirma se obtiene una tesis o teora cientfica.
13
Espina
Prueba de hiptesis
The scientific method

Divulgative Formal
Observation of a Establishment of a XRY|C
phenomenon formal construct
Emission of a Formulation of a Y=f(X,C)
falsable hypothesis model
Experimentation Experiment design,
(or analytical data harvesting
development) and analysis
Confirmation or Validity of model XRY|C Y=f(X,C)
rejection of
hypothesis
Elaboracin propia.
14
Espina
Prueba de hiptesis
Fenmeno
En la filosofa de Immanuel Kant, lo que es objeto de la experiencia
sensible.
[Real Academia Espaola de la Lengua]
In philosophy, any object, fact, or occurrence perceived or observed. In

general, phenomena are the objects of the senses (e.g., sights and
sounds) as contrasted with what is apprehended by the intellect.
[Enciclopedia britnica]
Un evento observable
[American Heritage Dictionary of the English Language]
Un fenmeno es cualquier ocurrencia o evento observable

directamente o mediante instrumentacin.
O incluso indirectamente! mediante la observacin de sus consecuencias
https://en.wikipedia.org/wiki/Phenomenon

15
Espina
Prueba de hiptesis
Hiptesis (o conjetura)
Una hiptesis es una explicacin propuesta para un
fenmeno
[https://en.wikipedia.org/wiki/Hypothesis]
Una hiptesis es una suposicin de algo posible o imposible

que se establece provisionalmente como bse de una
investigacin que puede confirmar o negar la validez de
aquella.
[Real Academia Espaola de la Lengua]
Una hiptesis es una proposicin consistente con las

observaciones, pero que no ha sido verificada ni refutada.
[http://mathworld.wolfram.com/Hypothesis.html]
16
Espina
Prueba de hiptesis
Hiptesis
Existen 2 tipos de hiptesis:
De investigacin o cientfica
Estadstica
Ambos tipos de hiptesis estn relacionadas.

17
Espina
Prueba de hiptesis
Hiptesis de investigacin o cientfica
La hiptesis de investigacin es una afirmacin
sobre la asociacin o relacin esperada entre
variables.
por ende, una hiptesis bien definida indica al
menos, implcita o explcitamente, las variables
independientes y las dependientes, y
preferiblemente tambin las controladas.
O sea, es un modelo.
Es la conjetura que motiva la investigacin

[WayneWD2008]
18
Espina
Prueba de hiptesis
La hiptesis cientfica debe ser falseable o refutable
esto implica que se pueden disear experimentos que en el caso
arrojar resultados distintos a los predichos, negaran la hiptesis
puesta a prueba
Puede ser refutable de forma directa o indirecta.
Falsabilidad (refutabilidad) es la propiedad que tendr una

proposicin universal si existe al menos un enunciado
lgicamente posible que se deduzca de ella que pueda
demostrarse falso mediante observacin emprica. Si ni
siquiera es posible imaginar un enunciado empricamente
comprobable que contradiga la proposicin original, entonces
tal proposicin no ser falsable.
La falsabilidad es un pilar del mtodo cientfico
19
Espina
Prueba de hiptesis
La hiptesis cientfica debe ser operacional
esto implica que este formulada claramente, sin
ambigedades, de modo que a partir de ella se
pueda efectuar la deduccin, estableciendo
claramente (i) la relacin de las variables, (ii) las
implicaciones de las relaciones establecidas y (iii)
la descripcin clara de los ndices que han de
utilizarse.

20
Espina
Prueba de hiptesis
A menudo se expresan en forma de afirmaciones de tipo Si-
entonces.
Ejemplos:
Si se ingiere una aspirina, entonces el dolor disminuye
Si fumar causa cncer de pulmn, entonces aquellos individuos que fuman deben
tener una frecuencia ms alta de desarrollo de la enfermedad.
Lectura recomendada:
Castillo Bautista, R.: La hiptesis en investigacin, Contribuciones a las
Ciencias Sociales, abril 2009
www.eumed.net/rev/cccss/04/rcb2.htm
MUY recomendada y est en espaol
http://www.sciencebuddies.org/blog/2010/02/a-strong-hypothesis.php
Algunos consejos sobre como formular una hiptesis

21
Espina
Prueba de hiptesis
Ejercicio: Un trabajador de una piscifactora observa el
siguiente fenmeno: Las truchas arcoris tienen ms
liendres en verano cuando el nivel del agua baja. Cul
de estas dos hiptesis est mejor formulada?
a) El nivel o altura del agua afecta a la cantidad de liendres
padecidas por la trucha arcoris
b) La trucha arcoris padece ms liendres en condiciones de
niveles de agua baja por que el agua contiene menos oxgeno
Solucin:
La segunda es la correcta; establece los participantes (las truchas), las
variables independientes (oxgeno en el agua) y dependientes (nmero de
liendres) e indica el efecto predicho (aumento del nmero de liendres como
consecuencia de una disminucin del oxgeno).
La primera no es falseable; no se puede disear un experimento que la
confirme ya que no explica el porqu ocurre el fenmeno observado y carece
de variables establecidas y controladas. Observa que el nivel o altura del
agua, no es una variable, sino parte del fenmeno observado.
Ejemplo modificado de: [http://explorable.com/how-to-write-a-hypothesis y
http://www.sciencebuddies.org/blog/2010/02/a-strong-hypothesis.php]
22
Enlaces vigentes a 16-Nov-2015. Espina
Prueba de hiptesis
Ejercicio: Indica si las siguientes hiptesis
estn bien o mal formuladas y por qu:
a) Nuestro universo est rodeado por otro universo
mayor, con el que no tenemos contacto
b) Las plantas infectadas de insectos fidos
expuestas a catarinas/mariquitas presentarn
menos insectos fidos tras una semana en
comparacin con plantas infectadas que no sean
expuestas a catarinas/mariquitas
c) Las catarinas/mariquitas son un buen pesticida
natural para tratar plantas afectadas por insectos
fidos
Ejemplo de: [http://www.sciencebuddies.org/blog/2010/02/a-strong-
hypothesis.php] (c) 2012-6 Dr. Felipe Orihuela
23
Enlace vigente a 16-Nov-2015. Espina
Prueba de hiptesis
Solucin:
a) Mal formulada. Independientemente o no de si es cierta, la
hiptesis es inherentemente no falseable; no hay ninguna
medicin/observacin con la que podamos demostrar o refutarla. Esto
es una especulacin, no una hiptesis.
b) Bien formulada. Indica la variable independiente (exposicin a

catarinas/mariquitas), la variable dependiente (nmero de insectos
fidos), y predice el efecto (la exposicin reduce el nmero de fidos).
Es ms incluso da una direccin para el experimento (la capacidad de
la catarina/mariquita de atacar la infeccin en una semana)
c) Mal formulada. Contiene ambigedades; son un buen pesticida

natural demasiado vago. Adems carece de una indicacin clara de
cmo se va a medir el efecto.
Ejemplo de: [http://www.sciencebuddies.org/blog/2010/02/a-strong-

hypothesis.php] (c) 2012-6 Dr. Felipe Orihuela
24
Prueba de hiptesis
Hiptesis estadstica
Una hiptesis estadstica es una proposicin
o supuesto acerca de una o ms poblaciones
[WayneWD2008]
La hiptesis estadstica se formula como

parte de una prueba de hiptesis o test
estadstico.

25
Espina
Prueba de hiptesis
Hiptesis estadstica
Un hiptesis estadstica es simple si su formulacin

slo requiere de igualdades.
Ejemplos: a=0, a=b=c, a+b=c
Un hiptesis estadstica es compuesta si su

formulacin requiere de desigualdades (distinto de,
mayor que, menor que, etc)
Ejemplos: a0, a>0, a<b<c, a+b<c
A su vez, puede ser de un lado (mayor/menor) o de dos

lados (distinto de)

26
Espina
Prueba de hiptesis
Qu es un test estadstico o prueba de
hiptesis?
Es un mecanismo para determinar si hay suficiente
evidencia para rechazar o aceptar una conjetura.
El test estadstico se utiliza para aceptar o rechazar

hiptesis estadsticas
La prueba de hiptesis es el uso de la estadstica para

determinar la probabilidad que una determinada
hiptesis es cierta.
[http://mathworld.wolfram.com/HypothesisTesting.html]

27
Espina
Prueba de hiptesis
Prueba de hiptesis:
El propsito de la prueba de hiptesis es:
ayudar al investigador a tomar una decisin acerca de la poblacin
mediante el examen de una muestra. [WayneWD2008]
decidir si un parmetro cualquiera yace en un subconjunto del

espacio de parmetros, o en su complemento [DeGroot MH 2012,
Cap 9]
...tomar una decisin con base en las muestras sobre si rechazar

ciertas restricciones se cumplen en el modelo asumido. [UrielE2012]
La prueba de hiptesis siempre es sobre parmetros de

poblacin [UrielE2012]

28
Espina
Prueba de hiptesis
Prueba de hiptesis:
Un test estadstico es una funcin definida

sobre una muestra aleatoria, y por ende es
una variable aleatoria.

29
Espina
Prueba de hiptesis
El test estadstico se utiliza para aceptar o
rechazar hiptesis estadsticas. Siempre consta
de 2 hiptesis:
Hiptesis nula (H0): No hay diferencias o relacin

entre las variables; las diferencias son debidas al
azar
Ejemplo: H0: 1=2
Hiptesis alternativa (Ha o H1): Existe una

diferencia o relacin genuina entre las variables
Ejemplo: Ha: 12
30
Espina
Prueba de hiptesis
Hiptesis nula y alternativa:
En principio; tanto la hiptesis nula como la

alternativa pueden ser simples o compuestas
pero es ms comn:
Hiptesis nula simple
Hiptesis alternativa compuesta

31
Espina
Prueba de hiptesis
Hiptesis nula y alternativa:
Ejemplo:
Pregunta de investigacin: Son los hombres ms
altos que las mujeres?
Hiptesis nula: No hay diferencia en la altura entre
gneros
Hiptesis alternativa: Hay una diferencia en la altura
debida al gnero
Figure de: [genderedinnovations.stanford.edu]

32
Espina
Prueba de hiptesis
Proceso de prueba de hiptesis

(informal)
1. Definir las hiptesis
Vam nula y alternativa
os a
2. Tomar datos u ir vien
paso no de do c
ada
3. Elegir la pruebas/elestadstica
orde ement tos
e s apropiada
4. n) del
Calcular elrevalor os(score
a lo test (no -t,F, 2)
sto d larg en
o
e lao no la dhiptesis
5. Decidir si rechazar unid el nula
a d*
basndose alguna regla de decisin
* Salvo el paso 2.
33
Espina
Prueba de hiptesis

(informal)
1. Definir las hiptesis nula y alternativa
2. Tomar datos
3. Elegir la prueba estadstica apropiada
4. Calcular el valor del test (score -t,F,2)
5. Decidir si rechazar o no la hiptesis nula

34
Espina
Prueba de hiptesis
De la hiptesis de investigacin a la
hiptesis estadstica.
Intuitivo:
Ciencia Estadstica
Azar Hiptesis nula
Hiptes Hiptesis
is alternativa
cientfi
ca (c) 2012-6 Dr. Felipe Orihuela
Espina
35
Prueba de hiptesis
Ejemplo:
Supongamos un experimento para determinar el
efecto de 2 metodologas de enseanza.
El primer mtodo implica clases con un profesor y
seminarios, el segundo involucra nicamente las clases
con el profesor.
Hiptesis de investigacin: Si los estudiantes

asisten a seminarios, adems de tomar las clases
con un profesor, su rendimiento mejora
Fuente: [https://statistics.laerd.com/statistical-guides/hypothesis-testing.php]
36
Espina
Prueba de hiptesis
Ejemplo (continuacin):
Definimos las distribuciones que se van a
comparar:
Distribucin 1 (sin seminarios): Grupo de n alumnos que
asisten a clases con un profesor pero no toman
seminarios
Distribucin 2 (con seminarios): Grupo de n alumnos que

asisten a clases con un profesor y adems toman
seminarios

37
Espina
Prueba de hiptesis
Ejemplo (continuacin):
Finalmente, re-expresamos la hiptesis de
investigacin en trminos de las hiptesis
estadsticas:
Hiptesis nula: Tomar seminarios no mejora el
rendimiento de los estudiantes
Hiptesis alternativa: Tomar seminarios tiene un efecto
positivo en el rendimiento de los estudiantes.

38
Espina
Prueba de hiptesis
Cuidado!
Imprecisin comn: A la hiptesis estadstica
alternativa, muy a menudo se refieren a ella
como hiptesis de investigacin
Rechazar la hiptesis nula y aceptar la

hiptesis alternativa no necesariamente
respalda la hiptesis de investigacin.
Incluso cuando una hiptesis se acepta cmo

vlida bajo una investigacin, puede llegar a
ser refutada por otra/s investigacin/es
Lectura recomendada:
http://statisticalsage.wordpress.com/2011/09/21/di
fficult-concepts-research-hypotheses-vs-statistica
l-hypotheses/

39
Espina
Prueba de hiptesis
Del anlisis de regresin a la prueba
estadstica.
Un modelo de regresin e.g. una hiptesis,
expresa una asociacin entre variables
La prueba estadstica nos indica si la

asociacin entre variables es genuina o
debida al azar.

40
Espina
Prueba de hiptesis
estadstica.
Ya sabemos:
El GLM se puede escribir como:
y en particular, un modelo lineal aditivo simple

41
Espina
Prueba de hiptesis
estadstica.
En el modelo regresivo el grado y direccin
de la asociacin viene dada por los
coeficientes de regresin i.
Si i 0 entonces no hay una relacin entre
la variable independiente Xi y la
independiente Y.
en caso contrario, hay una relacin (ms
fuerte o ms dbil es otra cuestin)

42
Espina
Prueba de hiptesis
estadstica.
Queremos saber si la asociacin expresada por el
modelo regresivo es genuina
en otras palabras, si para la poblacin representada por la
muestra, ocurre que el i0
Por tanto:
Hiptesis nula: H0: i=0 (no hay relacin)
Hiptesis alternativa: Ha: i0 (existe una relacin
genuina)
El coeficiente de interseccin 0 no importa

43
Espina
Prueba de hiptesis
estadstica.
En el contexto de un modelo de regresin, la
hiptesis nula siempre es simple (slo usa el
operador igualdad). [UrielE2012]
Ejemplos:
H0: 1=0
H0: 1+2=0
H0: 1=2=0
H0: 2+3=1
44
Espina
Prueba de hiptesis
estadstica.
En el contexto de un modelo de regresin, la
hiptesis alternativa siempre es compuesta.
[UrielE2012]
Ejemplos:
H0: 10 (de dos colas)
H0: 1<0 (de una cola)
H0: 1>0 (de una cola)
45
Espina
Prueba de hiptesis
Hypothesis Test for the Slope of a Regression Line (EjemploEste
con
video
una prueba t) utiliza
algunos
concept
os que
an no
hemos
visto
pero que
veremos
en
breve.
Video:
10:46 mins
Largo pero
merece la
pena.
http://www.youtube.com/watch?v=q_ma0FtFp04
46
Prueba de hiptesis
estadstica.
Observaciones finales:
Cada vez que aplicamos una prueba estadstica,
de forma implcita estamos asumiendo un modelo
aunque a menudo esto es transparente
El modelo general lineal puede ser utilizado para

implementar un amplio rango de test estadsticos
[Friston KJ et al 1995, HBM, 2:189:210]

47
Espina
ERRORES DE TIPO I Y TIPO II

48
Espina
Nivel de significancia ()
y poder estadstico (1-)
Recuerda:
(informal)
2. Tomar datos
49
Espina

50
[Figuras de: joanakompa.com] Espina
En prueba de hiptesis podemos cometer

2 tipos de errores:
Errores de Tipo I o de Tipo : Rechazar la
hiptesis nula cuando esta es cierta. Falso
positivo.
Errores de Tipo II o de Tipo : No rechazar

la hiptesis nula cuando esta es falsa. Falso
negativo.
No confundir
esta con los
coeficientes
de la (c) 2012-6 Dr. Felipe Orihuela
51
regresin! Espina
Tamao de efecto
La probabilidad de
cometer cada uno de
los tipos de errores
ser;
mayor cuanto ms se
solapen las
distribuciones real o
control A y modelada
B
menor cunto menos
se solapen Figura de: [http://1.bp.blogspot.com/-
_OLIOItvoUE/VEuAQZV9nXI/AAAAAAAAD4E/E8KEI
eBW4jA/s1600/javiertouron.es_effectsize.png]

52
Espina
Tamao de efecto
El tamao de efecto
importa y mucho ;)
de hecho es crtico, y
si no lo crees, lee
Por qu importa el tamao de efecto? [Ioannidis JPA (2005)
Why Most Published
Por que en presencia de la misma dispersin, este
Research Findings Are
False. PLoS Med 2(8):
determina el poder estadstico de tu modelo. e124]
Figura de: [http://www.designexperiments.org/?p=192]

53
Espina
Tamao de efecto
El tamao de efecto
describe la magnitud
de la separacin de
las distribuciones.
En otras palabras,
expresa la fuerza de
una relacin sin
declarar si dicha
relacin refleja una
relacin poblacional
Figura de: [https://www.psychometrica.de/effect_size.html]

54
Espina
Tamao de efecto
Existen muchos estimadores

para el tamao de efecto
incluso el smbolo usado
suele variar!!
y la forma de calcularlo
depende de
El tipo de variable (continua o
de ratio, categrica inc.
dicotmica, de intervalo o
rankeada, etc)
La estadstica usada (e.g. el
score de la prueba de
hiptesis)
Tabla: [Rosenthal R (1994) Parametric measures of effect size. Chapter
16 of The Handbook of Research Synthesis, Ed. Cooper H and Hedges,
LV (1994), pgs 231-244(c)
] 2012-6 Dr. Felipe Orihuela 55
Espina
Tamao de efecto
Ejemplo:
Sean las distribuciones real
o control A con tendencia
central A y dispersin A y
modelada B con tendencia
central B y dispersin B,
de la que se conocen sus
estimados muestrales
A~(A,sA) y B~(B,sB)
Uno de los estimadores del

tamao de efecto ms
conocidos es el g de Hedges
que se ilustra en la figura. Figura de: [http://i.ytimg.com/vi/tTgouKMz-eI/maxresdefault.jp

56
Espina
Tamao de efecto
Pero en general, existen 2

familias de tamao de efecto;
La familia r o cuadrticos
Pierden el sentido de la
direccionalidad
Incluyen, entre otros, los clsicos
coeficientes de correlacin
que son una forma de
expresar el tamao del efecto ya
que miden la fuerza de la
relacin dada la varianza ;)
La familia d o directos o
direccionales
Incluye entre otros el popular d
de Cohen, as como el g de
Hedges, o el de Glass.
Tabla: [Rosenthal R (1994) Parametric measures of effect size. Chapter
16 of The Handbook of Research Synthesis, Ed. Cooper H and Hedges,
LV (1994), pgs 231-244(c)
] 2012-6 Dr. Felipe Orihuela 57
Espina
Tamao de efecto
Es conveniente distinguir entre:
El tamao de efecto real (a.k.a. true effect)
que es la verdadera diferencia que se
hubiese observado entre las poblaciones, y
El tamao de efecto observado (a.k.a.

observed effect) que es la diferencia que
podemos calcular a partir de una muestra
finita, y que es slo un estimado (sesgado o
no) del tamao de efecto real.

58
Espina
Implementacin de la regla de decisin:

Es difcil minimizar ambos errores a la vez.
A menudo (prueba de hiptesis clsica) se

elige un nivel de significancia determinado
(eleccin de ) que indica la tolerancia
aceptada a los errores de Tipo I.
Ejemplo: =5% significa que el investigador
est dispuesto a rechazar la hiptesis nula
H0 cuando esta es cierta el 5% de las veces.

59
Espina

Una vez elegido el nivel de significancia () este
se traduce al llamado valor crtico c.
Puede haber ms de un valor crtico si la hiptesis es
compuesta de dos lados (dos colas).
El valor crtico c es el umbral contra el que se

compara el resultado del test estadstico en una
muestra para determinar si se rechaza o acepta
la hiptesis nula.
Cada prueba estadstica produce un tipo de score o
valor que se compara contra el valor crtico.
60
Espina

La regla de decisin consiste simplemente en
la comparacin del resultado de la prueba
estadstica contra el valor crtico c:
Si sc rechazar H0
sino (s<c) no rechazar H0

61
Espina
[Figuras de: www.statstodo.com]

62
Espina
Por qu decimos no rechazar la hiptesis nula en
lugar de aceptar la hiptesis nula?
Si la hiptesis nula es rechazada con la evidencia de la

muestra, esta es una conclusin robusta. Recuerda que
hemos fijado un nivel de significancia ().
Sin embargo, aceptar la hiptesis nula es una conclusin
dbil ya que no conocemos la probabilidad de no rechazar la
hiptesis nula; en otras palabras, no conocemos, o no
hemos fijado, la probabilidad de cometer errores de Tipo II
().
Por tanto, no es que aceptemos la hiptesis nula, sino que
no tenemos evidencia suficiente como para rechazarla.
63
Espina
En el proceso de prueba
de hiptesis quizs la parte
ms subjetiva es la
Decisin \ H0 H0 falsa / Ha determinacin a priori de
Realidad verdadera verdadera nivel de significancia ()
/ Ha falsa
Aceptar Correcto Error de La probabilidad de cometer
H0; (p=1-) Tipo II
()
errores de tipo I se puede
Rechazar
Ha decrementar alterando el
nivel de significancia ()
Rechazar Error de Correcto
H0; Tipo I (1-) Desafortunadamente, esto
Aceptar Ha (p=) conlleva el incremento del
riesgo de cometer errores de
tipo II, y viceversa

64
Espina
[Figuras de: http://doetraining.com/article5.html]

65
Espina
La decisin sobre el nivel de significancia estadstico no debe ser

arbitraria sino basada en el tipo de error que queramos reducir.
Los valores del nivel de significancia ms comunes son 5%, 1% y 0.1%

A veces, la prueba estadstica se expresa de forma condicional a varios niveles
de significancia.
Figura de: [http://www.psycho.uni-
duesseldorf.de/aap/projects/gpower/reference/reference_manual_02.html] 66
Espina
Significancia estadstica
La significancia estadstica de un
resultado es la probabilidad de que la
relacin observada, por ejemplo entre
variables, o que una diferencia por ejemplo
entre medias entre dos muestras ocurri por
azar, y que en la poblacin de donde se
obtuvieron las muestras tal relacin o
diferencia es inexistente
[http://www.statsoft.com/textbook/elementary-
statistics-concepts/]
67
Espina
p-valor
El p-valor es el resultado cuantitativo de una
prueba hiptesis
La prueba de hiptesis da como resultado un valor o
score que se traduce a una probabilidad, el p-valor
Intuitivo:
El valor p, o p-valor (o si se me permite el
anglicismo, p-value) representa la probabilidad de
error que conlleva aceptar nuestros resultados como
vlidos.

68
Espina
p-valor
Formal
Sea la distribucin de una variable estadstica cualquiera.
El p-valor es la probabilidad de que la variable tome un
valor mayor que una determinada observacin
estrictamente por azar:
Por tanto para calcular p basta con tomar la integral bajo la

curva en .

69
Espina
p-valor
Formal (particularizado para el caso de la
variable Z)
El p-valor es la probabilidad de que una variable X
normalizada (Z) adquiera un valor mayor o igual al
valor observado normalizado (zobservada) puramente
por azar
[http://mathworld.wolfram.com/P-Value.html]

70
Espina
p-valor
Regla de decisin:
La hiptesis nula se rechaza si: p
Cuanto ms pequeo el p-valor, ms fuerte

es la evidencia contra la hiptesis nula.

71
Espina
p-valor
El p-valor permite reconocer aquellos descubrimientos dignos

de mencin estadsticamente hablando. Cuanto menor es el
p-valor, menor es la posibilidad de la hiptesis nula; que no
haya diferencia entre los grupos de tratamiento
[DuPrelJB2009]
El p-valor representa un ndice decreciente de fiabilidad de un

resultado []. Cunto mayor es el p-valor, menos podemos
confiar en que la relacin observada entre variables en la
muestra sea indicativa de una posible relacin en la poblacin
[http://www.statsoft.com/textbook/elementary-statistics-
concepts/]

72
Espina
p-valor
Sin importar el p-valor;
NO SE PUEDE CONCLUIR NADA

SOBRE EL TAMAO DEL EFECTO!!!
Para eso se requieren los intervalos de

confianza

73
Espina
Prueba de hiptesis
Proceso de prueba de hiptesis (formal; ms o menos)
1. Formular la hiptesis nula y la hiptesis alternativa
La hiptesis nula a menudo implica que las observaciones son el resultado del azar
La hiptesis alternativa a menudo implica que las observaciones representan un
fenmeno real combinado con un componente de variacin al azar
2. Identificar una prueba estadstica que permita evaluar si la hiptesis nula es
cierta.
1. Decidir a priori un determinado nivel de error que estemos dispuestos a aceptar mediante
la seleccin de un nivel de significancia,
2. Establecer el valor crtico del score de la prueba correspondiente al nivel de significancia
elegido
3. Calcular el score e.g. t,F, asociado a la prueba dada la evidencia (datos) que se tienen
3. Calcular el p-valor asociado al score de la evidencia
4. Comparar el p-valor con un umbral de significancia aceptable () i.e. el valor
crtico, via la regla de decisin
1. Si p< la prueba es positiva, y se dice que la observacin del fenmeno es
estadsticamente significativa (se rechaza la hiptesis nula)
2. Si p> la prueba es negativa, y se dice que la observacin del fenmeno no
es estadsticamente significativa (no se puede rechazar la hiptesis nula)
Modificado de: [http://mathworld.wolfram.com/HypothesisTesting.html]

74
Espina
Prueba de hiptesis
La prueba de hiptesis y el tamao de
efecto estn relacionados por el tamao
de la muestra:
Prueba de significancia = tamao de efecto x tamao del estudio
Source: [Rosenthal R (1994) Parametric measures of effect size.

Chapter 16 of The Handbook of Research Synthesis, Ed. Cooper H and
Hedges, LV (1994), pgs 231-244 ]

75
Espina
Poder estadstico
Informal: El poder estadstico es la
probabilidad de rechazo de la hiptesis nula
En otras palabras, es la probabilidad de que tu
modelo experimental (reflejado en la hiptesis de
investigacin) sea confiable.
Si piensas que es muy parecido al p-value

(probabilidad de que lo que observas no sea por
azar) no vas descaminado, ya que el p-value est
relacionado con la significancia estadstica y por
ende con los errores Tipo I, mientras que el poder
estadstico son los errores Tipo II.
76
Espina
Poder estadstico
Studies with inadequate power are a
waste of research resources and arguably
unethical when subjects are exposed to
potentially harmful or inferior experimental
conditions.
[Krzywinski M y Altman N (2013) Nature
Methods, 10(12):1139-1142]

77
Espina
Poder estadstico
La habilidad de detectar efectos experimentales est
lmitada por el poder estadstico [Krzywinski M y
Altman N (2013) Nature Methods, 10(12):1139-1142]
Si el poder estadstico es bajo, efectos importantes

podran no detectarse.
Si el poder estadstico es (muy) alto cualquier efecto se

vuelve significativo; i.e. no dejas hueco al azar
Recuerda, que esto no significa que tu hiptesis de
investigacin sea la correcta, slo que tienes certeza
experimental

78
Espina
Poder estadstico
Funcin de potencia
Informal:
La funcin de potencia
de una prueba de
hiptesis indica la
probabilidad de rechazar
la hiptesis nula en
funcin del valor real del
parmetro sobre el que se
ha definido la hiptesis.
El valor que toma esta

funcin es el poder
estadstico.
Figura de: [Pinto et al (2003), Journal of Statistics Education 11(1):[Onlin
Available at [http://ww2.amstat.org/publications/jse/v11n1/pinto.html]

79
Espina
Poder estadstico
Funcin de potencia
Formal:
Sea S un espacio de muestra y X una muestra
X=(X1,,Xn)S
Sea una particin de S formada por los

subconjuntos disjuntos S0 y S1 tal que:
S0 es el conjunto que contiene los valores de X
para los cuales se acepta la hiptesis nula
S1 es el conjunto que contiene los valores de X
para los cuales se rechaza la hiptesis nula,
a.k.a. regin crtica.

80
Espina
Poder estadstico
Funcin de potencia
Formal (cont.):
Sea un test estadstico cualquiera , y sea el
parmetro sobre el que se ha definido el test
Al conjunto se le llama el espacio de parmetro
Sea 1, 2, una particin de

Observa que como 1, 2 forman una particin de , eso
significa que son disjuntos y por tanto, slo puede
pertenecer a 1 o 2 pero no a los dos.
Sean las hiptesis de la prueba de hiptesis:

H0: 0
Ha: 1
81
Espina
Poder estadstico
Funcin de potencia
Formal (cont.):
Se llama funcin de potencia a la funcin:

82
Espina
Poder estadstico
Esta es la
Ejemplo:
Funcin de potencia Probabilidad de
rechazo de la
hiptesis nula;
Si la hiptesis nula est definida sobre la i.e. el poder
media (H0: =0), la funcin de potencia de un estadstico.
test estadstico es la probabilidad de rechazar
H0 dado que la media es .
Sea un test estadstico, e.g. el t-test, cuya

hiptesis nula se define sobre un determinado
valor (poblacional); e.g. H0: =0.
La funcin de potencia (,t-test) es una

funcin definida sobre el resultado observado
de un test estadstico (e.g. el valor del
promedio muestral en el t-test) tal que:
para cada posible valor observado del

parmetro e.g. =14, se le hace corresponder
la probabilidad de que la hiptesis resulte
rechazada Aqu no siempre
e.g. (,t-test)=Pr(rechazar H0|=14). va la media, sino
el valor sobre el
que se define el
Figura de: [https://onlinecourses.science.psu.edu/stat414/node/306] test
83
Espina
Poder estadstico
Figure from: [I CANT REMEMBER ]

84
Espina
Poder estadstico
Observa que la
curva NO
siempre es
creciente
Figures from: [http://davegiles.blogspot.mx/2012/07/decline-and-fall-of-power-curve.html]

85
Espina
Poder estadstico
Ni siquiera
tiene que ser
simtrica o
bonita
Esta es la
funcin de
potencia de los
test RESET y
FRESET
Figure from: [http://davegiles.blogspot.mx/2012/07/decline-and-fall-of-power-curve.html]

86
Espina
Poder estadstico
Esta situacin es
desafortunada
cuando tu
autocorrelacin se
aproxima a 1 (que
es justamente
El Durbin-Watson cuando ms
quieres que el test
test detecta la te diga que hay
presencia de una alta
autocorrelacin en autocorrelacin de
los residuos, el
los residuos del test se queda sin
anlisis de poder estadstico!
NOTA:
regresin. Normalmente los
lmites comunes
del valor crtico te
mantienen fuera
de esta regin por
lo que el test no
suele verse
afectado.
Figura de: [Krmer, W. and H. Sonnberger (1986) The Linear Regression

Model Under Test, Physica-Verlag, Heidelberg., pp.19-22)]

87
Espina
Poder estadstico
Funcin de potencia
Dada la funcin de potencia:
(|) es la probabilidad de rechazar la hiptesis

nula H0.
1-(|) es la probabilidad de aceptar la hiptesis

nula H0.

88
Espina
Poder estadstico
Funcin de potencia
Idealmente:
0 (|)=0
1 (|)=1
Si esto ocurriese, entonces indistintamente
del valor de , el test llegara a la decisin
correcta con probabilidad 1. No habra
error!
Ahora podemos redefinir los tipos de errores

en trminos de la funcin de potencia.
89
Espina
Poder estadstico
Funcin de potencia
La probabilidad de error de Tipo I del test es
por tanto:

90
Espina
Poder estadstico
Funcin de potencia
La probabilidad de error de Tipo II del test es
por tanto:

91
Espina
Poder estadstico
Funcin de potencia
Si la hiptesis nula es simple (=0), puede
determinarse el error de Tipo I,
Si la hiptesis alternativa es simple (=1),

puede determinarse el error de Tipo II,
Lo primero es comn, lo segundo no tanto

de aqu que normalmente fijemos el nivel de
significancia y disear la regla de decisin que,
manteniendo este nivel de significancia, conlleve el
menor riesgo de tipo II (test uniformemente ms potente)

92
Espina
Poder estadstico
Lecturas recomendadas:
Krzywinski M y Altman N (2013) Power and Sample Size Nature
Methods, 10(12):1139-1142
De Groot 2012 Cap 9
Otros recursos:
http://people.stern.nyu.edu/churvich/Regress/Handouts/Chapt6.pdf
La que tiene el lenguaje ms llano sin sacrificar exactitud
http://www.uv.es/ceaces/tex1t/6%20para/potencia/CHIPOTES.htm
En espaol; Este es ms formal
https://onlinecourses.science.psu.edu/stat414/node/305
Contiene 3 ejercicios resueltos y una explicacin ms visual
93
Espina
Poder estadstico
Algunas cosas que afectan al poder
estadstico de una prueba de
hiptesis:
Tamao de la muestra
Cuanto mayor sea el tamao muestral,
menor ser el error estndar, y por ende,
menor la dispersin de las medias
muestrales, y en consecuencia, mayor ser
la potencia estadstica de un estudio.
Es por ello que en los estudios con muestras
muy grandes se detectan como significativas
diferencias poco relevantes (overpowering), y
en los estudios con muestras menores es
ms fcil obtener resultados falsamente
negativos.
Tamao del efecto

Cuanto mayor sea el tamao del efecto que
se puede detectar, mayor ser la probabilidad
de obtener hallazgos significativos y, por lo
tanto, mayor ser el poder estadstico.
Figure: [Krzywinski M y Altman N (2013) Nature Methods, 10(12):1139-

94
Espina
Poder estadstico
MDE: Minimum detectable effect (the smallest

real effect size which we would be able to detect
at 80% power)
Figure from: [https://blog.twitter.com/2016/power-minimal-detectable-effect-and-
bucket-size-estimation-in-ab-tests]
95
Espina
Poder estadstico
estadstico de una prueba de hiptesis:
Variabilidad de la respuesta
Cuanto mayor sea la variabilidad en la respuesta,
ms difcil ser detectar diferencias entre los grupos
que se comparan y menor ser el poder estadstico
de la investigacin. Es por tanto recomendable
estudiar grupos lo ms homogneos posibles.
Notese que a mayor variabilidad, menor tamao de
efecto.

96
Espina
Poder estadstico
Veremos en un segundo que
la especificidad(=1-) est
Algunas cosas que relacionada con la
significancia estadstica y
afectan al poder que la sensitividad(=1-)
estadstico de una coincide el poder estadstico.
prueba de hiptesis:
Nivel de significancia
Si se disminuye el valor de
tambin se disminuye el
poder de la prueba. Es decir,
si disminuimos la
probabilidad de cometer un
error de tipo I aumentamos
simultneamente la
probabilidad de un error de
tipo II
97
Espina
Poder estadstico
estadstico de una prueba de hiptesis:
Balance del diseo

El poder es ms alto en diseos balanceados que
en los desbalanceados [Larson MG (2008)
Circulation 117:115-121]
Nmero de grupos
El poder el ms alto cuantos menos grupos haya
[Larson MG (2008) Circulation 117:115-121]
98
Espina
Poder estadstico
pero tambin
Direccionalidad o tipo de hiptesis
Independencia de las muestras (pareamiento)
Paramtricas vs no paramtricas
Nmero de factores del modelo
estas si las veremos ahora

99
Espina
Tipo de hiptesis / Direccionalidad
Direccionalidad
Pruebas de una cola: La hiptesis alternativa es
de un lado. Se utilizan es testeo de hiptesis
direccional
Hiptesis alternativa: Hay una diferencia entre las
variables y anticipamos la direccin de esa diferencia
Ha: 1<2
Ha: 1>2
Pruebas de dos colas: La hiptesis alternativa es

de dos lados. Se utilizan es testeo de hiptesis no
direccional
Hiptesis alternativa: Hay una diferencia entre las
variables pero no anticipamos la direccin de esa
diferencia
Ha: 12
[Figuras de: http://www.mathsrevision.net/alevel/pages.php?page=64]
100
Espina
Direccionalidad:
Ejemplo:
Pregunta de investigacin: Son los hombres ms
altos que las mujeres?
Hiptesis nula: No hay diferencia en la altura entre
gneros
Hiptesis alternativa de una cola: Los hombres son ms
altos que las mujeres.
Hiptesis alternativa de dos colas: Un gnero es ms
alto que el otro
Figure de: [genderedinnovations.stanford.edu]

101
Espina
Direccionalidad:
Las pruebas de una cola
ofrecen un mayor poder Prueba de dos cola
estadstico para detectar un
efecto
Elegir pruebas de una cola con
el nico propsito de obtener
una mayor significancia no es Prueba de una cola
apropiado; podras perder la
diferencia en la otra direccin!
Elegir pruebas de una cola tras
haber ejecutado una prueba de
dos colas que no rechaz la
hiptesis nula no es apropiado.
Fuente: [http://www.ats.ucla.edu/stat/mult_pkg/faq/general/tail_tests.htm]
Figura de: [http://www.psycho.uni-duesseldorf.de/aap/projects/gpower/reference/reference_manual_0
102
Espina
Pareamiento
Independencia de las observaciones
Pareada: Existe una relacin biyectiva entre las observaciones de
las variables. Cada observacin en una variable tiene su par en la
otra variable.
Si las observaciones de un grupo se reorganizan, entonces tambin deben
reorganizarse de forma anloga las observaciones de la otra variable.
Ejemplos:
Experimentos de bloque aleatorizados con dos unidades por bloque
Estudios con controles emparejados de forma indivdual
Experimentos de tipo intra-sujeto con repetidas observaciones sobre el mismo
individuo
No pareada: No hay correspondencia entre las observaciones de

las variables.
Las observaciones en una variable pueden reorganizarse de forma
independiente una de la otra.

103
Espina
Pareamiento
El pareado o emparejamiento es una

estrategia de diseo, no de anlisis; el
emparejamiento ocurre durante la colecta de
datos. El emparejamiento reduce el sesgo e
incrementa la precisin [DinovI2005]

104
Espina
Pareamiento
Ejemplo de datos pareados
N conjuntos de gemelos para saber si el
1er nacido es ms agresivo que el
segundo
Puntaje de
Pareja Agresividad
de
gemel 1er 2do
os nacido nacido
1 86 88
2 71 77
3 77 76
Dr. Felipe Orihuela
(c) 2012-6 Ejemplo
adaptado de [DinovI2005
105
Espina
N 87 72 Figura de: [www.trinity.edu]
Pruebas paramtricas y no-paramtricas
Pruebas paramtricas: Asumen una determinada

distribucin de la variable en la poblacin sobre la que se
pretende generalizar. Normalmente, Gaussiana.
Pruebas no-paramtricas: No presuponen una distribucin

de las variables en la poblacin.
Eso significa que es libre en trminos de la distribucin, pero NO
significa que est libre de toda presuncin.
Las pruebas no paramtricas observan el rango ordenado de los
valores de las observaciones.
Las pruebas paramtricas tiene ms poder estadstico que

las no paramtricas, y por ende deben ser usadas mientras
sea posible [GreenhalghT 1997 BMJ 315:364]
106
Espina
Analisis de 1 factor, 2 factores, N-factores
El diseo experimental puede ser de 1 factor, de 2

factores,, de N-factores
Puede entenderse (con cautela) como responder a una
pregunta de investigacin, a dos preguntas de investigacin, o
en general a n preguntas de investigacin a la vez
Mientras ms factores ms difcil es el anlisis y menor es el
poder estadstico de la prueba
Anlisis de un factor mide la significancia

sobre...acertaste! ...un slo factor
Analisis de dos factores mide la significancia sobre
dos factores a la vez Aunque ya lo mencionamos
al principio de la unidad al
Etc definir las variables
independientes, an no
hemos definido formalmente
107
Espina
que es un factor.
ANLISIS ROC

108
Espina
Anlisis ROC
A partir de la tabla de contingencia* de los
errores podemos definir 4 desenlaces
bsicos:
TP: Verdaderos positivos
TN: Verdaderos negativos
FP: Falsos positivos Decisin
\
H 0 H0 falsa /
verdader Ha
FN: Falsos negativos Realida a / H a verdadera
d falsa
Aceptar
H0;
Rechazar TN FN
Ha
*Observa la similitud con la tabla
de confusin de un clasificador Rechazar
EspinaH0;
109
FP TP
Anlisis ROC
Decisin H0 H0 falsa /
\ verdader Ha
Realida a / Ha verdadera
d falsa
Aceptar
TotalH0; Total
Negativ
Rechazar TN
Positivo FN
Ha
os s
Rechazar
EspinaH0;
110
FP TP
Anlisis ROC
Decidir que tan bueno o malo (el rendimiento)
de nuestro estimador o prueba a la vista de la
tabla de contingencia es difcil
en el sentido que hay 4 valores que tener en
cuenta a la vez
para aliviar esta situacin, se han

desarrollado algunos conceptos que de
alguna forma resumen relaciones entre estos
4 desenlaces bsicos.

111
Espina
Anlisis ROC
Algunas derivaciones de la tabla de
contingencia:
Sensitividad o Recuerdo (Recall)* o Ratio de
Verdaderos Positivos (TPR):
Observa que la Total

sensitividad es el Positivos
poder estadstico
o errores Tipo II 1-
! *El trmino Recuerdo o Recall est
[KrzywinskiM2013 prcticamente restringido al rea de
] aprendizaje mquina
112
Espina
Anlisis ROC
contingencia:
Especificidad o Ratio de Verdaderos
Negativos (TNR):
Observa que la Total

especificidad est Negativos
relacionado con la
significancia estadstico
o errores Tipo I 1-!
[KrzywinskiM2013]
113
Espina
Analisis ROC y Tipos de Error
Relacin entre sensitividad y especificidad
y los tipos de error I y II

114
Espina
Anlisis ROC
contingencia:
Ratio de Falsos Positivos (FPR):
Total
Negativos

115
Espina
Anlisis ROC
contingencia:
Observa que:

116
Espina
Anlisis ROC
contingencia:
Exactitud (Accuracy):
Total
Total Negativo
Positivos s

117
Espina
Anlisis ROC
contingencia:
Valor Predictivo Positivo (PPV) o
Precisin:

118
Espina
contingencia:
Valor predictivo negativo:
NPV = TN/(TN+FN)
Ratio de falsos descubrimientos:
RFD=FP/(FP+TP)
F-Measure:
F=2*(Precisin*Recuerdo)/(Precisin+Recuerdo)

119
Espina
Anlisis ROC
Anlisis ROC (del ingls

receiver operating
characteristic)
El anlisis ROC o curva ROC
es una grfica de dispersin
que resume la relacin de los
errores de alguna prueba
estadstica o un estimador
La grfica de dispersin
presenta la relacin entre el
ratio de falsos positivos
(FPR=1-Especificidad) y el
ratio de verdaderos positivos
(TPR=Sensitividad).
Figura
(c) 2012-6 Dr. Felipe Orihuela de: [csb.stanford.edu]
120
Espina
Anlisis ROC
Intuitivamente; un
punto en el espacio
ROC es mejor que
otro si est situado
hacia el noroeste del
segundo (es decir,
tiene un mayor TPR,
y un menor FPR, o
ambos) [Fawcett
T2006]

121
gura de: [FawcettT2006] Espina
Anlisis ROC
La curva ROC de una

estadstica (estimador, test,
etc,)
es la representacin de 1-
(|)
se construye variando el
umbral de discriminacin
(nivel de significancia).
a veces se
resume/describe mediante el
valor del rea bajo la curva

122
de: [http://en.wikipedia.org/wiki/File:Receiver_Operating_Characteristic.png]
Espina
Anlisis ROC

123
de: [http://en.wikipedia.org/wiki/File:Receiver_Operating_Characteristic.png]
Espina
Anlisis ROC

124
gura de: [www-psych.stanford.edu] Espina
Anlisis ROC
Ejemplo:

125
gura de: [gim.unmc.edu] Espina
Anlisis ROC
La curva ROC le da igual importancia a ambos tipos
de error (Tipo I y Tipo II) y muestra cmo varan
conjuntamente segn cambia el criterio para una
diferencia dada entre las medias de las dos hiptesis.
Lecturas MUY recomendadas:

CE Metz (1978) Basic principles of ROC analysis
Seminars in nuclear medicine, 8(4):283-298
Fawcett, T (2006) An introduction to ROC analysis
Pattern Recognition Letters 27:861874

126
Espina
LAS PRUEBAS ESTADSTICAS
BSICAS
127
Espina
Qu prueba debo aplicar?
Recuerda:
(informal)
2. Tomar datos
128
Espina
De una estadstica al p-valor
Sea la distribucin de una estadstica cualquiera.
El p-valor para un determinada valor es

bsicamente:
Por tanto para calcular p basta con tomar la

integral bajo la curva en .

129
Espina
El t-test
Hiptesis Diferencia entre las medias de las muestras
Requisitos Variables numricas
Existen versiones para una y dos variables
Existen versiones para datos pareados y no pareados
Suposiciones Distribucin normal (o para ser exactos la t de
/ Supuestos Student con df grados de libertad)
Media y desviacin estndar independientes
Varianzas iguales
Tamao de las muestras alto (>30)
Resultado Valor t
La prueba estadstica t para una muestra compara

entre una distribucin muestreada y una asumida,
mientras que la prueba de dos muestras compara
las muestras de dos variables.
130
Espina
El valor t
Sea el valor estimado del parmetro en
algn modelo estadstico. El valor t o
estadstica t es cualquier cantidad de la
forma:
Donde es la media muestral y SE el error

estndar muestral
131
Espina
Del valor t al p-valor
El p-valor para un determinado valor t es
bsicamente:
Por tanto para calcular p basta con tomar

la integral bajo la curva en t.

132
Espina
El p-valor es el rea bajo la curva mayor
que el valor t.
Por tanto, calcular el p-valor exacto requiere
resolver una integral
Animacin de: [http://www.statsoft.com/textbook/distribution-tables/]

133
Espina
El valor t
Figura de: [http://en.wikipedia.org/wiki/Standard_score]

134
Espina
Alternativamente y aceptando un margen

de error, se pueden consultar tablas
precalculadas

135
Espina
2
1
Selecciona la
direccionalidad
1 acorde a tu
hiptesis
alternativa
Busca la columna
2 acorde al nivel de
significancia
escogido
Selecciona la fila 4
acorde a los
3
grados de libertad
Encuentra tu valor
4 t en la
interseccin de 3
fila y columna

136
Espina
O bien, aqu tienes un par de calculadoras
del p-valor
Calculadora:
http://www.danielsoper.com/statcalc3/calc.as
px?id=8
Enlace vigente al 27-Nov-2016
Calculadora:
http://www.graphpad.com/quickcalcs/pvalue1.
cfm

137
Espina
La prueba de Mann-Whitney U
o Wilcoxon Rank-sum
Hiptesis Desplazamiento en la localizacin. Evala si una o dos
muestras de observaciones independientes tiende a
producir valores ms grandes/pequeos que la otra
Requisitos Ordinales o Continuos
Suposiciones Muestreo aleatorio
/ Supuestos Independencia intra-muestral
Independencia mutua entre las muestras
La escala de medida debe ser al menos ordinal
Las distribuciones de las variables deben coincidir
excepto por sus medianas
Tamao de la muestra grande (al menos 42
observaciones para la aproximacin z)
Datos no pareados
Resultados Valor z
Cuando los datos son ordinales, la prueba de Mann-Whitney U es quizs la prueba

no paramtrica ms conocida.
Para datos pareados se debe utilizar la prueba de los rangos con signo de Wilcoxon.
138
Espina
Del valor z al p-valor
Ya sabemos:
El valor z representa el valor estandarizado
de una observacin; es decir cuantas
desviaciones estndar se encuentra la
observacin a la derecha (z>0) o izquierda
(z<0) de su media (poblacional).

139
Espina
El p-valor para un determinado valor z es
bsicamente:
Por tanto para calcular p basta con tomar

la integral bajo la curva en z.

140
Espina
La distribucin normal estandarizada (media 0 y
desviacin estndar 1) se usa en varias pruebas de
hiptesis.
El valor p sobre la funcin de distribucin acumulada

normal es el equivalente al valor z sobre la funcin
de densidad de probabilidad normal

141
Espina
El p-valor es el rea bajo la curva, mayor que el
valor z.
Por tanto, calcular el p-valor exacto requiere resolver una
integral
Alternativamente y aceptando un margen de error, se

pueden consultar tablas precalculadas
O bien, aqu tienes un par de calculadoras del p-valor

Calculadora: http://faculty.vassar.edu/lowry/ch6apx.html
Calculadora: http://www.graphpad.com/quickcalcs/pvalue1.cfm

142
Espina
La prueba F
Hiptesis Diferencia en el valor de la varianza

Suposiciones Distribucin normal
/ Supuestos Varianzas homogneas (Homoscedascity)
Resultados Valor F
La prueba F est diseada para comparar si las

varianzas de dos poblaciones son iguales. Para
ello, se calcula el ratio de estas varianzas; que si
son iguales debe ser cercano a 1.

143
Espina
Del valor F al p-valor
El p-valor es el rea bajo la curva mayor
que el valor F.
Por tanto, calcular el p-valor exacto requiere
resolver una integral

144
Espina
Del valor F al p-valor
Alternativamente y aceptando un margen de
error, se pueden consultar tablas
precalculadas.
Aqu tienes un par de calculadoras del p-valor

Calculadora :
http://www.danielsoper.com/statcalc3/calc.aspx?id
=7
Enlace vigente a 27-Nov-2016
Calculadora:
http://www.graphpad.com/quickcalcs/pvalue1.cfm
145
Espina
Prueba 2 sobre tabla de contingencia
Hiptesis Diferencias entre la distribucin de frecuencias

determinada por la tabla de contingencia comparada
con una tabla de contingencia esperada
Requisitos Categricas
Suposiciones Distribucin 2
/ Supuestos Tamao de la muestra grande (>30)
Otros (Ms de 5 observaciones por celda de la tabla
de contingencia, sin celdas con valor 0, correccin de
Yates)
Resultados Valor 2
Los efectos en una tabla de contingencia se definen cmo relaciones entre la variable
representada en las filas y la variable representada en las columnas: lase, son los niveles
de la variable en las filas distribuidas de forma diferencial sobre los valores de la variable
representada en las columnas.
Un resultado significativo en esta prueba de hiptesis indica que la interpretacin de las
frecuencias de las celdas de las tablas est garantizada. Por el contrario, un resultado no
significativo indica que la distribucin de frecuencias de la tabla de contingencia puede ser
debido al azar [http://www.psychstat.missouristate.edu/introbook/sbk28m.htm]
146
Espina
Del valor 2 al p-valor
Efectivamente.resolviendo al integral

147
Espina
Del valor 2 al p-valor
Alternativamente y aceptando un margen
de error, se pueden consultar tablas
precalculadas.
o bien, aqu tienes una calculadora del p-

valor
Calculadora:
http://www.graphpad.com/quickcalcs/pvalue1.
cfm
148
Espina
Anlisis de varianza (ANOVA) univariable
Hiptesis Diferencia en el valor de la varianza para ms de 2

grupos
Suposiciones Distribucin normal
/ Supuestos Varianzas homogneas (Homocedasticidad)
Resultados Valor F
ANOVA es como una prueba F para mltiples grupos, y de hecho, como

devuelve un valor F te sirve la misma forma de pasar del valor F al p-valor que
para la prueba F.
ANOVA no es uno, sino un familia de varios modelos.
Sobre la necesidad de homocedasticidad:
http://
blog.minitab.com/blog/statistics-and-quality-data-analysis/dont-be-a-victim-of-statistical-
hippopotomonstrosesquipedaliophobia
est escrito con cierta gracia, sin perder rigor
149
Espina
Otras pruebas estadsticas populares y tiles
Prueba de normalidad de Shapiro-Wilk: Prueba si la muestra proviene de una
distribucin normal
Prueba de Anderson-Darling: Detecta la desviacin de una muestra de una
determinada distribucin (incluyendo la distribucin normal para la cual, esta prueba
se considera una de las ms potentes)
Prueba de Kolmogorov-Smirnov: Prueba no paramtrica de que las muestras
provienen de la misma distribucin (o comparacin contra una referencia). Puede
tambin ser usada como prueba de bondad de ajuste en una regresin.
Prueba de Kruskall-Wallis: Similar a ANOVA pero para datos no paramtricos
Prueba T de Welch: Compara diferencias entre las medias de dos variables
independientes
Prueba exacta de Fisher: Similar a 2 para tablas de contingencia de tamao 2x2
Prueba de McNemar: Similar a 2 para tablas de contingencia de tamao 2x2 con
observaciones dependientes (paredas)
Prueba de Friedman: Versin no paramtrica de ANOVA
Variantes de ANOVA: (1/2) factores ANOVA (entre/intra)-sujetos, ANCOVA (Anlisis
de Covarianza), MANOVA (versn multivariable de ANOVA), MANCOVA,

150
Espina
Recuerda:
(informal)
2. Tomar datos
151
Espina
La seleccin de la prueba estadstica apropiada
depende de varios aspectos de los datos y del
diseo experimental:
Tamao de la muestra (pequeo <30; grande >30)
Independencia de las observaciones (pareadas o no)
Nmero de grupos (variables) que van a ser
comparados
Tipos de las variables (categricas, ordinales,
discretas, etc)
Distribucin/es asumida/s
Tipo de hiptesis alternativa (una cola, dos colas).
(c) 2012-6 Dr. Felipe Orihuela [GurevychI2011]

152
Espina
Fuente: [http://dc281.4shared.com/doc/HRgHf_KM/preview001.png]
153
Espina

154
Fuente: [http://dc281.4shared.com/doc/HRgHf_KM/preview001.png]
Espina
Parametric

155
Fuente: [www.sigmazone.com] Espina
Non-Parametric

156
Fuente: [www.sigmazone.com] Espina
Variable independiente Variable dependiente
Estadstica
Prueba
Nmero Tipo Nmero Tipo observada
1 poblacin N/A 1 Continuas t-test de una Media

normal muestra
2 2 categoras 1 Normal t-test de dos Media
poblaciones muestras
independient
1 Non-normal Mann Mediana
es
Whitney,
Wilcoxon
rank sum
test
1 Categrica 2 test, Proporcin
prueba
exacta de
Fisher
3 o ms categricas
Puedes encontrar 1
tablas ms completas Normal
en: ANOVA de un Medias
poblaciones factor
http://www.ats.ucla.edu/stat/mult_pkg/whatstat/choosestat.html
http://bama.ua.edu/~jleeper/627/choosestat.html

http://www.bmj.com/content/315/7104/364/T1.expansion.html

157
Espina
INTERVALOS DE CONFIANZA

158
Espina
Overemphasis on hypothesis testing and the use
of P values to dichotomise significant or non-
significant results has detracted from more useful
approaches to interpreting study results, such as
estimation and confidence intervals. []
Confidence intervals, if appropriate to the type of
study, should be used for major findings in both
the main text of a paper and its abstract. []
practice has led to the mistaken belief that studies
should aim at obtaining "statistical significance.
[Gardner MJ y Altman D (1986) BMJ, 292:746-750]

159
Espina
Gardner MJ y Altman DG (1986) Confidence intervals
rather than P values: estimation rather than hypothesis
testing BMJ 292:746-750
No tiene desperdicio
duPrel, JB et al (2009) Confidence Interval or P-Value?

Deutsches rzteblatt International; 106(19): 3359
Loftus GR y Masson ME (1994) Using confidence

intervals in within subjects designs Psychonomic
Bulletin &Review 1(4):476-490
160
Espina
Otros recursos:
Altman et al Eds. (2000) Statistics with
Confidence: Confidence intervals and
statistical guidelines, 2nd Edition,
Wiley
Efectivamente!, un libro completo slo
sobre intervalos de confianza
Desafortunadamente no tengo acceso al
libroas que no lo he leido
http://www.wiley.com/WileyCDA/WileyTitle/
productCd-0727913751,descCd-
tableOfContents.html
161
Espina
Rango de valores que probablemente incluye
al parmetro real de la poblacin deseado
(media, mediana, etc) [DuPrelJB2009]
Indican un rango plausible para el valor real

relacionado a la medida del punto estimado a
partir de la muestra.
[http://www.stats.gla.ac.uk/steps/glossary/confiden
ce_intervals.html]

162
Espina
Ventajas intuitivas:
Un intervalo de confianza representa alejarse de establecer un valor
nico para un estimador, para ofrecer a cambio un rango de valores
plausible para la poblacin. [GardnerMJ1986]
En un experimento real, no obtenemos la media poblacional sino

slo su estimado. Por tanto, tener alguna forma de determinar que fe
le tenemos al estimado es conveniente [LoftusGR1994]
efectivamente, el error estndar va en esta direccin; no en vano:
The standard error of the sample statistic, [...] is a recognition that a sample is
most unlikely to determine the population value exactly. In fact, if a further
sample is taken in identical circumstances almost certainly it will produce a
different estimate of the same population value. The sample statistic is
therefore imprecise, and the standard error is a measure of this imprecision. By
itself the standard error has limited meaning, but it can be used to produce a
confidence interval, which does have a useful interpretation. [GardnerMJ1986]

163
Espina
El nivel de confianza es el valor de probabilidad 1-
asociado a un intervalo de confianza.
Un nivel de confianza del k% significa que el intervalo de
confianza cubrira al valor real en k de cada 100 estudios
que se llevasen a cabo
Un intervalo de confianza calculado al k% se interpeta
como que tenemos una seguridad al k% de que el valor
real del parmetro est contenido en el intervalo
Un nivel de confianza frecuentemente usado es el

95%
pero obviamente podemos utilizar otros; 99%, 99.99%
164
Espina
Lmites de confianza:
Los lmites de confianza son los valores
superior e inferior que delimitan al rango del
intervalo de confianza
Los valores fuera de los intervalos de

confianza no son imposibles; no se excluyen,
simplemente son improbables.

165
Espina
La forma exacta de calcular los lmites de
confianza vara dependiendo:
del parmetro estimado (obviamente),
del diseo experimental (within-/between- subjects), y
de si se hace sobre una muestra o sobre diferencias
entre otras cosas
no obstante, hay un principio comn: sumar y

restar al estimador algn mltiplo del error
estndar
No veremos todas las posibilidades, slo algunas
166
Espina
Intervalo de confianza para la media para una
sla muestra con muestras grandes:
Doble
cola
La distribucin Z es la distribucin normal estndar y

SE el error estndar.
167
Espina
Intervalo de confianza para la media para una sla
muestra con muestras pequeas (si se asume
normalidad):
Doble
cola
Se utiliza la distribucin t con n-1 grados de libertad

asociado a una confianza 100(1-)%
No es un error; es el nivel de significancia
completo
(c) 2012-6(independientemente
Dr. Felipe Orihuela de la doble
168
Espina cola)
Intervalo de confianza para la diferencia entre
medias para dos muestras no pareadas (si se
asume normalidad):
Desviaci
Error
n
estndar donde: estndar
de la
de la
diferencia
diferencia

169
Espina
Puedes encontrar algunos otros casos de cmo calcular los intervalos de confianza en:
Gardner MJ y Altman DG (1986) Confidence intervals rather than P values: estimation rather than
hypothesis testing BMJ 292:746-750
Loftus GR y Masson ME (1994) Using confidence intervals in within subjects designs Psychonomic
Bulletin &Review 1(4):476-490
Newcombe RG (1998) Two-sided confidence intervals for the single proportion: comparison of seven
methods Statistics in Medicine 17:857-872
Morris JA y Gardner MJ (1988) Calculating confidence intervals for relative risks (odds ratios) and
standardised ratios and rates BMJ 296:1313-1316
Kragten, J (1994) Calculating Standard Deviations and Confidence Intervals with a Universally
Applicable Spreadsheet Technique Analyst 119:2161-2165
Brookmeyer R y Crowley J A confidence interval for the median survival time Biometrics 38:29-41
Mehta CR et al (1985) Computing an exact confidence interval for the common odds ratio in several
22 contingency tables Journal of the American Statistical Association 80(392):969-973

170
Espina
Los intervalos de confianza permiten hacer afirmaciones
sobre:
la direccin de un posible efecto,
el tamao del efecto,
y la presencia de un resultado estadsticamente significativo
(significancia)
ms estrechos, representan una mayor confianza en los
resultados
ms amplios, indican que se debieran tomar ms muestras
antes de hacer alguna afirmacin sobre el parmetro.

171
Espina
Dependen fuertemente del tamao de la
muestra y el nivel de confianza requerido de
los grupos de estudio
Tamaos de muestras ms grandes conllevan
intervalos de confianza ms estrechos
Desviaciones estndar ms grandes implican

mayor incertidumbre, y en consecuencia
mayores intervalos de confianza

172
Espina
Los intervalos de confianza pueden
complementar, e incluso sustituir, a los
mecanismos tradicionales de prueba de
hiptesis [LoftusGR1994]

173
Espina
Intervalos de confianza y p-valores
En contraste con los p-valores, los intervalos de
confianza indican la direccin del efecto estudiado.
[DuPrelJB2009]
Pequeas diferencias sin inters pueden ser
estadisticamente significativas dado un tamao de muestra
lo suficientemente grande, mientras que efectos
clnicamente importantes pueden no alcanzar la
significancia estadstica simplemente por un tamao de
muestra pequeo. [GardnerMJ1986]
En contraste con los intervalos de confianza, los p-

valores indican la diferencia con respecto a un umbral
estadstico previamente definido .
174
Espina
Ejercicio: Dos farmacuticas comercializan sus marcas de Ibuprofeno. Queremos saber
si alguna de las marcas tiene una concentracin ms alta de Ibuprofeno en sus tabletas
con un nivel de significancia del 5%, y si esta es significativa cul tiene la concentracin
ms alta.
Datos:
Indolorex IbuGenrico
n=36 n=35
Media muestral x1=358 mg Media muestral x2=345 mg
Desviacin estndar muestral Desviacin estndar muestral
s1= 10 mg s2= 14 mg
Nota 1: La solucin original en la fuente (mathtrench) es correcta pero confusa; utiliza intervalos
de confianza basados en z, pero usa el valor t para la regla de decisin. Aqu lo resolveremos
utilizando slo la distribucin t, lo que lleva a pequeas diferencias numricas.
Nota 2: En este ejercicio se requiere el uso de tablas precalculadas (
http://easycalculation.com/statistics/t-distribution-critical-value-table.php) o de una calculadora de la
distribucin t en lnea (http://stattrek.com/online-calculator/t-distribution.aspx - Ojo! es 1-tail).
Problema modificado de:

[http://www.mathtrench.com/Contents/Statistics/Confidence+Interva
Espina
175
Solucin:
La solucin requiere de 2 etapas de varios pasos cada
una;
A. Decidimos si la diferencia es significativa

1) Buscamos el valor crtico para la regla de decisin
2) Calculamos el valor t de la diferencia
3) Para saber si rechazamos o no la hiptesis nula, simplemente
comparamos nuestro valor t con el valor crtico para ver si cae dentro
del intervalo de confianza (regla de decisin)
B. Indicar cul marca tiene ms concentracin de Ibuprofeno.

4) Calculamos los intervalos de confianza al 95%
5) Finalmente, observamos los intervalos de confianza para saber cual
de las medias es mayor

176
Espina
Solucin:
Bsicamente nos estn pidiendo un prueba de hiptesis de si
hay una diferencia entre las medias:
H0: 1=2
Ha: 12
Asumiendo distribuciones normales (ambos n>30 y

ninguna indicacin contraria), podemos utilizar un
simple t test de dos colas
Observa que en la solucin original el usa directamente la
distribucin z.
Si el nivel de significancia =5% entonces buscamos

el intervalo de confianza al 95%
177
Espina
Solucin:
1) Buscamos el valor
crtico
para la regla de
decisin de dos colas:
Extraemos el valor
de t asociado para
un nivel de confianza
al 95% y
considerando 2 colas
(con n1+n2-2=69
grados de libertad):
t=1.9950
Valor t obtenido de la tabla (demasiado grande; no cabe en esta
diapositiva):
http://
easycalculation.com/statistics/t-distribution-critical-value-table.php
Enlace vigente a 27-Nov-2016 178
Espina
Solucin:
Recuerda:
Sea la diferencia:
Donde:
y por nuestra hiptesis nula (H0: 1=2) no esperamos que

haya diferencia; por tanto:
Finalmente; SE = SEdiff
179
Espina
Solucin:
Necesitamos calcular SEdiff

180
Espina
Solucin:
Calculamos SEdiff

181
Espina
Solucin:
Poniendo todo junto:

182
Espina
Solucin:
3) Para saber si rechazamos o no la hiptesis
nula, simplemente comparamos nuestro valor
t con el valor crtico para ver si cae dentro del
intervalo de confianza (regla de decisin)

183
Espina
Solucin:
4) An falta indicar cul marca tiene ms concentracin de
Ibuprofeno. Para ello, calculamos los intervalos de confianza al
95%.
Ya tenemos precalculado SEdiff del paso 2:

184
Espina
Solucin:
4) Calculamos los intervalos de confianza al
95%:
Ya tenemos precalculado del paso 1:
Ya tenemos precalculado SEdiff del paso 2:
SEdiff=2.8813
Por tanto, podemos resolver

185
Espina
Solucin:
5) Finalmente, para saber cual de las medias
es mayor observamos los intervalos de
confianza:
Como en este caso los lmites del intervalo de
confianza ambos son positivos eso significa que
1>2.
En otras palabras; Indolorex tiene una
concentracin de Ibuprofeno mayor que
Ibugenrico bajo un nivel de significancia
del 5%.

186
Espina
ANOTADORES

187
Espina
Anotadores
Gwet, KL (2008) Computing inter-rater reliability and its variance in the presence of
high agreement British Journal of Mathematical and Statistical Psychology 61:29-48
Bland JM y Altman DG (1986) Statistical methods for assessing agreement between
two methods of clinical measurement Lancet 327(8476):307-310
Banerjee M (1999) Beyond Kappa: A review of interrater agreement measures The
Canadian Journal of Statistics 27(1):3-23
Bartko JJ (1966) The intraclass correlation coefficient as a measure of reliability
Psychological Reports 19:3-11
Lpez de Ullibarri Galparsoro I, Pita Fernndez, S. (1999) Medidas de concordancia:
el ndice de Kappa Cad Atencin Primaria 6:169-171
Rousson, V et al (2002) Assessing intrarater, interrater and testretest reliability of
continuous measurements Statist. Med. 21:34313446
Kottner J (2011) Guidelines for Reporting Reliability and Agreement Studies (GRRAS)
were proposed Journal of Clinical Epidemiology 64:96-106
Stemler, Steven E. (2004). A comparison of consensus, consistency, and
measurement approaches to estimating interrater reliability. Practical Assessment,
Research & Evaluation, 9(4)
http://pareonline.net/getvn.asp?v=9&n=4

188
Espina
Anotadores
Hasta ahora:
Cada variable aleatoria en cada observacin
tena un valor nico
Haba una nica medicin
En otras palabras, era observada por un slo

anotador u observador (sensor, experto,
mtrica, etc)
Este anotador u observador nico se supone

infalible, sin error
189
Espina
Anotadores
En condiciones reales, los observadores u
anotadores no son infalibles
La diferencias pueden surgir por diferentes razones:

Variaciones en el procedimiento experimental
Variaciones en la interpretacin
Variaciones en la presentacin
Si no se conoce la verdad absoluta (ground truth), y

los anotadores no son infalibles, en estas
circunstancias es conveniente tener mltiples
anotadores.
190
Espina
Anotadores
Anotador
A.k.a. observador, examinador, explorador
En ingls: annotator, rater, scorer, judges,
observer, tagger, coder
Cualquier sensor, experto, tcnica de

medicin, mtrica, etc que obtiene una
medicin de una variable aleatoria [definicin
propia].

191
Espina
Anotadores
Hay discrepancias entre anotadores
Diferentes observadores califican o evalan de forma distinta el
mismo objeto
Cmo conciliar las anotaciones si estas difieren?
Concordancia (reliability o agreement): Consistencia entre las
decisiones
Hay incongruencias intra-anotador

El mismo observador presentado dos veces con el mismo objeto
no siempre evala de la misma forma
Cmo puedo saber que tanto fiarme de una anotador?
Fiabilidad ((test-retest) Reliability y Repeatibility): Variacin entre
medidas repetidas sobre un mismo objeto en condiciones
similares

192
Espina
Anotadores
Sesgo entre observadores
Se habla de sesgo entre observadores
cuando un un observador da de forma
consistente valores mayores(menores) que
otro [Lpez de Ullibarri 1999]

193
Espina
Anotadores
Concordancia entre anotadores
Grado de acuerdo entre observadores
La concordancia puede implicar el acuerdo:

Con una escala oficial
Con otros anotadores

194
Espina
Anotadores
Concordancia
El plot de Bland y Altman presenta
el promedio de las (dos)
evaluaciones en el eje de abscisa
contra la diferencia entre (dos)
anotadores en cada observacin,
la diferencia media y los lmites de
acuerdo sobre el eje de ordenadas.
Permite observar no slo la

concordancia en general sino el
grado de acuerdo en relacin al
valor real supuesto (la media de
las evaluaciones)
Ejemplo: Dos anotadores pueden
tener una alta concordancia en valores
Fuente: [Bland
pequeosyy Altman, 1986,
tener desacuerdo en Lancet]
valores grandes
Figura de: [http://en.wikipedia.org/wiki/File:Bland-Altman-Plot.gif]
195
Espina
Anotadores
Fiabilidad intra-observador
Grado de concordancia demostrado al
repetirse una medicin en condiciones
idnticas a cargo del mismo observador.
Grado en que pueden reproducirse los

resultados obtenidos por un procedimiento de
medicin.
finicin de: [http://htaglossary.net/fiabilidad+intra-observador+%28n.f.%29]

196
Espina
Anotadores
Fiabilidad
La fiabilidad no implica validez

197
Figura de: [http://en.wikipedia.org/wiki/Reliability_%28statistics%29]
Espina
Anotadores
Sin entrar en detalles, estadsticas para evaluar la concordancia y fiabilidad
intra- y entre-anotadores:
Probabilidad conjunta de acuerdo
La ms simple; Nmero de veces que cada valor se asigna por cada anotador dividido por el nmero
total de evaluaciones
Slo para datos categricos
No considera el acuerdo por azar
Kappa de Cohen
MUY popular
Slo sirve para 2 anotadores y variables categricas
Kappa de Fleiss
Extensin de la Kappa de Cohen a n anotadores
Correlacin inter-anotador
Coeficiente de correlacin de concordancia
Correlacin intraclase
Alpha de Krippendorff
Muy general
Permite n anotadores, variables de cualquier tipo (categricas, ordinales, discretas, de intervalos, de
ratio)
Robusta a pequeas muestras, diseos desbalanceados,

198
Espina
GRACIAS, PREGUNTAS?

199
Espina

Estadistica Inferencial PruebaDeHipotesis

Transféré par

Informations du document

Titre original

Copyright

Formats disponibles

Partager ce document

Partager ou intégrer le document

Options de partage

Avez-vous trouvé ce document utile ?

Ce contenu est-il inapproprié ?

Droits d'auteur :

Formats disponibles

Estadistica Inferencial PruebaDeHipotesis

Transféré par

Droits d'auteur :

Formats disponibles

Estadsitica inferencial;

Matemticas para la Computacin

Lord Sir Ernest Rutherford of

(c) 2012-6 Dr. Felipe Orihuela

(c) 2012-6 Dr. Felipe Orihuela

DeGroot, M- H. y Schervish, M.-J. Probability and

Martin Bland An introduction to Medical Statistics

(c) 2012-6 Dr. Felipe Orihuela

Gardner MJ y Altman DG (1986) Confidence intervals rather than P values:

duPrel, JB et al (2009) Confidence Interval or P-Value? Deutsches rzteblatt

Loftus GR y Masson ME (1994) Using confidence intervals in within subjects

(c) 2012-6 Dr. Felipe Orihuela

Bland JM y Altman DG (1986) Statistical methods for

Banerjee M (1999) Beyond Kappa: A review of interrater

(c) 2012-6 Dr. Felipe Orihuela

[Nicholls in KatzR2001] In general, however, null

(c) 2012-6 Dr. Felipe Orihuela

[DuPrelJB2009] Unfortunately, statistical significance is often

(c) 2012-6 Dr. Felipe Orihuela

Considerado el padre de la estadstica

Trabajo principalmente en Cambridge y UCL,

Cmo buen genio trabajo en otros campos:

The scientific method

In philosophy, any object, fact, or occurrence perceived or observed. In

Un fenmeno es cualquier ocurrencia o evento observable

(c) 2012-6 Dr. Felipe Orihuela

Una hiptesis es una suposicin de algo posible o imposible

Una hiptesis es una proposicin consistente con las

Ambos tipos de hiptesis estn relacionadas.

(c) 2012-6 Dr. Felipe Orihuela

Es la conjetura que motiva la investigacin

Falsabilidad (refutabilidad) es la propiedad que tendr una

(c) 2012-6 Dr. Felipe Orihuela

(c) 2012-6 Dr. Felipe Orihuela

b) Bien formulada. Indica la variable independiente (exposicin a

c) Mal formulada. Contiene ambigedades; son un buen pesticida

Ejemplo de: [http://www.sciencebuddies.org/blog/2010/02/a-strong-

La hiptesis estadstica se formula como

(c) 2012-6 Dr. Felipe Orihuela

Un hiptesis estadstica es simple si su formulacin

Un hiptesis estadstica es compuesta si su

A su vez, puede ser de un lado (mayor/menor) o de dos

(c) 2012-6 Dr. Felipe Orihuela

El test estadstico se utiliza para aceptar o rechazar

La prueba de hiptesis es el uso de la estadstica para

(c) 2012-6 Dr. Felipe Orihuela

decidir si un parmetro cualquiera yace en un subconjunto del

...tomar una decisin con base en las muestras sobre si rechazar

La prueba de hiptesis siempre es sobre parmetros de

(c) 2012-6 Dr. Felipe Orihuela

Un test estadstico es una funcin definida

(c) 2012-6 Dr. Felipe Orihuela

Hiptesis nula (H0): No hay diferencias o relacin

Hiptesis alternativa (Ha o H1): Existe una

En principio; tanto la hiptesis nula como la

(c) 2012-6 Dr. Felipe Orihuela

Figure de: [genderedinnovations.stanford.edu]

(c) 2012-6 Dr. Felipe Orihuela

Proceso de prueba de hiptesis

Proceso de prueba de hiptesis

(c) 2012-6 Dr. Felipe Orihuela

Azar Hiptesis nula

Hiptesis de investigacin: Si los estudiantes