Vous êtes sur la page 1sur 155

¿ Cómo Decidir cual Prueba Estadística

Utilizar al Analizar Datos?

" OH, OH, ACABO DE DESCUBRIR QUE EL 79% DE MIS RATAS TIENEN CÁNCER...
¡Y AÚN NO LES HE INYECTADO NADA!
Un poco de filosofía
• “Como investigador y enseñando biología a menudo nos
confrontamos con colegas y estudiantes que “buscan un
buen análisis para sus datos”, en la mayoría de los casos,
hay muy poca cosa que hacer, más que enfatizar a) un
planeamiento profundo, b) diseño experimental cuidadoso,
y c) un entendimiento del procedimiento estadístico a priori
a la colecta de datos.
• Nosotros preferimos “análisis buscando buenos datos”. No
podemos exagera la necesidad de una apropiada
planificación y diseño.”
– BioΣtat I. A Univariate Statistical Toolbox. Version 2.0 Tutorial
Manual.
• Richard Pimentel, Ph.D. Department of Biological Science. California
Polytechnic State University. San Luis Obispo.
• James D. Smith, Ph.D. Department of Biological Science. California
Polytechnic State University. Fullerton
VARIABLE
• Una variable es lo que está siendo observado o
medido.
• es una característica o propiedad de una persona, un
objeto o una situación,
• que comprende un conjunto de valores diferentes o
categorías.
• La altura es una variable, al igual que el peso, tipo de
sangre y género.
• Las variables cuantitativas, como la altura, el peso o la
edad, están poseídos de grado y así se puede medir.
• Las variables cualitativas, como el sexo, el grupo
sanguíneo o nacionalidad, sólo poseen clases: no
pueden ser expresadas en unidades.
TIPOS DE VARIABLES
• Variables Independientes y Dependientes
– VD: es el objeto de interés, que varía en respuesta
a alguna intervención.
– VI: es la intervención o lo que está siendo
aplicado.
• Variables Discretas y Continuas
– VD toman valores numéricos enteros.
– VC tomar cualquier valor de un intervalo
determinado
NATURALEZA DE LOS DATOS
• Datos nominales
• Una variable como el género sólo puede tomar dos valores: mujer y
varón.
• Ninguno de los dos es “más alto” o “mejor” que el otro, los podemos
enumerar colocando varón en primer lugar o primero la mujer sin
que se pierde ninguna información. Esta variable recibe el nombre de
nominal.
• La variable nominal consiste en categorías a las que se asigna un
nombre sin que exista ningún orden implícito entre ellas.
• Se codifica los datos nominales con números. Mujer 1 y Varón 0.
• Los números son nombres alternativos, no tienen valor cuantitativo.
• Podemos cambiar el código haciendo Mujer = 0 y Varón = 1, y las
conclusiones a las que vamos llegar serán idénticas.
• Datos ordinales
• Las calificaciones de un estudiante como sobresaliente /notable/aprobado no
aprobado tienen cuatro categorías.
• Existe un orden entre estos valores.
• No podemos suponer que la diferencia entre “sobresaliente” o “notable” y
“aprobado” sea la misma entre “aprobado” y “no aprobado”.
• Esto se ve mejor en las calificaciones numéricas; existe una pequeña diferencia
entre un 4 y un 5; pero la diferencia es abismal entre un 2 y un 3.
• Es igual que los resultados de caballo; sabemos que el caballo que ganó fue más
veloz que el que quedó segundo, y todavía más que el tercero. Pero puede haber
existido una diferencia de un segundo entre los dos primeros, mientras que
respecto al tercero puede haber sido de 10 segundos.
• Así, las calificaciones y el orden de finalización de una carrera de caballos se
denominan variables ordinales.
• Una variable ordinal consiste en categorías ordenadas, de manera que las
diferencias entre categorías pueden no ser iguales.
• Las variables que podemos encontrar en medicina preventiva son ordinales por
naturaleza.
• Los pacientes se clasifican a menudo como muy a) mejorado, b) un poco mejorado,
c) estacionario, d) empeorado y e) muerto; o de a) emergencia, b) urgente y c)
optativo.
• Algunas veces se utilizan números, como en los niveles I a IV del cáncer. ¿La
diferencia entre en el grado de la enfermedad entre el nivel I y el nivel II de cáncer
es la misma que la que hay entre los niveles II y III o entre los III y IV? Si la
respuesta es no, la escala es ordinal.
• Datos interválicos
• El punto cero no tiene especial significación y podemos cambiarlo.
• Para ilustrarlo, comparemos la inteligencia, medida mediante algún test
CI, con algo como por ejemplo, el peso donde el cero es significativo.
• Todos sabemos el significado de un peso cero. No podemos decidir de
repente que restaremos 10 kilos de cualquier cosa que pesemos y decir
que algo que previamente pesaba 11 kilos ahora pesa 1 kilo.
• Una escala de inteligencia tiene una entidad diferente. Decimos que la
media del CI es 100, pero esto es solamente un convenio.
• En el próximo congreso mundial de expertos en CI pueden decidir que a
partir de ahora, consideraremos que la media es 500 sin más que añadir
400 a todos los datos.
• No hemos ganado nada, pero por el mismo motivo, tampoco hemos
perdido nada; el único cambio necesario es que ahora tendremos que
ajustar de nuevo los parámetros que habíamos aprendido de acuerdo con
la nueva media.
• Veamos ahora las implicaciones que ello conlleva. Como los intervalos son
iguales, la diferencia entre un CI de 70 y uno de 80 es la misma entre 120 y
130. Sin embargo, un CI de 100 no es dos veces más elevado que uno de
50.
• La cuestión es que si el cero es artificial y móvil, las diferencias entre
números son significativas, pero las razones entre ellas, no.
• Datos proporcionales
• Si el punto cero es significativo, las razones entre números
lo son también, y nos hemos tropezado con una variable
proporcional.
• Una variable proporcional tiene intervalos iguales entre
valores y un punto cero significativo.
• La mayoría de los tests de laboratorio son variables
proporcionales, al igual que las categorías físicas tales como
la altura y el peso.
• Una persona que pesa 100 kilos es dos veces más pesada
que una que pesa 50 kilos; incluso si convertimos los kilos
en libras, la proporción es la misma: de 220 libras a 110. En
el fondo, para un estudio estadístico, ambos pueden
tratarse de la misma manera.
• Observemos que cada peldaño en la jerarquía ascendente
que va de los datos nominales a los proporcionales toma la
hipótesis del peldaño anterior para añadir una nueva
restricción
NATURALEZA DE LOS DATOS
TIPO DE DATOS CARACTERÍSTICAS
Nominales Categorías con nombre

Como las nominales más


Ordinales
categorías ordenadas

Como las ordinales más


Interválicas intervalos iguales
Como las interválicas más
Proporcionales cero significativo
Hipótesis
La hipótesis establece que existe una
relación causal entre dos variables.
Ejemplo. La ingestión de cierto fármaco
mejora el rendimiento de cierta habilidad.
Donde:
La VI es la presencia/ausencia de la droga.
La VD es el rendimiento de cierta habilidad.
UN EXPERIMENTO
• Un experimento es la recopilación de datos
comparativos en condiciones controladas.
• En un experimento verdadero, la VI es manipulada por
el investigador.
• Por ejemplo, la eficacia de la droga podría ser probado
mediante la comparación de una muestra de personas
que han tomado el medicamento con la de un grupo
que no han tomado, el grupo control.
• Para mejorar la comparación de los dos grupos
mediante la presentación de los controles con un
placebo, es decir, un medio neutro idealmente idéntica
a aquella en la que el fármaco es presentado al grupo
experimental.
MUESTREO
• Necesitamos decidir objetivamente si aceptamos
o rechazamos una hipótesis, con base en la
información de la muestra.
• Mientras más pequeña sea la diferencia entre las
media del parámetro y del estadístico, mayor
será la probabilidad de que nuestro valor
hipotético sea correcto.
• Mientras mayor sea la diferencia, más pequeña
será la probabilidad.
• Una estadística es una característica de una
muestra y un parámetro es una característica de
una población.
NOMENCLATURA
Término Nombre Letra
Letra griega
estadístico griego romana
Media Mu µ 
Desviación
estándar
Sigma σ S

Diferencia Delta δ d
Error Tipo I Alfa α a
Error Tipo II Beta β b
Proporción Pi π p
Muestra y Población

Muestra Población
NOMBRES
Estadístico Parámetro
Media  µ
Varianza S2 σ2
Desviación
S σ
estándar
Muestreo aleatorio simple
• Cada elemento de la muestra tiene igual
probabilidad de ser seleccionada y que cada
elemento de la población total tenga una
oportunidad igual de ser incluido en la muestra.
• Ejemplo. Tenemos una población de cuatro
estudiantes en un seminario y queremos cuatro
(4) muestras de dos estudiantes cada vez para
entrevistarlos.
Cómo hacer un muestreo aleatorio. Tabla de
Dígitos Aleatorios
1581922396 2068577984 8262130892 8374856049 4637567488
0928105582 7295088579 9586111652 7055508767 6472382934
4112077556 3440672486 1882412963 0684012006 0933147914
7457477468 5435810788 9670852913 1291265730 4890031305
0099520858 3090908872 2039593181 5973470495 9776135501
7245174840 2275698645 8416549348 4676463101 2229367983
6749420382 4832630032 5670984959 5432114610 2966095680
5503161011 7413686599 1198757695 0414294470 0140121598
7164238934 7666127259 5263097712 5133648980 4011966963
3593969525 0272759769 0385998136 9999089966 7544056852
4192054466 0700014629 5169439659 8408705169 1074373131
9697426117 6488888550 4031652526 8123543276 0927534537
2007950579 9564268448 3457416988 1531027886 7016633739
Como funciona
1581922396 2068577984
Nombres Número
Julián 1
0928105582 7295088579
Verónica 2 4112077556 3440672486
Eliana 3 7457477468 5435810788
Pedro 4
0099520858 3090908872
M1 M2 7245174840 2275698645
Julián Pedro 6749420382 4832630032
Eliana Pedro 5503161011 7413686599
Verónica Julián
7164238934 7666127259
Pedro Verónica
3593969525 0272759769
4192054466 0700014629
9697426117 6488888550
2007950579 9564268448
Población Finita
• Una población finita de cuatro estudiantes.
• La población tiene un número entero (N) que
indica cuántos elementos hay en la población.
Julián Verónica
Julián Eliana
Julián Pedro
Verónica Eliana
Verónica Pedro
Eliana Pedro
Población Infinita
• El término población infinita es cuando una
población no puede enumerarse en un periodo
razonable de tiempo.
• El concepto teórico de población infinita es como
una aproximación de una población finita
enorme.
• El concepto teórico de variable aleatoria continua
como una aproximación de una variable aleatoria
discreta que pudiera asumir muchos valores
estrechamente cercanos.
• Los principios del muestreo
aleatorio simple son la base
de la inferencia estadística.
• Proceso de obtener
información de una
población a partir su
muestra.
Diseño de experimentos
• Un evento es uno o más de los
resultados posibles de hacer algo.
• Un experimento es la actividad que
tendría como resultado tales
eventos.
• En el experimento del lanzamiento
de una moneda, los eventos posibles
serían caras o cruces.
Planeación de experimentos
• Si hemos de conducir experimentos
que produzcan resultados
significativos en forma de
conclusiones aprovechables, es de
suma importancia la forma en que se
diseñen estos experimentos.
• El muestreo es sólo una parte del
diseño total de un experimento.
Diseño experimental-Ejemplo
• Se afirma que la batería de la empresa SuperPower
pondrá en marcha mejor el motor de su automóvil que
una batería X. SuperPower y diseña su experimento de la
siguiente manera:
• Objetivo: SuperPower desea probar su batería frente a
su competidor. Aunque es posible diseñar un
experimento que pruebe las dos baterías con respecto a
varias características (tiempo de vida, tamaño, poder de
arranque, peso y costo, para nombrar sólo unas cuantas),
SuperPower ha decidido limitar este experimento a su
poder de arranque.
• Lo que se medirá: se conoce también como la variable
de respuesta. Si SuperPower ha de diseñar un
experimento que compare el poder de arranque de su
batería con el de otra, debe definir cómo se medirá el
poder de arranque.
• Existen varias formas de hacer esto. Por ejemplo,
SuperPower podría medir
– 1) el tiempo que tardaron las baterías en agotarse
mientras ponían en marcha un motor,
– 2) el número total de arranques de motor que agotaron las
baterías o
– 3) el número de meses en uso que se podría esperar
duraran las dos baterías.
• SuperPower decide que la variable de respuesta en
este experimento será 1) el tiempo que tardan las
baterías en agotarse mientras encienden motores.
• Qué tamaño de muestra: SuperPower elige un
tamaño de muestra lo suficientemente grande
para respaldar sus afirmaciones respecto a su
batería sin temor a ser desmentido; sin embargo,
sabe que mientras más baterías pruebe, el costo
del experimento será más alto.
• Hay una utilidad decreciente en el muestreo: el
muestreo de más elementos disminuye el error
estándar, puede ser que el beneficio no valga el
costo.
• Al no desear elegir un tamaño de muestra
demasiado caro, SuperPower decide que será
suficiente comparar 10 baterías de cada una de
las dos compañías.
• Conducción del experimento: SuperPower debe tener
cuidado de efectuar su experimento bajo condiciones
controladas; debe asegurarse de estar midiendo el
poder de arranque, y de que las otras variables (como
la temperatura, la edad del motor y la condición de los
cables de la batería, por nombrar unas cuantas) se
mantengan tan constantes como sea factible.
• Al intentar lograr precisamente esto, el grupo
estadístico de SuperPower utiliza automóviles nuevos
de la misma marca y modelo, lleva a cabo las pruebas a
la misma temperatura externa y tiene cuidado en ser
bastante preciso al medir la variable de tiempo.
• De esta manera, SuperPower reúne los datos
experimentales sobre el rendimiento de 20 baterías.
• Análisis de los datos: Los datos obtenidos sobre
las pruebas de las 20 baterías individuales están
sujetos a la prueba de hipótesis, “Prueba de
hipótesis: pruebas de dos muestras”.
• A la compañía SuperPower le interesa saber si
existe una diferencia significativa entre el poder
de arranque de su batería y el de su competidor.
• Resulta ser que la diferencia que existe entre la
vida media de arranque de la batería de
SuperPower y la de su competidor sí es
significativa.
• SuperPower incorpora el resultado de este
experimento en su publicidad.
Reacción a las afirmaciones experimentales
• ¿Cómo debemos nosotros, como consumidores, reaccionar a las
nuevas afirmaciones sobre la vida de la batería en su reciente
publicidad?
• ¿Debemos concluir, por las pruebas que ha efectuado la compañía,
que la batería de SuperPower es superior a la batería de la
competencia?
• ¿Cómo sabemos que las marcas y condiciones de los motores de los
automóviles del experimento fueron idénticas?
• ¿Y estamos absolutamente seguros de que los cables de la batería
eran idénticos en tamaño y resistencia a la corriente?
• ¿Y qué hay con respecto a las temperaturas ambientales existentes
durante las pruebas?, ¿fueron iguales?
• ¿Cómo debemos reaccionar frente a la afirmación, si se hace, de
que “sometimos los resultados experimentales a extensas pruebas
estadísticas”?
• ¿Cómo podremos determinar si una diferencia tal en el tiempo de
vida de las baterías es demasiado grande para ser atribuida al azar.
• En este punto, nosotros, como consumidores, debemos ser lo
suficientemente escépticos.
Otras opciones abiertas
• Claro está que la compañía SuperPower habría tenido las
mismas preocupaciones que nosotros, y con toda
probabilidad no habría hecho afirmaciones publicitarias
importantes solamente sobre la base del diseño
experimental que acabamos de describir.
• Un posible curso de acción para evitar la crítica sería
asegurar que todas las variables, excepto la que se esté
midiendo, hayan sido realmente controladas.
• A pesar del cuidado que se tuvo para producir tales
condiciones controladas, resulta que estos experimentos
sobrecontrolados realmente no solucionan el problema.
• Normalmente, en vez de invertir recursos en intentos de
eliminar variaciones experimentales, se elige una ruta
completamente diferente.
• Lo siguiente muestra cómo es posible lograr lo anterior.
Experimentos factoriales
• En el caso de la compañía SuperPower,
teníamos dos baterías (refirámonos a ellas
como A y B) y tres condiciones de prueba que
nos interesaban:
– 1) temperatura,
– 2) edad del motor y
– 3) condición del cable de la batería.
• Introducimos el concepto de experimentos
factoriales.
Auto Temperatura Motor Cable
Marca A Caliente H Nuevo N Bueno G
Marca B Fría C Viejo O Desgastado W
• En la mayor parte de los experimentos podríamos encontrar
 más de dos condiciones de temperatura,
 más de dos categorías de condiciones del motor del
automóvil y
 más del cable de la batería.
• Pero es mejor introducir la idea de experimentos factoriales
usando un ejemplo simplificado en cierta medida.
• Entonces, como hay dos baterías, dos posibilidades de
temperatura, dos posibilidades de condiciones de motor y dos
posibilidades del cable de la batería, hay 2 X 2 X 2 X 2 = 16
combinaciones posibles de factores.
• Si quisiéramos escribir estas 16 posibilidades, se verían como la
Tabla siguiente:
RATAMIENTO FACTOR 1 FACTOR 2 FACTOR 3 FACTOR 4 SÍMBOLO
TEMPERATURA
1 BATERIA A
CALIENTE
MOTOR NUEVO CABLE BUENO A C N B
TEMPERATURA CABLE
2 BATERIA A
CALIENTE
MOTOR NUEVO
DESGASTADO A C N D
TEMPERATURA
3 BATERIA A
CALIENTE
MOTOR VIEJO CABLE BUENO A C V B
TEMPERATURA CABLE
4 BATERIA A
CALIENTE
MOTOR VIEJO
DESGASTADO A C V D
TEMPERATURA
5 BATERIA A
FRÍA
MOTOR NUEVO CABLE BUENO A F N B
TEMPERATURA CABLE
6 BATERIA A
FRÍA
MOTOR NUEVO
DESGASTADO A F N D
TEMPERATURA
7 BATERIA A
FRÍA
MOTOR VIEJO CABLE BUENO A F V B
TEMPERATURA CABLE
8 BATERIA A
FRÍA
MOTOR VIEJO
DESGASTADO B F V D
TEMPERATURA
9 BATERIA B
CALIENTE
MOTOR NUEVO CABLE BUENO B C N B
TEMPERATURA CABLE
10 BATERIA B
CALIENTE
MOTOR NUEVO
DESGASTADO B C N D
TEMPERATURA
11 BATERIA B
CALIENTE
MOTOR VIEJO CABLE BUENO B C V B
TEMPERATURA CABLE
12 BATERIA B
CALIENTE
MOTOR VIEJO
DESGASTADO B C V D
TEMPERATURA
13 BATERIA B
FRÍA
MOTOR NUEVO CABLE BUENO B F N B
TEMPERATURA CABLE
14 BATERIA B
FRÍA
MOTOR NUEVO
DESGASTADO B F N D
TEMPERATURA
15 BATERIA B
FRÍA
MOTOR VIEJO CABLE BUENO B F V B
TEMPERATURA CABLE
16 BATERIA B
FRÍA
MOTOR VIEJO
DESGASTADO B F V D
• Una vez establecidas todas las combinaciones posibles de factores
involucrados en este experimento, sería posible llevar a cabo las 16
pruebas de la tabla.
• Si hiciéramos esto, habríamos efectuado un experimento factorial
completo, porque cada uno de los dos niveles de cada uno de los
cuatro factores se habrían utilizado una vez con cada combinación
posible de otros niveles de otros factores.
• Esta forma de diseño permite usar técnicas para probar el efecto de
cada uno de los factores. En experimento real, difícilmente
llevaríamos a cabo las pruebas en el orden en el que aparecen en la
tabla.
• Se acomodaron así para facilitar el conteo de las combinaciones y
determinar que todas combinaciones posibles realmente estuvieran
representadas.
• En la práctica, dejaríamos al azar el orden de las pruebas, tal vez
poniendo en un sombrero 16 números y determinando el orden del
experimento según fueran saliendo.
Mayor eficiencia en el diseño experimental
• Nuestro experimento de cuatro factores
requieren 16 pruebas para comparar todos los
niveles con todos los factores.
• Si tuviéramos que comparar las mismas dos
baterías, pero esta vez con cinco niveles de
temperatura, cuatro mediciones de condiciones
de motor y tres mediciones de condiciones del
cable de la batería, serían necesarias 2 X 5 X 4 X
3 = 120 pruebas para un experimento factorial
completo.
Cuadrado latino
• Los especialistas en estadística han reducido el
número de pruebas.
• Una compañía de productos de consumo que
desea probar en el mercado un nuevo dentífrico
en cuatro ciudades, con cuatro tipos de
empaques y con cuatro pautas de publicidad.
• En un caso así, un experimento factorial completo
tomaría 4 X 4 X 4 = 64 pruebas. Sin embargo, si
hacemos una planeación inteligente, podemos
llevarlo a cabo con 16 pruebas.
A = Ciudad 1 I = Empaque 1 1 = Pauta publicitaria 1
B = Ciudad 2 II = Empaque 2 2 = Pauta publicitaria 2
C = Ciudad 3 III = Empaque 3 3 = Pauta publicitaria 3
D = Ciudad 4 IV = Empaque 4 4 = Pauta publicitaria 4
El análisis
Pautas publicitarias
estadístico de los
1 2 3 4 datos del diseño
I C B D A experimental de un
cuadrado latino
Empaques

Ciudades
II B C A D
requiere una forma
III D A B C de análisis de
IV A D C B varianza.
Error Estándar: σ, s, o ETM
Una ciudad tiene 100,000 habitantes y su
distribución de contenido de medias de sodio en
la sangre de la población de personas de 25
años es la siguiente;


Tomamos varias muestras de 10
persona de 25 años de esa ciudad de
100,000 habitantes.
Hacemos el histograma de cada
muestra y calculamos la media y la
desviación estándar de las misma.

𝑥1Sx, 𝑠1 𝑥2 , x𝑠2 𝑥3 ,Sx𝑠3 𝑥xS𝑛 , 𝑠𝑛


S
Elaboraríamos una distribución de todas las medias de cada una
de las muestras que se pudieran tomar. La figura siguiente ilustra
esta distribución conocida como distribución de muestreo de
las medias.
Esta distribución de las medias de las muestras (la distribución
de muestreo) tendrá su propia media (µ y su propia desviación
estándar o error estándar (σ).

 

X

σ
σX 
n
En resumen

𝑥1 ,x 𝑠1 𝑥2 , 𝑠x 2 𝑥3 , x𝑠3 𝑥𝑛x , 𝑠𝑛

 

X
−1𝜎𝑥 +1𝜎𝑥

σ
68.26% σX 
n
 
X
Asociando las fórmulas tendremos
Valor tipo de un valor único 𝑋𝑗 − 𝑋
𝑍=
de una muestra 𝑆

Valor tipo de la media de una de la x μ x μ


muestra de un conjunto de muestras z z
σX σ
n

La fórmula diseñada para encontrar el


error estándar de la media cuando la
población es finita y el muestreo se hace
sin reemplazo, es:
Comparar la media de la muestra 
con la media µ de la población
n1  1, x 1

μ n 2  2, x 2 
 x
2
1  x2

n 3  3, x 3 
 x1  x 2  x 3
3

n 4  4, x 4 
 x 1  x2  x3  x4
4
n  , x   
A medida que aumentamos el tamaño de la muestra, la
media de la muestra se aproxima a la media de la
población. ¿Cuánto se aproxima?
σ
σX 
n
σ σ
σX  σX 
n n
¿Cuál es el significado del ETM?
• El ETM muestra la proximidad de los valores
medios obtenidos a partir de muestras sucesivas
respecto del verdadero valor de la media de la
población.

• Sumando y restando 1ETM a la media obtenida


con una sola muestra, nos da un intervalo de
68% de probabilidad que la media de la
población a la que pertenece la muestra. Si es
2ETM da un 95% y si es 3ETM 99%.
Error estándar de la desviación de las medias de las muestras: σ
Población Muestra
Datos (Xi) Valores 25 muestras de tamaño n = 2 Tamaño n 25  (-µ)2
2 Tamaño (n) 5 2 3 6 8 11 Suma Σj 150 2,0 16,0
3 Suma (Σx i) 30 2 2,0 2,5 4,0 5,0 6,5 2,5 12,3
Media µ= Σj/n 6 4,0 4,0
Media µ = (Σx i/n) 3 2,5 3,0 4,5 5,5 7,0
6 6 Varianza σ2=(-µ)2/n 5,40 5,0 1,0
2 2 6 4,0 4,5 6,0 7,0 8,5
8 Varianza P σ =(xi-) /n 10,8 5,0 5,5 7,0 8,0 9,5
6,5 0,3
8 Desviación
11 Desviación estand P √σ 2,39 σ 2,32 2,5 12,3
11 6,5 7,0 8,5 9,5 11,0 estándar
3,0 9,0
4,5 2,3
La distribución de las medias Esto ilustra que en una Para muestreo se sin reposición, la 5,5 0,3
población finita en la que se media de la muestra es igual a la 7,0 1,0
muestrales es igual a la media 4,0 4,0
poblacional muestrea con reposición (o media poblacional y la varianza es 4,5 2,3
en una población infinita) 6,0 0,0

𝜎2
7,0 1,0
𝜎 𝜎2 𝑁𝑃 − 𝑁
 
8,5 6,3
 𝜎𝑥2 = = 𝜎𝑥2 = × 5,0 1,0
X 𝑛 𝑛 𝑁 𝑁𝑃 − 1 5,5 0,3
7,0 1,0
6= 6 8,0
9,5
4,0
12,3
6,5 0,3
Si el valor de n es grande (n ≥ 30), la distribución muestral de las medias es 7,0 1,0
aproximadamente normal con media µ y desviación estándar σ, 8,5 6,3
9,5 12,3
independientemente de la población (siempre y cuando la media y la varianza
11,0 25,0
poblacionales sean finitas y el tamaño de la población sea por lo menos el doble Suma
del tamaño de la muestra). Si la población es infinita, este resultado es un caso 150,0 135,0
especial del teorema del límite central de la teoría avanzada de la probabilidad, el
cual muestra que la exactitud de la aproximación aumenta a medida que N
aumenta. Esto suele indicarse diciendo que la distribución muestral es
asintóticamente normal. Si la población está distribuida normalmente, la
distribución muestral de las medias también es normal aun cuando el valor de N
sea pequeño (es decir, N < 30).
Relación entre σ, , µ y n
Uno de los indicadores de la calidad del aire es el número medio de
microgramos de partículas en suspensión por metro cúbico de aire.
Es decir, el interés se centra en μ, la media de la variable aleatoria X,
número de microgramos de partículas en suspensión por metro
cúbico de aire.
xj xj- z=(xj-)/s
58 -3 -0,57
57 -4 -0,76
59 -2 -0,38
70 9 1,72
61 0 0
 = 61
s =5,24
CÁLCULOS BÁSICOS

xj xj-
58 -3
57 𝑠2 𝑒𝑠 𝑢𝑛𝑎 𝑒𝑠𝑡𝑖𝑚𝑎𝑐𝑖ó𝑛 𝑛𝑜 𝑠𝑒𝑠𝑔𝑎𝑑𝑎 𝑑𝑒 𝜎 2
-4
59 -2
70 9
61 0
= 61
s2 = 27,46
s = 5,24
x μ
z
σ
s n σ diferencia α
n 5,24 5 2,34 4,59 1,96
10 1,66 3,25
𝛿
1.96 = 15 1,35 2,65
𝜎𝑥
20 1,17 2,30
25 1,05 2,05
30 0,96 1,88
𝛿 = 1.96 × 𝜎𝑥 35 0,89 1,74
40 0,83 1,62
= 1.96 × 2.34 = 4.59
45 0,78 1,53
50 0,74 1,45
5,00
4,50
4,00
3,50
3,00
2,50
etm
2,00
diferencia
1,50
1,00
0,50
0,00
5 10 15 20 25 30 35 40 45 50
TAMAÑO DE LA MUESTRA
Algunas veces la media se
desviará por el hecho de
Esto implica que en una
que las colas de la curva
muestra aleatoria, la
están cada vez más cerca
media de los datos
del eje X significa que
tendrá un valor muy
cuantos mayores sean las
próximo al de la media
diferencias entres los
de la población.
valores medios de la
muestra y la
población, menor será la
frecuencia con la que se
presenten.
• Hay una probabilidad finita de que las grandes
diferencias aparezcan de forma inesperada.
• El problema existe cuando realizamos un estudio
y encontramos una diferencia.
• ¿A qué conclusión debemos llegar?
• La causa puede ser:
– Los dos grupos son diferentes
– Son solo debido al azar
• Ahora como determinamos si es lo uno o lo otro.
• La respuesta aparece con el concepto de
Significatividad al 5%.
SIGNIFICATIVIDAD
• Es la probabilidad de que haya una
diferencia cualquiera de cualquier
magnitud.
• Si la muestra es pequeña, se pueden
producir enormes diferencias no
significativas.
• Si la muestra es
grande, incluso, diferencias muy
pequeñas pueden ser significativas.
Concepto de significatividad al 5%
• Si hay una diferencia entre las medias, dado los valores
de la σ y n, y ocurre más de 5 veces de cada 100, la
probabilidad se debe al azar (las medias no son
diferentes).

• Si la probabilidad es menor que el 5%, diremos que la


las medias son distintas.

• El 5% viene de sir Ronnie Fisher que dijo: si la


probabilidad de que ocurre un determinado suceso
fuera suficientemente pequeña, por ejemplo, 1
posibilidad entre 20, entonces se podría considerar el
resultado como significativo.
DE DONDE VIENE ESTE 5%?
Imagínate que haces una apuesta.
Lanzas una moneda al aire.
Si sale cara, te pagan $100.
Si sale cruz, tú pagas $100.
Tú sigues lanzando y sigues ganando.
Cuantos lanzamientos aguantarán tus amigos que estás haciendo trampa?
1
= 0.5 = 50%
2
1 1 1 1 0,48125
0,5

× = 2 = = 0.25 = 25% 0,43125

2 2 2 4 0,38125
0,33125

Probabilidad
1 1 1 1 1 0,28125 0,25 5%
× × = 3 = = 0.125 = 12.5% 0,23125

2 2 2 2 8 0,18125
0,13125
0,125

1 1 1 1 1 1 0,08125
0,0625

× × × = 4= = 0.0625 = 6.25% 0,03125 0,03125


2 2 2 2 2 16 1 2 3 4 5

Lanzamientos
1
= 0.05 = 5%
20
1 1 1 1 1 1 1
× × × × = 5= = 0.03125 = 3.125%
2 2 2 2 2 2 32
Niveles de significancia
• Cuando se prueba determinada hipótesis, a la probabilidad máxima con la que se está
dispuesto a cometer un Error Tipo I se le llama Nivel de Significancia de la prueba.
• Esta probabilidad acostumbra denotarse α y se especifica antes de tomar cualquier
muestra para evitar que los resultados obtenidos influyan sobre la elección del valor de
esta probabilidad.
• En la práctica, se acostumbran los niveles de significancia 0.05 o 0.01, aunque también se
usan otros valores.
• Si, por ejemplo, al diseñar la regla de decisión se elige el nivel de significancia 0.05
(5%), entonces existen 5 posibilidades en 100 de que se rechace una hipótesis que debía
ser aceptada; es decir, se tiene una confianza de aproximadamente 95% de que se ha
tomado la decisión correcta.
• En tal caso se dice que la hipótesis ha sido rechazada al nivel de significancia 0.05, lo que
significa que la hipótesis tiene una probabilidad de 0.05 de ser errónea.

Nivel de significación Z 0,10 0,05 0,01 0,005 0,002


-1,28 -1,645 -2,33 -2,58 -2,88
Valores críticos de Z para test unilaterales
1,28 1,645 2,33 2,58 2,88
-1,645 -1,96 -2,58 -2,81 -3,08
Valores críticos de Z para test bilaterales
1,645 1,96 2,58 2,81 3,08
Test de Z - 95% - BILATERAL
2,5%
95% / 2 = 47,5%
2,5%
95%
100%
0,4750

Zona de Rechazo 2,5% Zona de Aceptación de Zona de Rechazo de la


la H0 95% H0 2,5%
0,025
0,025

Z= -1,96 Z= 1,96
Test de Z - 95% - UNILATERAL
95%
5% 50%
45%
100%

0,4500

Zona de Aceptación de Zona de Rechazo de la


la H0 95% H0 5%
0,05

Z= 1,645
• Como ejercicio se deja al
lector obtener los valores
del 99% bilateral y
unilateral.
PRUEBA DE HIPÓTESIS DE UNA
SOLA MUESTRA
• Prueba de Hipótesis de una muestra
• La hiponatremia (bajo contenido de sodio en
la sangre) es el deseo compulsivo de frotarse
con sal cualquier herida. El laboratorio clínico
de un hospital establece que la media normal
(µ) del suero sódico es de 140 mmol/L y una
desviación estándar (σ)de 2.5 mmol/L.
• Se elige un total de 25 (n) personas de la
administración del hospital y se realiza el
análisis de sodio de la sangre de los mismos.
La media resultante () es 138 mmol/L. ¿Es
este valor una evidencia de que los
administrativos analizados son
hiponatrémicos?
DATOS
 POBLACIÓN
 μ = 140
 σ = 2.5
 MUESTRA
 n = 25
  = 138
 s = 2.5
Error tipo de la media σ
• Tiene una media de 138 en una muestra
de 25 personas.
• ETM será
σ 2.5
σX    0.5
n 25
DATOS
POBLACIÓN
 μ = 140
 σ = 2.5
MUESTRA
 n = 25
  = 138
 s = 2,5
σ 2.5
 σX    0.5
n 25
x  μ x  μ 138  140  2
z     4,0
d = 140-138 = 2 σX  2,5 0,5
25 25
El área entre ambas
medias se debe calcular El área entre 0 y -4 es
para saber el valor del
área azul a la izquierda 0,4999
de 138.

0.0001 < 0.05, el


Teniendo el
ETM, podemos
resultado
determinar el valor Z de es
138: SIGNIFICATIVO, se
rechaza la H0.
0,0001

 μ
138 140
Z= -4 Z= 0
x  μ x  μ 138  140  2
z     4,0
σX  2,5 0,5
25 25

Debido a – 4 < – 1.96


el resultado
es SIGNIFICATIVO, se
rechaza la H0.
95%

-4 -1,96 +1,96 Z
0
Diagrama de flujo del procedimiento de cuatro pasos
Paso 1
Establezca la H0 a ser probada por ejemplo, H0:
µ = 140, H1: µ ≠ 140, H1: µ < 140 o H1: µ > 140
Paso 2
Especifique el nivel de significancia, α = 5%.
Paso 3
Calcule la razón z=(-μ)/(σ⁄√n) Use la Tabla de
la Curva Normal Estándar para encontrar la
probabilidad p de Z.
Paso 4
Establezca la conclusión: retenga H0 si p>α;
rechace H0 si p<α.
Para nuestro ejemplo tenemos
 Paso 1: H0: no existe diferencia entre los administrativos
del hospital y las personas normales: X  μ
H1: existe diferencia entre los administrativos del
hospital y las personas normales: X  μ
 Paso 2: α  5%
x  μ 138  140  2
z    4
 Paso 3: σ 2.5 0.5
n 25
 Paso 4: La probabilidad de observar valores menores que
138 es 0.0001 (< 2,5%). Se recha la Ho a favor de H1.

 Conclusión: los administrativos son hiponatrémicos


Test de Z –Usando Valores Críticos
x  μ 138  140  2
z    4
σ 2.5 0.5
n 25

El valor -4 cae en la zona de


rechazo.

Zona de Rechazo Zona de Aceptación Zona de Rechazo

-4
Z= -1,96 Z= 1,96
Error β es la prob. de aceptar la H0 cuando la H1 es cierta
139.02 − 138.0
𝑍= = 2.04
0.5
𝛽 = 0.5 − 0.4793 = 0.0207
𝑃𝑜𝑡𝑒𝑛𝑐𝑖𝑎 = 1 − 𝛽 % = 97.93%

𝑆𝑖 𝑃𝑜𝑡. ≥ 60%
𝑑𝑒𝑠𝑖𝑐𝑖ó𝑛 𝑐𝑜𝑟𝑟𝑒𝑐𝑡𝑎
𝜇

α/2
0 -1,96 0 +1,96 Z
X
Error β es la prob. de aceptar la H0 cuando la H1 es cierta

𝑃𝑜𝑡𝑒𝑛𝑐𝑖𝑎 = 1 − 𝛽 % = 97.93%

𝑆𝑖 𝑃𝑜𝑡. ≥ 60%
𝑑𝑒𝑠𝑖𝑐𝑖ó𝑛 𝑐𝑜𝑟𝑟𝑒𝑐𝑡𝑎
𝜇
139.02 − 138.0
𝑍= = 2.04
0.5
𝛽 = 0.5 − 0.4793 = 0.0207
𝑃𝑜𝑡𝑒𝑛𝑐𝑖𝑎 = 1 − 𝛽 % = 97.93
β

0 2,04 Z
X
Test de hipótesis como herramienta de prueba:
siempre hay errores

Estado real

Decisión tomada H0 cierta H1 cierta

Aceptar la H0 Decisión correcta Error Tipo II

Rechazar la H0 Error Tipo I Decisión correcta


Errores en un contraste de hipótesis
α Error tipo I: Rechazar la hipótesis nula cuando es cierta.
β Error tipo II: Aceptar la hipótesis nula cuando es falsa.

VERDAD DESCONOCIDA
DECISIÓN TOMADA H0 cierta H1 cierta

ACIERTO ERROR TIPO II


ACEPTAR H0
p=1–α p=β
ACIERTO
RECHAZAR H0 ERROR TIPO I p = α
p=1-β
Fórmula para el tamaño de una muestra .
Plantear una situación.
Suponemos que la media de la H0 es 100 y que un
nuevo proceso obtiene una media a un valor 105, Ha
Supongamos que el experimento alcanzo la
significancia estadística.
Un error tipo de 15/√n.
El valor crítico (VC) de H0 es 1.96 ET a la
der., Zα, error α.
 Zα Error β el área de la curva Ha a la izquierda de
este punto.
Arriesgamos el error β igual a 0.10, valor crítico será
1.28 ET.. En fórmulas obtenemos cuanto sigue:
𝑉𝐶 − 100 105 − 𝑉𝐶
= 𝑍𝛼 = 1.96 = 𝑍𝛽 = 1.28
𝑆 𝑛 𝑆 𝑛

105 − 100 ∆𝑋
= 𝑍𝛼 + 𝑍𝛽 = 3.24 = 𝑍𝛼 + 𝑍𝛽
𝑆 𝑛 𝑆 𝑛

2
𝑍𝛼 + 𝑍𝛽 × 𝑆
𝑛=
𝑍𝛼 + 𝑍𝛽 × 𝑆 ∆𝑋
𝑛= = 𝑆 2
∆𝑋 𝑛 = 𝑍𝛼 + 𝑍𝛽
∆𝑋
La Tabla B da el tamaño de la muestra necesaria para mostrar diferencias entre las medias igual a σ/δ
=S/Δ, que en este caso particular es 15/5 igual a 3. Mirando la Tabla B, encontramos la razón 3, y
observando las columnas para el error α 5% y error β 10% encontramos que el tamaño de la muestra es
96, que es muy cercano a 95.

𝑠 2
𝑛= 𝑧𝛼 + 𝑧𝛽
𝑥
2
15
𝑛= 1.96 + 1.28
5

𝑛 = 94.5 ≈ 95
Efecto Tamaño
Podemos hacer esto para cada par de valores
posibles S y ∆. Pero lo que haremos es calcular n
para diferentes razones de S/∆, esta razón se
llama Efecto Tamaño EFT. Este efecto es como el
valor Z y nos da la magnitud de la diferencia en
unidades estándar. Si la diferencia que se ha
obtenido es de 5 puntos y la S es de 15, el efecto
tamaño es 5/15 = 0.33.
Poblaciones diferentes
• μ1 ≠ μ2

μ2 μ1
Poblaciones iguales

μ1 = μ2

μ2 μ1
Error alfa y error beta

μ1 μ0

α β
DISEÑO EXPERIMENTAL
 Es una técnica estadística que permite identificar y
cuantificar las causas de un efecto dentro de un
estudio experimental.
 Se manipulan deliberadamente una o más
variables, vinculadas a las causas, para medir el
efecto que tienen en otra variable de interés.
 Prescribe una serie de pautas relativas:
a qué variables hay que manipular,
de qué manera,
cuántas veces hay que repetir el experimento y
en qué orden para poder establecer con un grado de confianza
predefinido la necesidad de
una presunta relación de causa-efecto.
EL DISEÑO EXPERIMENTAL DETERMINA

• Las variables que tienen mayor influencia en la


variable de respuesta.
• El mejor valor de las variables controlables que
influyen en la respuesta, de manera que ésta, tenga
casi siempre un valor cercano al valor nominal
deseado.
• La mejor combinación de las variables controlables
que ayuden a reducir la variabilidad de la
respuesta.
• La combinación optima de las variables
controlables, con el objetivo de minimizar los
efectos de las variables incontrolables.
Utilidad
• Mejora el rendimiento de un proceso de
manufacturación.
• Reduce de variabilidad y aumento del apego a
especificaciones.
• Minimización de costos.
• Desarrolla nuevos productos y mejora otros
existentes.
• Evalúa y compara configuración de diseños básicos.
• Valora materiales alternativos.
• Selecciona parámetros de diseño del producto para
un buen funcionamiento.
El Principio del Control
• La ventaja de la experimentación es que
hay una variable independiente.
• El experimentador está en una posición
para hacer inferencias causales de los
datos, siempre que haya un control
adecuado de los efectos potenciales de
factores de confusión, o variables
extrañas.
Factor
• Factor es un conjunto de condiciones.
• Se compone de niveles.
• Algunos factores son variables independientes:
– el experimentador los manipula para determinar sus
efectos sobre las variables dependientes
seleccionadas.
• Factores como el género y la edad son sujetos
variables, se incluyen en el diseño experimental
para fines de control.
• Los sujetos variables son tratados como variables
independientes.
Factores
• Se deciden en la fase de planificación de la
investigación: no emergen de los datos
resultantes de la investigación.
• Factores y niveles son equivalentes en el contexto
del diseño experimental. Un factor es un tipo
especial de variable, creado por el
experimentador.
• En diseño experimental, un factor es una
verdadera variable independiente o una variable
de agrupación, como el género, que podemos
'manipular' estadísticamente, en lugar de
experimentalmente, mediante el muestreo de
tantos hombres y tantas mujeres.
ELECCIÓN DE LA PRUEBA ESTADÍSTICA
 La elección del test estadístico depende de
 La pregunta de investigación;
 La naturaleza de los datos; y
 El diseño experimental de la
investigación.
 Por otra parte, una decisión acerca de
uno a menudo tiene implicaciones para
los demás.
Las preguntas de investigación
• ¿Es la diferencia entre las medias
significativa? Por ejemplo, ¿es la frecuencia
cardíaca en reposo la misma antes y después
de un curso de salud?
• ¿Cómo se asocian las variables? Por
ejemplo, ¿los padres altos tienden a tener
hijos altos?
• ¿Puede los valores de una variable predecirse
a partir de datos de otras variables? Por
ejemplo, puede ser predicha el rendimiento
universitario por las puntuaciones en las
pruebas de aptitud?
Las preguntas de investigación
• A partir de una sola muestra de dato, ¿qué se puede
decir acerca de la población? Por ejemplo, si sabemos
los resultados de la prueba de vocabulario 100
niños, ¿qué podemos inferir acerca de toda la
población de niños de la misma edad?
• El usuario dispone de un conjunto de datos
multivariados, como ser las puntuaciones de las
personas de una capacidad pruebas en grupo. ¿Pueden
estas puntuaciones ser contabilizadas en términos de
un pequeño número variables latentes o factores
hipotéticos? Por ejemplo, ¿puede el rendimiento de
una variedad de actividades intelectuales ser
contabilizadas en términos de inteligencia general?
Pregunta 1: ¿Es la diferencia
significativa?
Pregunta 2: ¿Están las variables
asociadas?
Pregunta 3: ¿Son los puntajes o categorías
predecibles?
Pregunta 4: ¿Se puede inferir los
parámetros poblacionales a partir de una
muestra?
Pregunta 5: ¿Son las variables latentes? (Los
factores que emergen de un análisis factorial nunca pueden ser directamente
medidos o controlados por el investigador.
Diferencias significativas
• Se presenta en el contexto de la investigación
experimental donde el rendimiento de los
participantes en diferentes condiciones se está
comparando.
• En un experimento sobre drogas, el rendimiento bajo
condiciones Experimental y Control se mide y las
medias tienen valores diferentes.
• Esto puede parecer apoyar la hipótesis del
experimentador; pero ¿habría una diferencia similar
si se repitiera el experimento?
• Aquí el investigador desea probar la significación
estadística de la diferencia, es decir, establecer que
la diferencia es demasiado grande como para ser
solo una casualidad.
El diseño del experimento
• Muestras Independientes
• Seleccionamos 100 participantes para un experimento y asignamos
al azar a la mitad a una condición experimental y el resto a una
condición de control.
• La asignación de una persona a un grupo en particular no tiene
ningún efecto sobre el grupo al que se le asigna.
• Las dos muestras independientes de participantes seleccionadas
emitirán dos muestras independientes de puntuaciones.
• Un criterio útil para decidir si se tiene datos de muestras
independientes es que no debe haber ninguna base para
emparejamiento de las puntuaciones de una muestra con la otra.
• Un experimento en el que muestras independientes de
participantes se prueban en condiciones diferentes que se conoce
como experimento entre sujetos.
El diseño del experimento
• Muestras Relacionadas
• Supongamos que cada uno de cincuenta participantes tira
diez veces a un blanco triangular y diez veces a un blanco
cuadrado, ambos blanco tienen la misma superficie.
• Para cada blanco (triangular y cuadrado), cada participante
tendrá una puntuación que van desde 0 (diez fallas) a 10 (diez
éxitos).
• Como en el ejemplo anterior, habrá dos muestras de 50
resultados. Esta vez, sin embargo, cada puntuación de las
muestras se puede emparejar con la puntuación del mismo
participante con el otro objetivo.
• Un experimento como éste, en el que cada participante se
prueba bajo dos (o todas) condiciones, se conoce como
experimento dentro de sujetos. También se dice que tienen
medidas repetidas
El diseño del experimento
• . Diferentes
pruebas
estadísticas son apropiadas
para su uso con datos de
muestras independientes y
datos de muestras
relacionadas.
Diagrama de flujo para las diferencias entre las medias

Inicio

¿Cuántas Más de dos


ANOVA
condiciones?

Dos

Independiente ¿Independiente o Relacionado


muestras
relacionadas?

Medida u
Ordinal Medida u
Nominal Nominal
Tipo de Ordinal Tipo de
datos datos

T-test relacionado
Test
T-test independiente (pool Test de Chi- McNemar
o varianza separada) cuadrado para No-paramétrico-
asociación Test de
No-paramétrico-Test de Wilcoxon, Test de
Mann-Whitney signo
Elección de test para Comparar medias de dos o más muestras de un tratamiento
Diseño Experimental
Entre Suejetos Dentro Sujetos
Tipo de Datos
(Muestras Independientes) (Muestras Relacionadas)
Dos Muestras Dos Muestras
Interválico Muestra independientes t-test Muestras pareadas t-test
Ordinal Test de Wilcoxon-Mann Whitney Test de Signo de Rango. Test de Signo
Nominal Chi-Cuadrado McNemar
Tres o más Muestras Tres o más Muestras
Interválico ANOVA un factor ANOVA medidas repetidas
Ordinal Muestras K de Krustal-Wallis Friedman
Nominal Chi Cuadrado Cochran´s Q (solo datos nominales)
Test de t Student
• Para comparar los promedios de dos muestras
independientes de datos, la prueba t para muestras
independientes es a menudo apropiado.
• En su forma original, la prueba t para muestras
independientes utiliza una estimación media o agrupada
de la varianza de la población supuestamente constante.
• Por esta razón, se conoce a veces como prueba t
agrupada (pooled t test.)
• A veces los datos pueden no ajustarse a los requisitos de
la prueba t para muestras independientes.
• Si las varianzas de las muestras y/o tamaños de las
muestras son marcadamente diferentes, la prueba t de
varianza separada puede ser una opción más segura o
posiblemente recurrir a una prueba no paramétrica.
Ejemplo de una prueba t paramétrica
• Para ayudar a profes jóvenes a tener éxito en el mundo
académico, se ha ideado un curso de orientación en la que
aprenden como utilizar grandes palabras, cuando la
pequeña también la haría. Y para ayudarse a sobrevivir en
el mundo académico, decide hacer una investigación sobre
el mismo. Por lo tanto, se aleatoriza la mitad de tus profes
dispuestos a tomar el curso y la otra mitad a prescindir, a
continuación, medir todas las palabras oscuras que
murmuran. ¿Cómo voy utiliza estos datos para decir si
curso tuvo éxito? En pocas palabras, ¿cómo se puede
determinar la cantidad de la variación en las puntuaciones
hayan resultado de la diferencia entre los grupos y la
cantidad de variación dentro de los de grupos? La
siguiente tabla muestra los valores obtenidos luego de
asistir al curso y los obtenidos por el control
Participantes Control
35 22
31 25
29 23 Participantes Control
 35 27
28 29 S 4,55 4
39 30 S2 20,67 16
41 28 n 10 10
37 30
39 33
38 21
33 29
• Para realizar la comparación de las medias, se
utiliza la prueba t de dos muestras. La fórmula
utilizada varia dependiente del tamaño de los
grupos involucrados, es decir si n1 es igual a n2
o no lo es. Para este caso en particular
utilizamos la siguiente fórmula:
Resultado de Excel
Prueba t para dos muestras suponiendo varianzas desiguales

Participantes Control
Media 35 27
Varianza 20,6666667 16
Observaciones 10 10
Diferencia hipotética de las medias 0
Grados de libertad 18
Estadístico t 4,17786374
P(T<=t) una cola 0,00028268
Valor crítico de t (una cola) 1,73406359
P(T<=t) dos colas 0,00056535
Valor crítico de t (dos colas) 2,10092204
El cociente intelectual (CI) de 16 estudiantes de una región de una
ciudad resultó con una media de 107 y una desviación estándar de
10, el CI de 14 estudiantes de otra región de esa ciudad resultó de
112 y la desviación estándar de 8. Al nivel de significancia: a) 0.01 y
b) 0.05, ¿hay diferencia entre los CI de estos dos grupos?

R1 R2 Alfa
Media 112 107 1%
Desviación estándar 8 10 5%
Tamaño 14 16
gl: grados de libertad
• Para calcular un estadístico, es necesario emplear
observaciones obtenidas de una muestra y también
ciertos parámetros poblacionales. Si estos parámetros
no se conocen, es necesario estimarlos a partir de la
muestra. El número de grados de libertad de un
estadístico, que por lo general se denota ѵ, se define
como la cantidad n de observaciones en la muestra (es
decir, el tamaño de la muestra) menos la cantidad k de
parámetros poblacionales que tengan que estimarse a
partir de las observaciones muestrales. En símbolos, ѵ
= n − k. En el caso de la media, la cantidad de
observaciones independientes en la muestra es n, y a
partir de ellas se calculan . Como se necesita estimar
μ, k = 1 y por lo tanto ѵ = n − 1.
Ver Tabla C
• Para nuestro caso, el grado de libertad es
18, debido a que se determinaron dos
medias aritméticas y la cantidad total de
datos es 20, por lo tanto 20 – 2 = 18. Para
un test de dos colas con 5% de
significancia el valor crítico para t es 2.10.
Si el valor t calculado es mayor que el
valor crítico 2.10, por tanto la diferencia
entre las medias es significativa.
• Para muestras con diferentes tamaños de n1 ≠
n2, la fórmula generalizada de test de t es la
siguiente:
Tamaño de la muestra y potencia
2
𝑍𝛼 + 𝑍𝛽 × 𝑆
𝑛 =2×
∆𝑋
La inversa 𝐸𝑓𝑒𝑐𝑡𝑜 𝑡𝑎𝑚𝑎ñ𝑜
𝑠 ∆𝑥
=𝑑
∆𝑥 𝑠
Para hacer funcionar esta ecuación:
• Como mínimo necesitamos conocer la media y la desviación
estándar, si no lo tienes: créalos, y en aras de conseguir una beca
por una fundación, tratar de justificar los datos con algo de
literatura.
• ¿Cuán grande es el efecto del tratamiento, (1- 2) = ∆, voy a
obtener?, esta pregunta nunca se sabe, porque si supiéramos, no
necesitaríamos hacer el estudio. Debes inventarlo, si el tamaño de
la muestra es más de lo que puedes conseguir en un año, dobla el
efecto del tratamiento. Si es muy pequeño reduce a la mitad el
efecto del tratamiento.
• La Tabla D nos da el tamaño que necesitamos, la primera columna
d es la razón δ/σ ó ∆/σ. Esta del revés como aparece en la
fórmula, pero es la forma estándar de expresar la diferencia de las
medias en unidades estándar, la expresión se denomina efecto
tamaño.
• Las Tablas E de apéndice da el tamaño que debería tener cada
muestra y la potencia del test, cuyo valor mínimo es de 80%, para
un valor significativo importante.
ANOVA Análisis de Varianza
• Es un conjunto de técnicas, cada uno de los
cuales se basa en un modelo de cómo se
generaron los datos y culmina en pruebas
que son sólo apropiado para ese modelo en
particular.
• Por lo tanto, es importante identificar
correctamente los experimentos de
ANOVA, con el fin de elegir las pruebas
correctas. Se describirán los experimentos
de ANOVA más comunes.
ANOVA: Un factor
• Los términos Factor y Nivel son las variables
independientes y el valor respectivamente.
• Un factor puede ser variable independiente o una
característica del participante, tal como el género,
que 'manipulamos' estadísticamente, mediante el
muestreo de las personas de cada categorías del
conjunto.
• Las variables de los participantes son tratados
exactamente de la misma manera que VIs que
están siendo manipulados directamente por el
experimentador
Factores Entre los sujetos y Dentro de
los de sujetos
• Entre sujetos: es decir, el participante se
prueba bajo una sola condición (es decir, en
un nivel) del factor. El género es un ejemplo
obvio.
• Dentro sujetos, es decir, el participante se
prueba en todas las diferentes condiciones
(niveles) que constituyen el factor.
– Un experimento con un factor dentro sujetos
también se dice que tiene medidas repetidas en
ese factor.
(a) Un factor entre sujetos experimentales
Factor: droga
Nivel Control Drogas A Droga B Droga C
Sujeto Grupo 1 Grupo 2 Grupo 3 Grupo 4
(b) Un factor dentro de sujetos experimentales
Factor: formas del objeto
Nivel Círculo Cuadrado Triángulo Diamante
Sujeto Los participantes realizan con las cuatro formas
Nivel del Nivel del factor color
factor género Rojo Azul
Hombres Cada participante prueba con objetivos de rojo y azul

Mujeres Cada participante prueba con objetivos de rojo y azul


ANOVA de un Factor. Partes del análisis
• PROPÓSITO
• Comparar la Hipótesis Nula (H0) de que los
tratamientos (comparación de medias) tienen
el mismo efecto medio, es decir:
• H0: µ1 = µ2 = µ3 =…µn, (no hay diferencia en los
efectos de las medias de los tratamientos)
• Ha: µi ≠ µj, (al menos una media difiere de las
otras)
Ejemplo
• Para promover la campaña “sexo seguro para pecadores” decides
promover cual es el preservativo más eficaz.
• Rápidamente te sientes desanimado por el reto, ya que una visita a la
farmacia local revela que hay una estantería entera de donde elegir.
Lo que realmente quieres hacer es seleccionar unas pocas marcas y
determinar si existe alguna diferencia global entre las medias de los
grupos e intentar dilucidar a qué son debidas.
• Se selecciona un grupo surtido de voluntarios (que no parece que
vaya a ser demasiado complicado), formar grupos de manera
aleatoria asignándoles diferentes marcas (todas servidas con
propósitos experimentales en sencillos envoltorios marrón) y señala
una escala del 1 al 10 el índice de satisfacción para diferentes marcas
de preservativos.
• Compramos cuatro marcas y una marca casera desconocida. Con diez
individuos por cada grupo. Suponemos que hay una diferencia
discernible entre cada marca. La siguiente tabla muestra los
TABLA DE SATISFACCIÓN

Sujetos Ramsés Jeque Troyano Sin nombre


1 4 5 7 2
2 4 5 8 1
3 5 6 7 2
4 5 6 9
3
5 6 7 6
3
6 3 6 3
7 4 4 2 4
8 4 5 2 5
9 3 6 2 4
10 4 3 3 4
ANOVA un Factor: Programa EXCEL.
Análisis de varianza de un factor
RESUMEN DESCRIPTIVO
Grupos Tamaño Suma Promedio Varianza

Ramsés 10 42 4,2 0,84

Jeque 10 53 5,3 1,34

Troyano 10 49 4,9 7,66

Sin nombre 10 31 3,1 1,43


Resultado: ANOVA un Factor: Excel
ANÁLISIS DE VARIANZA

Origen de las Suma de Grados de Media de Valor crítico


F Probabilidad
variaciones cuadrados libertad cuadrados F

Entre grupos
27,875 3 9,292 3,296 0,031 2,866
(marcas)

Dentro grupos 101,5 36 2,819

Total 129,375 39
Suma de Cuadrados SC (entre)
Sujetos Ramsés Jeque Troyano Sin nombre
1 4 5 7 2
2 4 5 8 1
3 5 6 7 2
4 5 6 9 3
5 6 7 6 3
6 3 6 3 4
7 4 4 2 5
8 4 5 2 4
9 3 6 2 4
10 4 3 3 3
Suma 42 53 49 31
Media  4,2 5,3 4,9 3,1
Gran media
4,375
G
• De esta tabla se obtiene la Suma de Cuadrados
(entre) que es el cuadrado de la desviación entre
la media de cada grupo  con la gran media G.
Debido a que cada grupo posee 10 muestras de
valores, dicho valor final queda multiplicado por
10. En resumen se obtiene:

2
𝑆𝐶 𝑒𝑛𝑡𝑟𝑒 = 𝑛 𝑋 −𝑋
Suma de cuadrados SC (dentro)
• El siguiente paso para el análisis es la obtención
de la suma de cuadrados dentro que es la
desviación al cuadrado entre los valores
individuales de cada grupo con la media de dicho
grupo. Un ejemplo del cálculo seria la media
Ramsés menos la el valor individual del primer
individuo elevado al cuadrado: (4,2 – 4)2 = (0,2)2 =
0.04, cuyo valor se observa en el ángulo superior
izquierdo de la siguiente tabla. El resto de los
valores que se observa en la tabla sigue el mismo
procedimiento.
Diferencia al cuadrado por grupo
0,04 0,09 4,41 1,21
0,04 0,09 9,61 4,41
0,64 0,49 4,41 1,21
0,64 0,49 16,81 0,01
3,24 2,89 1,21 0,01
(Xj-)2
1,44 0,49 3,61 0,81
0,04 1,69 8,41 3,61
0,04 0,09 8,41 0,81
1,44 0,49 8,41 0,81
0,04 5,29 3,61 0,01
Suma 7,6 12,1 68,9 12,9
Suma
101,5
• La sumatoria del cálculo para la obtención se
observa en la siguiente ecuación.

𝑆𝑢𝑚𝑎 𝑑𝑒 𝑐𝑢𝑎𝑑𝑟𝑎𝑑𝑜𝑠 𝑑𝑒𝑛𝑡𝑟𝑜


= 4 − 4.2 2 + 4 − 4.2 2 + … 4 − 4.2 2 + 5 − 5.3 2 + 5 − 5.3 2

+ … 3 − 5.3 2 + 7 − 4.9 2 + ⋯ 3 − 4.9 2 + 2 − 3.1 2


+ ⋯ 3 − 3.1 2 40 𝑡𝑒𝑟𝑚𝑖𝑛𝑜𝑠 = 101.5

2
𝑆𝐶 𝑑𝑒𝑛𝑡𝑟𝑜 = 𝑋𝑗 − 𝑋
Grados de libertad (df o gl)
• gl: Para calcular un estadístico, es necesario emplear observaciones
obtenidas de una muestra y también ciertos parámetros
poblacionales. Si estos parámetros no se conocen, es necesario
estimarlos a partir de la muestra. El número de grados de libertad
de un estadístico, que por lo general se denota ѵ, se define como la
cantidad n de observaciones en la muestra (es decir, el tamaño de
la muestra) menos la cantidad k de parámetros poblacionales que
tengan que estimarse a partir de las observaciones muestrales. En
símbolos, ѵ = n − k. En el caso del la media, la cantidad de
observaciones independientes en la muestra es N, y a partir de ellas
se calculan . Como se necesita estimar μ, k = 1 y por lo tanto ѵ = n
− 1.
• El siguiente paso de es determinar los grados de libertad para los
dos términos anteriores (Suma de cuadrados entre y dentro) para
determinar la media de cuadrados de ambos términos.
• Tenemos 4 grupos para SC entre, pero un grado de libertad se ha
perdido en el cálculo de la gran media. Luego el gl para la SC entre
es:
𝑔𝑙 𝑒𝑛𝑡𝑟𝑒 = 4 − 1 = 3
• Para la SC dentro se tiene 40 términos (datos):
4 grupos y 10 individuos por grupo. Pero
empleamos 1 gl por cada media determinada
y por tanto perdemos un total de 4. Luego el
gl para la SC entre es:
𝑔𝑙 𝑑𝑒𝑛𝑡𝑟𝑜 = 40 − 4 = 36
• Finalmente para determinar el gl totales
vendrán dados por los 40 términos y uno
perdido al determinar la gran media. Luego el
gl para el total es:
𝑔𝑙 𝑑𝑒𝑛𝑡𝑟𝑜 = 40 − 1 = 39
Medias de cuadrados
• Ahora determinamos la media de cuadrados
de la suma de cuadrados entre y dentro
dividiendo por sus respectivos grados de
libertad, en este caso 3 y 36 y obtenemos la
media cuadrada. Debido a que el gl es casi
igual al número de términos de la suma.
Cociente de las medias cuadradas – F
• Finalmente obtenemos el cociente de las medias
cuadradas, el valor F, que es la relación señal-
ruido de la diferencia entre grupos y dentro de
los grupos.
• Todo esto se resume en la tabla de ANOVA que se
muestra a continuación. Podemos ver si el valor F
calculado es significativo o no lo es.
• Al comparar los valores F calculado con F crítica
que sale de la Tabla se encuentra que Fcalculada >
Fvc.
• Quien haya hecho la marca sin nombre uso
diferente tipo de receta para elaborar su
producto.
El resultado se expresa mejor realizando una
comparación entre las medias utilizando un gráfico de
barras. Como se observa en el siguiente gráfico.
Decisión
• El punto crítico para un contraste con
α = 0.05 es aproximadamente 2,866.
• El valor observado de F es 3,296 es
mayor que 2,866.
• Tenemos prueba estadística de que
los tres tratamientos difieren en el
efecto medio.
Tamaño y Potencia del Test
• Tamaño y potencia del test
• Tendremos en cuenta el efecto tamaño, d, que
expresa el efecto del tratamiento en unidades de
desviación estándar, S. consideramos dos puntos:
– Hay varias medias.
– Las medias pueden estar distribuidas de varias formas.
• Por tanto, tendremos que hacer un par
estimaciones:
– Una sobre la media de las diferencias entre las medias.
– La otra sobre la probable distribución.
• Llamamos ∆ entre la mayor y la menor de las medias y d es la
razón δ/σ ó ∆ /S llamada efecto tamaño. Tenemos que distribuir
las medias entre ∆ .
• Hay una posibilidad que se presenta cuando tenemos tres grupos;
dos medicamentos y un placebo. Presumiblemente, los dos
medicamentos deben estar próximos en uno de los extremos de la
distribución de medias y el placebo en otro.
• Pero si tenemos un montón de tratamientos, medias, una primera
conjetura es que deberían de estar distribuidos por igual a lo largo
de la línea.
• Una tercera variación puede consistir en que hay un tratamiento
claramente ganador, el otro no hace nada, y el último se halla en el
centro.
• Para determinar el tamaño de la muestra se multiplica el valor d por
una fórmula (f) que varía dependiendo de la distribución de las
medias:
– Dispersión mínima
– Dispersión máxima
– Dispersión intermedia
Tamaño y Potencia del Test
1
𝐷𝑖𝑠𝑝𝑒𝑟𝑠𝑖𝑜𝑛 𝑚í𝑛𝑖𝑚𝑎 = 𝑑 ×
2𝑘
𝑘+1
𝐷𝑖𝑠𝑝𝑒𝑟𝑠𝑖ó𝑛 𝑖𝑛𝑡𝑒𝑟𝑚𝑒𝑑𝑖𝑎 = 𝑑 ×
3 𝑘−1

𝑘2 − 1
𝐷𝑖𝑠𝑝𝑒𝑟𝑠𝑖ó𝑛 𝑚á𝑥𝑖𝑚𝑎 𝑘 = 𝑖𝑚𝑝𝑎𝑟 = 𝑑 ×
2𝑘

𝐷𝑖𝑠𝑝𝑒𝑟𝑠𝑖ó𝑛 𝑚á𝑥𝑖𝑚𝑎 𝑘 = 𝑝𝑎𝑟 = 𝑑 × 1


• Supongamos que estamos comparando cinco
medias de un tratamiento, y basadas en a)
investigaciones previas, b) la intuición o c) por
una imaginación planificada; conjeturamos:
• Una diferencia de 10 mm entre la mejor y la
peor.
• Que las medias individuales están distribuidas
por igual a lo largo de los 10 mm de
diferencia.
• La desviación estándar S, es de 8 mm.
• ¿Qué tamaño de muestra necesito para
detectar esta distribución de diferencia?
• d es igual:
∆𝑥 10
𝑑= = = 1.25
𝑠 8

• f para una distribución intermedia es:

1 𝑘+1 1 5+1 1
𝑓=𝑑× = 1.25 × = 1.25 × 0.5 = 0.442
2 3 𝑘−1 2 3 5−1 2

• Las siguientes dos tablas muestran el tamaño y


potencia de la muestra por grupo tras elegir los
valores adecuados de α y β.
ANOVA de dos Factores
• Propósito
• Estudiar si los valores de una variable
dependiente (VD) dependen de los niveles de dos
variables independientes (VI) (factores) o de la
interacción entre ambas. La primera VI se
denomina A y tiene J niveles. a segunda VI es B y
tiene K niveles. En los diseños de ANOVA de dos
factores, se prueban tres Ho por vías separadas; la
prueba F:
• La Ho para el efecto principal A,
• La H0 para el efecto principal B y
• La H0 para interacción entre los factores A y B.
• Interacción
– Existe interacción entre dos factores cuando el efecto
de un factor sobre la VD depende de cuál sea el nivel
del otro factor.
• Hipótesis Nula H0
– H0(A): μ1 = μ2 =… = μj. Las J medias poblacionales
correspondientes a los J niveles del factor A son
iguales.
– H0(B): μ1 = μ2 =… = μΚ .Las K medias poblacionales
correspondientes a los K niveles del factor B son
iguales.
– H0(AB): μjk − μj’k = μj− μj’. No hay efecto de interacción.
• Hipótesis Alternativa HA
– H1(A): μj ≠ μj’. El factor A influye o afecta a la VD.
– H1(B): μk ≠ μk. El factor B influye o afecta a la VD.
– H1(AB): μjk − μj’k ≠ μj− μj’ Hay interacción.
• Se prueban tres hipótesis nulas separadas e
independientes, y cada una es rechazada o
fundamentada independientemente de las
otras dos.
• Las H0 para los factores A y B pueden probarse
con dos ANOVAS de un factor separadas.
• El ANOVA de dos factores se relaciona con la
interesante pregunta concerniente a la
interacción; es decir, ¿hay ciertas
combinaciones de los factores que tengan
efectos sobre los que serian evidentes si los
dos factores se consideraran de manera
separada, independientes y aditivamente?
Ejemplo
• Considerando el ejemplo anterior, que
fue el índice de satisfacción para
diferentes marcas de preservativos,
ahora tendremos en cuenta las A) marcar
de preservativos usados por B) varones
circuncidados y no circuncidados. El
resultado del índice de satisfacción de
ambos factores está descrito en la
siguiente tabla.
Ramsés Jeque Troyano Desconc. Media Media

4 5 7 2 4,50
4 5 8 1 4,50
No circuncidados 5 6 7 2 5,00 5,05
5 6 9 3 5,75
6 7 6 3 5,50
Media del grupo 4,8 5,8 7,4 2,2

3 6 3 4 4,00
4 4 2 5 3,75
Con circuncisión 4 5 2 4 3,75 3,70
3 6 2 4 3,75
4 3 3 3 3,25
Media del grupo 3,6 4,8 2,4 4,0

Media de la
4,2 5,3 4,9 3,1 4,375
marca
Análisis de varianza de dos factores con varias muestras por grupo

RESUMEN Ramsés Jeque Troyano Desconc. Total

Sin circuncisión
Cuenta 5 5 5 5 20
Suma 24 29 37 11 101
Promedio 4,8 5,8 7,4 2,2 5,05
Varianza 0,7 0,7 1,3 0,7 4,471

Con circuncisión
Cuenta 5 5 5 5 20
Suma 18 24 12 20 74
Promedio 3,6 4,8 2,4 4 3,7
Varianza 0,3 1,7 0,3 0,5 1,378

Total
Cuenta 10 10 10 10
Suma 42 53 49 31
Promedio 4,2 5,3 4,9 3,1
Varianza 0,844 1,344 7,655 1,433

ANÁLISIS DE VARIANZA
Origen SC GL MC F p VC F
Condición 18,225 1 18,225 23,516 0,000 4,149
Marcas 27,875 3 9,292 11,989 0,000 2,901
Interacción 58,475 3 19,492 25,151 0,000 2,901

Dentro del grupo 24,800 32 0,775

Total 129,375 39
Suma de Cuadrados de Condición
• Igual a la sumatoria de de las medias de los no
circuncidados menos la gran media elevado al
cuadrado.
2 2
𝑆𝐶𝑐𝑜𝑛𝑑𝑖𝑐𝑖 ó𝑛 = 20 × 5.05 − 4.375 + 3.70 − 4.375 = 18.225

Suma de Cuadrados de Marcas


• Igual a la sumatoria de las medias de las marcas
menos la gran media elevado al cuadrado.
2 2 2 2
𝑆𝐶𝑚𝑎𝑟𝑐𝑎𝑠 = 10 × 4.2 − 4.375 + 5.3 − 4.375 + 4.9 − 4.375 + 3.1 − 4.375 = 27.875
Suma de Cuadrados de Interacción
• Esto es un poco más complicado y por lo tanto necesitamos una
aclaración más detallada de la misma.
• Cada media de las marcas (4.2, 5.3, 4.9, y 3,1) tiene una desviación
respecto a la gran media y cada media de la condición (5.05 y 3.70) tiene
otra desviación respecto a la gran media.
• La sumatoria de cada de ambas desviaciones corresponderá a la media
conjeturada o estimada de la media de marca por condición.
• Por ejemplo, la media conjeturada de 4.8 de Ramsés con respecto a la
gran media será (44.2-4.375), es decir ─0.172 por debajo de la gran media
y para los hombres no circuncidados será de (5.05-4.375) que da 0.675
por arriba de la gran media, así podemos predecir que los hombres no
circuncidados que usan la marca Ramsés estarían 0.675 por encima de la
gran media y por debajo de ella 0.175 puntos, es decir, estarían (0.675-
0.175) = 0.500 por encima de la gran media; es decir (4.375+0.500) =
4.875 que es un valor muy próximo a lo esperado.
• Al final la sumatoria estará formada por 8 términos. La sumatoria queda
igual a la desviación de la media de cada grupo menos la media
conjeturada elevada al cuadrado. Dicha sumatoria se observa en la
siguiente ecuación:
Suma de Cuadrados de Interacción
2 2 2 2 2
𝑆𝐶𝑖𝑛𝑡𝑒𝑟𝑎𝑐𝑐𝑖 ó𝑛 = 5× 4.8 − 4.875 + 3,6 − 4.875 + 5.8 − 5.975 + 4.8 − 4.8 + 7.4 − 5.575
2 2
+ 2.4 − 4.225 + 2.2 − 3.775 + 4.0 − 2.425 2 += 58.475

• Los grados de libertad, la media de cuadrados


y el cociente de la media de cuadrados (F)
siguen el mismo patrón que el ANOVA de una
vía.
Suma de Cuadrados dentro del grupo (error)
• Se obtiene entre el valor individual de cada dato y su correspondiente
media elevada al cuadrado y se suma los 40 valores obtenidos como se
:
observa en la siguiente tabla

(X-)^2 0,64 0,64 0,16 0,04


(X-)^2 0,64 0,64 0,36 1,44
(X-)^2 0,04 0,04 0,16 0,04
(X-)^2 0,04 0,04 2,56 0,64
(X-)^2 1,44 1,44 1,96 0,64
(X-)^2 0,36 1,44 0,36 0
(X-)^2 0,16 0,64 0,16 1
(X-)^2 0,16 0,04 0,16 0
(X-)^2 0,36 1,44 0,16 0
(X-)^2 0,16 3,24 0,36 1

Media de cada grupo 0,4 0,96 0,64 0,48


Media del grupo 0,62
Media Cuadrada 24,80
Resultado ANOVA 2 Factores: EXCEL.
Origen SC GL MC F p VC F

Condición 18,225 1 18,225 23,516 0,000 4,149

Marcas 27,875 3 9,292 11,989 0,000 2,901

Interacción 58,475 3 19,492 25,151 0,000 2,901

Dentro del
24,800 32 0,775
grupo
Regla de decisión
• Rechazar H0(A) si el estadístico FA cae en la
zona crítica. Mantener H0(A) en caso
contrario.
• Rechazar H0(B) si el estadístico FB cae en la
zona crítica. Mantener H0(B) en caso
contrario.
• Rechazar H0(AB) si FAB cae en la zona
crítica. Mantener H0(AB) en caso contrario.
Resultado
• Se rechazar la H0(A) de igualdad entre las medias en la
condición (no circuncidado/circuncidado) debido a que
el estadístico FA cae en la zona crítica, FA 23,516>FAC
4,149. Hay diferencia significativa entre los no
circuncidados y circuncidados.
• Se rechazar la H0(B) (marcas de preservativos) debido a
que el estadístico FB cae en la zona crítica, FB
11,989>FBC 2,901. Hay diferencia significativa entre las
marcas de preservativos.
• Se rechazar H0(AB) debido a la presencia de una
interacción entre los factores A y B debido a que
estadístico FAB cae en la zona crítica, FAB 25,151>FABC
2,901. Existe una interacción entre los factores A y B.
Suma de cuadrados e interacciones
determinadas por factores e interacción
Estatus de
Dentro del circuns
grupo, 24,8 A, 18,225

Estatus de circuns A

Marca Marca B
B, 27,875 Interacción AxB
Dentro del grupo

Interacción
AxB, 58,475
Grado de satisfacción y situación respecto a la circuncisión

Sin circuncisión Con circuncisión


8,0
Grado de satisfaccióm (media)

7,0
6,0
5,0
4,0
3,0
2,0
1,0
0,0
Ramsés Jeque Troyano Desconocido

Marca

Si consideramos las marcas Pero los valores medios de Troyano y


Ramsés y Jeque, el más preferido Desconocido presentan un cuadro diferente.
Por alguna razón inexplicable los varones no
es la marca Jeque, y los no
circuncidados expresan una clara preferencia
circuncidados disfrutan más del por la marca Desconocida y los circuncidados
sexo, por el Troyano.
Interacción entre marcas y situación con respecto a la
circuncisión
• El hecho de que las líneas no sean paralelas es un índice de la presencia de una
interacción. El concepto de interacción es sinónimo de sinergia, el todo es mayor o
menor que la suma de sus partes. Para comprender, un fosforo tiene poca energía
libre, un bidón de gasolina tiene poca energía libre. Júntalos y, de repente, tienes
una gran cantidad de energía (y también de sinergia).
Sin circuncisión Con circuncisión

8,0
7,0
6,0
5,0
4,0
3,0
2,0
1,0
0,0
Troyano Desconocido

Vous aimerez peut-être aussi