Vous êtes sur la page 1sur 39

Bioestadstica

Por qu es necesario saber estadstica?


Para actualizar conocimientos (los artculos tienen lenguaje estadstico)
Para la investigacin clnica y epidemiolgica
Para la evaluacin y mejora de cualquier cosa que se traduce en calidad
asistencial
Para el anlisis crtico de ventas farmacolgicas, etc.

Mtodo cientfico
`
Realizacin de la
hiptesis
Bibliografa / experiencia
(observacin de la
hiptesis)

Rechazo o aprobacin de
la hiptesis (en cuyo caso
se considera verdad
hasta que se demuestre
lo contrario)

Prediccin del resultado


de la hiptesis

Diseo del experimento


(por epidemilogos)
Recogida de datos
anlisis y obtencin de
conclusiones (por
estadistas)

Esto generar nuevas hiptesis que pondrn el proceso de nuevo en


marcha.

Materias relacionadas
Clculo de probabilidades: ciencia matemtica que estudia la probabilidad
de que un proceso aleatorio ocurra.
Estadstica: Consigue informacin sobre fenmenos reales para tratar de
averiguar el fenmeno probabilstico.
Tipos: matemtica, que elabora teoras y modelos matemticos
que se puedan ajustar a la realidad.
aplicada, que adapta los modelos a la realidad en las
distintas reas del conocimiento.
Epidemiologa/Mtodo epidemiolgico: Une la parte terica y estadstica
de cada caso.

Caractersticas de la estadstica
Infiere fenmenos (con una pequea muestra puede analizar grandes
conjuntos)
No hace anlisis exhaustivos (de todos los individuos)
Resuelve tres tipos de problemas: Estimaciones puntuales (proporciones
medias).
Estimacin por intervalo (como la puntual pero
con un intervalo en el que se encuentra la
mayora de la poblacin).
Contraste de hiptesis.
Sesgos en el mtodo epidemiolgico: son desviaciones que se producidas
debido a errores en algn momento del
experimento. Pueden llegar a invalidar las
conclusiones.

Observaciones
Estadsticamente significativo no es cientficamente relevante
Estadsticamente significativo no es clnicamente importante
El p valor no lo es todo

Definiciones
Poblacin: Conjunto de elementos que cumple ciertas caractersticas entre
las cuales se desea estudiar un fenmeno determinado.
Desde el punto de vista de la bioestadstica la poblacin es
inalcanzable.
La poblacin diana es aquella de la que se quiere hablar.
La poblacin accesible es aquella que vas o puedes manejar.
Muestra: Subconjunto de la poblacin elegido para ser la parte
directamente estudiada de la poblacin.
Un individuo posee caractersticas/caracteres que son representados por
variables
Parmetro: Nmero que rene informacin de la poblacin (inaccesible).
: desviacin tpica poblacional
p: correlacin
: media poblacional
: proporcin
Estadstico: Equivalente al parmetro pero aplicable a la muestra.
s: desviacin tpica muestral
r: coeficiente de correlacin muestral
m: media muestral
p: proporcin

Estimadores
Carcter: Propiedad o caracterstica que tienen los elementos de una
poblacin.
Cualitativos: No se les puede asignar un valor numrico. Ej: color
de pelo.
Cuantitativos: Se les puede asignar un nmero.
Discretos: Solo puede tomar valores concretos. Entre
dos valores no existen ms valores.
Continuos: Entre dos posibles valores existen infinitos.
Variables: Sistema para representar los caracteres (se utilizan para los
seres humanos).
Cualitativos: Se les puede asignar un nmero pero no tiene valor
numrico. Ej: color de pelo.
Nominales: Permite realizar operaciones de igualdad y
desigualdad. Ej: Ser rubio es distinto a ser
moreno.
Dicotmicos: Solo pueden adoptar dos valores.
Ej: S o no. Hombre o mujer.
Polotmicos: Puede tomar ms de dos valores.
Ej: Color de pelo.
Ordinales: Puedes establecer relaciones de superioridad
pero sin asignar un nmero. Ej: posicin que
ocupan los hijos.
Cuantitativos: Se les puede asignar un nmero y tiene significado.
Discretos: Solo puede tomar valores concretos. Entre
dos valore no existen ms valores. Ej: Nmero
de hijos
Continuos: Entre dos posibles valores existen infinitos.
Para medir las variables se utilizan escalas por las que se pondrn
nmeros a las variables o lo que es lo mismo el sistema de asignacin de
nmero a las variables depende de la escala.
Las bases de datos solo deben contener nmeros pues lo
paquetes estadsticos solo pueden leer nmeros.
Para representar las variables se utiliza un sistema de codificacin.
Es importante registrar no solo las respuestas si no las no respuestas (la
gente que no sabe o no contesta) pues cambian las estadsticas.

Escalas (son acumulativas en la informacin que dan, no puedes ir de


arriba a abajo pero s al revs)
Escala nominal: Igualdad o desigualdad.
Escala ordinal: Permite relaciones de mayor que y menor que.
Escala de intervalo: Operaciones de clculo con los intervalos (con los n).
No tiene cero absoluto y aunque se le asigne un nmero
no tiene significado relacionado con la realidad.
Escala de razn: Tiene cero absoluto y con relacin con la realidad.
En funcin de la escala se pueden realizar distintas operaciones,
condiciona el tipo de estadstico que vas a utilizar.
Relacin de la escala con su estadstico:
Escala nominal: Frecuencia (proporcin)
Moda
Escala ordinal: Mediana
Percentil
Escala de intervalo: Media aritmtica
Desviacin tpica
Escala de razn: Media geomtrica
Media armnica
Variables cualitativas
Frecuencia
La frecuencia es un valor en torno al cual se agrupan los datos (el valor
ms frecuente)
Centro
Forma

Dispersin

Posicin

Frecuencia absoluta: Recuento de sujetos con una determinada


caracterstica.
Frecuencia relativa: Porcentaje de sujetos que cumplen una determinada
caracterstica.
n = Tamao muestral
Frecuencia simple: Frecuencia obtenida sobre un dato.
Frecuencia acumulada: Se suman los porcentajes simples, de esta manera
se observa el peso de cada porcentaje.

Tipos de grficos
Grfico de barras

Grafico de sectores

Pictograma

Intervalos de clase: Son intervalos dentro de los cuales las personas deben
ubicarse segn sus datos Ej Edad (entre 0 y 6 aos, entre
7 y 20 aos, etc) o el ndice de masa corporal
Si no existe criterio (social o de otro tipo) los intervalos deben ser iguales
porque si no en los intervalos grandes la frecuencia de que algo ocurra
ser mayor.
Frecuencias simples
acumuladas

Variables cuantitativas

Frecuencias

Media aritmtica (promedio):


los valores extremos

Muy sensible a

Media geomtrica:

Media armnica:

Media ponderada:
Se utiliza para dar ms peso a unos individuos que a otros. Ej:
Mediana: Valor del eje central que separa los individuos de la muestra en
dos grupos del mismo tamao.
Se ordenan los individuos en orden creciente. Ej: Con 11 valores el
6 valores el punto que los separa. Pero con 10 valores se debe
calcular la media de los dos valores adyacentes.
No es sensible a los valores extremos.
Se usa para conjuntos con datos muy asimtricos.
Moda: La moda es frvola, es el valor que ms se repite, el ms frecuente.
Puede haber ms de una moda, de aqu saldrn los bimodales y los
multimodales

Medidas de dispersin
Dispersin: indica en qu medida los datos estn juntos o separados del
centro
Rango: Diferencia entre el mximo y el mnimo valor.
Sensible a los valores extremos.
Desviacin media: Distancia de cada punto a la media

Varianza:

El problema es
que la suma de
las distancias da
cero.
Promedios de las desviaciones de
cada valor respecto a la media.
Forma efectiva de medir la dispersin de una
muestra.
Las unidades no tienen sentido fsico.

Existe una para hablar de la poblacin y otra


para hablar de la muestra (con su respectiva
correccin).
Una muestra grande es una muestra con ms
de 30 individuos.
Desviacin tpica:

Unidades entendibles (aos, m, cm)


Formas de escribirla: Espaoles: D.T. o D.E.
Ingleses: S.D. (standart
desviation)

Coeficiente de variacin (CV):

Se usa para
comparar la dispersin en las
distintas variables.
Es el cociente entre la desviacin
tpica y la media.
En tanto por ciento
Es la desviacin tpica en
unidades fsicas.

Medidas de posicin: Dividen la muestra en grupos iguales.


Dividir en 3 grupos con 2 valores (2 terciles)
Dividir en 4 grupos con 3 valores (3 cuartiles)
Dividir en 5 grupos con 4 valores (4 quintiles)
Dividir en 100 grupos con 99 valores (99 percentiles). El
percentil 97,5 es importante.
Es til para ubicar sujetos.
Estrategias poblacionales: Son aquellas en las que se intenta trasladar la
curva para que los grupos de riesgo disminuyan. Ej:
Si en 1980 se consideraba grupo de riesgo a los
sujetos con un valor de hipertensin 20 en la
actualidad se les considera grupo de riesgo con un
valor de 15 pues la curva se ha trasladado.
Estrategias individuales: consiste en tratar exclusivamente a los grupos de
riesgo.
Clculo de las medidas de posicin
Histograma: es similar a un diagrama de barras pero este es continuo. Se
pueden unir los mximos valores y despus suavizarlo.

Existen ciertos tipos de grficas que solo tiene sentido si se las ve en


evolucin. Ej: las graficas de la altura y el peso a lo largo de la vida de un
nio.
Medidas de la forma de los histogramas
Asimetra (Skewness) [-1,1]: En una curva simtrica la asimetra es cero.
Tender hacia 1 cuando la simetra sea derecha. Ej:

Tender hacia -1 cuando la simetra se izquierda. Ej:

Apuntamiento (Kurtosis): Nos da una idea de cmo de puntiaguda es una


curva.
Campana de Gauss: Apuntamiento = 0 luego es
platicrtica
Si el apuntamiento es < que cero es mesocrtica
Si el apuntamiento es > que cero es Leptocrtica
Grfico de tallo y hojas
Frecuencia
1,00
2,00
4,00
.
.
.
.
.
.
.

4,8
4,8
5,04
5,0 y 5,4
5,5667
5,5 - 5,6 - 5,6 y 5,7
..

..

..

Se pueden ver los valores especficos en cada columna multiplicando cada


valor por 10 e insertndolo en la grfica.

Grafica Q-Q
Sobre cada muestra se coloca el percentil estndar (que al ser estndar
tendr forma de recta pues ser homogneo) se aade despus el valor
real y as se aprecia la desviacin con respecto a lo estndar.

Diagrama de cajas

Distancia al bigote superior =


1 Cuartil 3 Cuartil

Mediana

1,5 X (rango intercuartil)

Rango intercuartil

1 Cuartil
Distancia al bigote inferior = 1
Cuartil +
1,5 X (rango intercuartil)

Los valores por debajo/encima del bigote son valores perifricos.


Si estn 3 veces por debajo/encima se les llama valores extremos.

Si la mediana se desplaza hacia arriba existir una cola derecha (y


viceversa)
Dependiendo de la distancia entre el 1 y el 3 cuartil (la altura de la caja)
diremos que la grfica es platicrtica, mesocrtica o leptocrtica)

PROBABILIDAD
Proporcin: es un concepto parecido a las secuencias relativas. En el
denominador se incluye el numerador Ej: a/(a+b). Prevalencias:
la proporcin en que se encuentra un determinado carcter.
Incidencia acumulada: es el cociente entre el nmero de
incidentes/casos nuevos y el nmero de sujetos seguidos
(observados durante un periodo de tiempo).
Tasas: Incluyen el concepto del tiempo. Ej: velocidad.
Tasa de incidencia: es el cociente entre el nmero de casos
incidentes/periodo de tiempo (tiempo que tarda en pasar algo). Tasa
de mortalidad: nmero de personas muertas/un ao.
Odd: Es el cociente entre la proporcin en la que se produce un
evento/proporcin en que no se produce. p/ (1-p). Ej: El 25% de la
poblacin es hipertensa: 0,25/0,75 Es ms probable no ser hipertenso
que serlo. Es similar a la probabilidad relativa.
Cociente o razn: Es un cociente en el que el denominador no incluye al
numerador. El ms usado es el cociente de masculinidad:
4/2 significa que hay 2 hombres por cada cuatro mujeres.
Existen otras razones como la Razn de Odds (que se hace
con varias odds juntas y es similar al producto cruzado de
dos odds) y la razn de incidencias.

Distribucin de probabilidad
Concepto de probabilidad
Enfoque frecuentista: Nmero o valor que se obtiene cuando se repite n
veces un experimento. Ej: si tiras un dado un nmero
determinado de veces la probabilidad de obtener cada
valor es de 1/6 ms o menos
Enfoque bayesiano: Si tiras un dado perfecto infinitas veces la
probabilidad de obtener cada valor es de exactamente
1/6. Se trabaja con conocimientos tericos.

Experimento aleatorio: es aquel en el que no se puede predecir el


resultado. Si repites el experimento en las mismas
condiciones tampoco podrs predecir el resultado.
Conoces todos los posibles resultados. Si repites n
veces el experimento y obtienes una cantidad de veces
determinada cada valor al dividir ese valor por n se
obtiene un valor fijo al que llamamos frecuencia. Ej:
tirar un dado.
Espacio muestral: E o . Conjunto de posibles resultados de un
experimento. Ej: al tirar un dado se puede obtener (e1, e2,
e3, e4, e5, e6) e de evento.
Suceso: Cualquier subconjunto del espacio muestral. Puede salir un
nmero del1 al 6? (e1, e2, e3, e4, e5, e6) Puede salir par? (e2, e4, e6)
Tipos de sucesos
Elemental: Mnimo suceso posible, es indivisible. Ej: e1. Son incompatibles,
no se pueden dar al mismo tiempo.
Contrario: Cualquier suceso que no sea el nombrado o estudiado. Ej: El
suceso contrario al suceso par es el impar. Suceso A: e2, e4, e6.
Suceso nA oA
Unin: Suma de dos sucesos A y B. Suceso A: nmeros pares. Suceso B:
mayores que tres. AUB: (e2, e4, e5, e6)
Interseccin: Parte comn AB: (e4, e6). Si existe interseccin los sucesos
son compatibles.
Incompatible: No pueden darse los dos sucesos a la vez.
Seguro: Se refiere al suceso que siempre va a ocurrir, este solo puede ser
la muestra completa.
Imposible: Se refiere al suceso que nunca puede ocurrir, esto solo es
posible si no se incluye ningn elemento del espacio muestral.
Definiciones de probabilidad
Clsica: Se define como el cociente entre los casos favorables/casos
posibles. En un dado: la probabilidad de que salga 3 es de una entre
seis (1/6)

Emprica: Si repites n veces el experimento y obtienes una cantidad de


veces determinada cada valor al dividir ese valor por n se obtiene
un valor fijo al que llamamos frecuencia. Lim ni/n
Axonmica: formada por tres axiomas
1: La probabilidad de cualquier suceso es mayor 0 y 1
2: P (), la probabilidad del suceso seguro es 1
3: Dados dos sucesos P (AUB) = P(A) + P(B)
De los tres axiomas se deriva que:
la probabilidad del suceso contrario P () =
1 P(A)
la probabilidad del suceso nulo/imposible 1
P ()= 0
ley de las probabilidades totales: P(AUB) =
P(A) + P(B) P(AB)
Distribuciones de probabilidad
Variable aleatoria: Es cualquier aplicacin del espacio muestral sobre el
conjunto R. A cada suceso individual del espacio muestral
se le asigna un nmero real.
Variaciones continuas (ley binomial y ley de Poisson)
Variaciones discretas (ley normal)
Funcin de probabilidad f (x)
Funcin por la que a cada valor de la variable aleatoria se le asigna su
valor de probabilidad.
Dado
e1
e2

R
1
2

f (x)
1/6
1/6

Discreta: 0 f (x) 1. Sumatorio de f (x) = 1


Continua: f (x) 0. Integral de f(x) dx

Funcin de distributiva
Probabilidad de obtener un determinado resultado junto con todos los
anteriores.
Discreta F (x) = P (x xj) = Sumatorio f (xi)
P (x 3) = P (x =1) + P (x =2) + P (x =3)
Continua: Se suman reas
Distribucin uniforme

Si en una grfica continua quieres hallar la probabilidad de que un


individuo se encuentre entre dos valores, se debe hacer la integral del
rea en los dos valores. Esto es el resultado de la resta de la integral del
rea ms lejana con la integral del rea ms cercana.

La importancia de conocer la distribucin que siguen tus datos reside en el


hecho de que si estos encajan con alguna distribucin sistematizada el
tratamiento de los datos es mucho ms sencillo. Si no encajan existen los
llamados mtodos no paramtricos, ms complejos pues el trabajo se
realiza utilizando todos los datos.

Variables aleatorias discretas


Distribucin binomial
Se hace con experimentos aleatorios, dicotmicos, excluyentes,
independientes (en cuanto a los experimentos) y con reposicin (se repite
el experimento en las mismas condiciones con la posibilidad de obtener
los mismos sucesos)

Ejemplo:
Tirar una moneda

V.A. (variable asignada)

Cara
Cruz

0
1

1/2
1/2

f(x)

Nuevo experimento
Posibilidades de sacar cruz en 10 tiradas
n = 10 (n de tiradas)
p = 0,5 (probabilidad de cruz)
q=1-p
Sucesos
0 cruces y 10 caras
1 cruz y 9 caras
2 cruces y 8 caras
..

V.A. (variable asignada)

f(x)

0
1
2

Distribucin de probabilidad de que salga cara

Si se representa grficamente se obtiene la funcin de distribucin

Distribucin de Poisson
Es similar a la distribucin binomial pero
Es para variables continuas.
p es muy pequea (menor de 0,05)
n es muy grande (mayor de 100)
Ej: Proporcin de metafases en un grupo celular
Variables aleatorias discretas

Distribucin normal
Propiedades
Simetra
La mediana, moda y modal coinciden
Es asinttica con respecto al eje de abscisas
Desde el centro a una distancia de (desviacin tpica) el rea es
de 0,68
La distribucin normal tipificada tiene = 0 (la media) y = 1
(desviacin tpica)
En el intervalo entre 1,96 y + 1,96 se encuentra el 95% de
la muestra.

Para obtener datos concretos se traslada la grfica concreta a una


tabulada (donde x = 0)
Para trasladar un dato: zi = (xi x)/S

zi = Valor trasladado
xi =Valor original de la grfica
x = Media de la grfica no

tabulada
S = Desviacin tpica en grficas
continuas
= Desviacin tpica en grficas
continuas
Ej: En una distribucin de tipo normal y con 1 grado de libertad que
representa la edad de una poblacin de media (x) 75 quiero saber la
probabilidad de que existan individuos de 73 aos y de 75.
Ej: zi = (73 75)/2 = -1
El rea de la distribucin
tabulada
zi = (78 75)/2 = 3/2 = 1,5
es la misma que
la original
Por la tabla oficial y refrendada por la comunidad s que el rea que queda
por encima de 1,5 (que el 68 de nuestra grafica) es 0,0668. Esto significa
que P (x>78) = 0,0668

Ejercicio 1
En una distribucin normal
x = 172,5
1
= 6,25
distribucin
1 p (x>180)?
2 P (160<x<180)?
2

z = (180-172,5)/6,25 = 1,2
El rea correspondiente a 1,2 en una
Z es p (x>180) = 0,1151 (mirar grfica)

z = (160-172,5)/6,25 = -2
El rea correspondiente a 2 en una
distribucin
Z es p (x>160) = 0,01228 (mirar grfica)
Como la distribucin es simtrica puedo
convertir el -2 en +2 pues el rea que deja
por encima de +2 es la misma que queda por
debajo de -2
Para calcular el rea entre 160 y 180 restar
a 1 p (x>180) y p (x>160) (en este caso
resto 1 porque 160 est por debajo de la
media)
P (160<x<180) = 1- 0,1151 - 0,01228 = 0,8621
Distribuciones de probabilidad
Ji-cuadrado: En ella se incluye el concepto de grados de libertad.
Es asinttica en +
Se define como Z12 + Z22 + Zn2
La relacin entre ji-cuadrado y la normal es que Z2 = (chi)
T-Student: Distribucin tabulada.
Conforme ganas en grados de libertad la forma de la curva va
combando hasta adquirir la de una distribucin normal ( grados
de libertad es idntica a una normal).
Que sea igual significa que el rea que queda a cada lado de un
punto es la misma en ambas.

Otras distribuciones
F de Fisher Snedecor

Estadstico inferencial
Inferenciar en estadstica es sacar conclusiones de la poblacin a partir de
un grupo representativo de la misma.
Estimacin puntual: Es un nmero que trata de estimar un parmetro
concreto de la poblacin. Se saca de la muestra. Ej: al
decir que la edad media (x)= 15 podemos decir que
= 15
Estimacin por intervalo: Rango de valores en el que con una determinada
certeza se encuentra el parmetro de la poblacin
que queremos conocer. Ej: la media de edad 13-17
Contraste de hiptesis: Se plantea una previsin sobre los datos y luego se
comprueba. Ej: es posible que la media de la
distribucin sea de 21 aos? Para averiguarlo se
construye un estadstico que responde a la pregunta.
Estimador: n que trata de acercarse al verdadero valor del parmetro que
l se encarga de estimar. Ej: Media, varianza, proporcin.
Fuentes de error
Error: cualquier desviacin entre mi medida y el valor real de aquello que
se trata de medir.
Aleatorio
Ataca a la precisin de los datos obtenidos.
Es debida a la variabilidad biolgica y a los defectos en los instrumentos
de medida.
Se produce con la misma variabilidad en todos los individuos.
Mide la dispersin. A ms dispersin menos precisin.
Error estndar: Cuantifica la variable aleatoria asociada al proceso de
muestreo (si de cada 100 personas estudias solo 10 cometes
un error)
No se puede corregir el error aleatorio, tratamos de conocer su valor.
Sistemtico
Tambin llamado sesgo.
Los valores obtenidos se separan de forma sistemtica del valor real. Esto
afectar a la validez del experimento.
Posibles situaciones
1

Preciso
No preciso

Preciso

4
No preciso

Vlido
No vlido
No vlido
Intervalo de confianza

Vlido

Rango de valores en el que con una determinada certeza se encuentra el


parmetro de la poblacin que queremos conocer.
Ej: El valor de x (cualquier parmetro) est entre a y b (unos valores
determinados) con una seguridad del tanto por ciento (intervalo de
confianza)
Parmetro estimador Z/2 x EE
=est contenido
Estimador = el que te den (la media, la proporcin)
Z = tipo de distribucin (normal, binomial, t-student.)
/2 = rea que deja el punto por encima de l
EE = Error sistemtico (de la media EEm de la proporcin EEp.)
Hay que tener en cuenta que si sale negativo se le puede cambiar el
signo (pues el rea que deja el negativo por debajo es la misma que la que
deja el positivo por encima) pero despus las reas de los dos valores
extremos obtenidos hay que restarse lo a 1.
Debido al error estndar, si realizas el mismo experimento dos veces,
obtendrs dos valores distintos para el mismo parmetro (media,
desviacin tpica.) esto implicara una necesidad de hacer n veces
(cuanto ms grande sea n ms preciso) el experimento y crear una nueva
grfica con estos valores obtenidos.
Superposicin de grficas
definitiva

Grfica

Teorema del lmite central


No es necesario realizar infinitas veces un experimento, para hallar la
media de las medias y la desviacin tpica de la grfica de la media de las
medias, segn el teorema central del lmite, la media de las medias es la
primera media que te salga y la desviacin tpica de las medias es la
primera desviacin tpica que te salga.
De esta manera:
x Z/2 x EEm
esto implica
Z/2 x EEp

EEm = S/n
EEp = pq/n
ms estrecho

A mayor n menor EE
intervalo de confianza

1 = nivel de confianza
Si < 0,05 % 1 = 95%
Esto significa que con una seguridad del 95% el verdadero parmetro de la
poblacin de la que ha salido la muestra estar comprendido entre esos
dos valores.
Cuanto mayor certeza de acierto se quiera tener 1 - ser ms grande
pero habr ms distancia entre los dos valores.
Ej: IC 95% del parmetro OR= 1,3 (1,1-1,5)
Esto significa que con una seguridad del 95% el valor obtenido del
parmetro OR (1,3) est comprendido entre 1,1 y 1,5. Significa tambin
que en el 5% de los casos el valor real del parmetro o se encuentra
ah.
Existen ciertos factores que contribuyan a mejorar el intervalo de
confianza
EEm = S/n
De aqu se deduce que a mayor n menor EE lo que
implica un intervalo
EEp = pq/n
de mejor calidad.
Limitaciones del tamao muestral
Al calcular IC de parmetros debemos utilizar una distribucin tabulada
para obtener los valores a pesar de que los datos de la distribucin
original no sigan esta distribucin.
Se entiende que por el T central del lmite la media de las medias seguir
una distribucin tabulada.
-En las medias
Si se trata de una muestra grande (n 30) la distribucin utilizada ser la
distribucin normal (Z o N).
Por el contrario si la muestra utilizada es pequea (n < 30) se utiliza la tStudent.
Si no estamos seguros de cual utilizar podemos utilizar siempre la tStudent.
-En las proporciones
Si se trata de una muestra grande (n 100) la distribucin utilizada ser
la distribucin normal (Z o N).
Por el contrario si la muestra utilizada es pequea (n < 100) se utiliza la tStudent.
Si no estamos seguros de cual utilizar podemos utilizar siempre la tStudent.

Recordatorio de las caractersticas de la grfica t-Student


Conforme aumentan los grados de libertad ( o g. l.) cada vez el ms
similar a Z. De esta forma si n = la distribucin es Z.
Si n es grande ( 30) se puede considerar que los valores de la t-Student y
de Z son los mismos.

Ejemplo 1
x = 178

s = 2 n = 30

IC 95%?

EEm = S/n

178 1,96 x (2/30) =(177,284-178,715)


Ejemplo 2
x = 178

s = 2 n = 15

IC 95%?

EEm = S/n

Utilizo la t-Student con 14


178 2,145 x (2/30) =(177,254-178,745)
Ejemplo 3
x = 178

s=2n=5

IC 95%?

EEm = S/n

Utilizo la t-Student con 4


178 2,776 x (2/30) =(177,254-178,745)
Conclusiones
A menor n (menores g. l.) mayor posibilidad de error (intervalo ms ancho)
luego el rea del IC es mayor (mayor Z/2)
Proporciones
Para que podamos decir que la distribucin proveniente de la proporcin
de las proporciones de una poblacin siga una distribucin Z debe
cumplirse que:
n 100
n x p 5 (el tamao muestral por la proporcin con esto te aseguras
de que no es una proporcin extrema)
Ejemplo 1
n = 120
1 experimento = 0,6 = 60%

2 experimento = 0,63 = 63%


la proporcin est en
3 experimento = 0,59 = 59%

p = 0,6

q = 1-0,6 = 0,4

IC95%?

EEp = pq/n

Segn el T central del lmite que


el 60%.

Z/2 x EEp 0,6 1,96 ((0,6 x 0,4)/120) = (0,5123-0,6876) =


(51,23%-68,76%)
Contraste de hiptesis
Una hiptesis es una previsin acerca de uno o varios caracteres de la
poblacin.
Contraste de hiptesis: es una prueba estadstica en la que comprobamos
en qu medida la hiptesis planteada es incorrecta Se
ha realizar a travs de un estadstico.
Tipos de prueba
Conformidad: Cul es la probabilidad de que mi muestra o un parmetro
de ella haya salido de una poblacin concreta?
Puede ser sobre un valor terico (probabilidad de que una
media)
Puede ser sobre una distribucin (probabilidad de que la
poblacin tenga una
distribucin como la ma Z)
Homogeneidad: Tratan de ver si dos muestras provienen de la misma
poblacin. Se estudia la proporcionalidad de las medias
proporciones y varianzas.
Relacin: Busca si la relacin entre dos variables en una muestra (x e y) es
real y con fuerza suficiente para ser aplicada a una
poblacin. Se observa si una variable condiciona a otra.
Para el contraste de hiptesis hay que seguir 4 pasos:
1 Formulacin de la hiptesis.
2 Comparar H0 con los datos.
3 Calcular el p valor.
4 Decisin de rechazo/no rechazo de la hiptesis nula.
Formulacin de hiptesis
Las hiptesis se formulan siempre sobre la poblacin.

Hiptesis nula (H0): En ella se pone lo que el azar defendera. El contraste


consiste en demostrar que es falsa. La hiptesis nula
siempre es positiva. Ej: H0: = 6
Hiptesis alternativa (H1): Expone justo lo contrario a lo que la nula dice.
Ej: H1: 6
Comparar H0 con los datos
Para ello es necesario construir un estadstico de contraste. Este
estadstico es una combinacin de los que los datos muestran y el azar
(efecto/azar) El azar es determinado por el EE.

Calcular el p valor
Se calcula la probabilidad de haber obtenido los resultados en el caso de
que el azar fuera el nico o principal factor que influyera en el
experimento (es decir comprobar si H0 es cierta o no)
Se considera que el p valor es grande si es > 0,05
Decidir si H0 es vlida o no en funcin del p valor
Si el p valor es menor que 0,05 se considera que H0 es falsa y que por
tanto el experimento es vlido.
Nivel de significacin
Es un porcentaje fijado a priori que marca el valor mximo que puede
tomar el p valor par que la hiptesis nula no pueda ser rechazada.
Es el porcentaje de veces que ests dispuesto a equivocarte cuando
rechaces H0.
Fisher estableci que el estndar deba ser 0,05
El rea que abarca el p valor se denomina rea de rechazo o regin crtica.
Contrastes unilaterales y bilaterales
Unilaterales: Se asume que la diferencia entre y el p valor ocurre en una
direccin.
Ej: H0: < x

Bilaterales: no se asume una direccin en la diferencia. Ej: H0: = x

Tanto si utilizas un contraste unilateral como bilateral, la zona de rechazo


es la misma, sin embargo en la unilateral toda esta zona se acumula en
uno de los lados mientras que en la bilateral en necesario partir el rea
por dos. Es por esto por lo que con un mismo p valor dependiendo del
contraste que utilices tu experimento ser vlido o no.
Formas de dar el p valor
- En ciertas ocasiones en las que el p valor es inferior a (la zona de
rechazo) se puede demostrar tambin que es mucho menor de tal forma
que puedes decir no solo que p < 0,05 si no que puedes decir que p <
0,01 o incluso que p < 0,001.
- En otras ocasiones puedes demostrar que p < 0,05 pero no llega a ser
menor que 0,01 esto se escribe as p (0,05-0,01) = 0,067 (luego se suele
dar el p valor exacto).
- Cuando el p valor es mucho menor de 0,001 (p << 0,01) se dice que es
no significativo.

Caractersticas y limitaciones del p valor


-El p valor no mide la relacin de intensidad entre los efectos y el azar.
-Depende del tamao muestral (n). As a mayor n menor EE menor
I.C. (intervalo ms estrecho) porcentaje total de probabilidad de acierto
ms significativo, con ms fuerza y fiabilidad.
-No mide asociaciones causales. Es decir, si te sale un p valor grande esto
no significa que hayas hecho algo mal en el experimento, ni que no hayas
tenido en cuenta una variable puede ser que algo de eso haya pasado
pero una cosa no implica la otra.
-A B estn asociadas? p < 0,05 A B estn asociadas.
Si descubres que existe una variable C que influye en A y/o B entonces tu
experimento no es vlido a pesar del valor de p valor.
-El p valor no es la probabilidad de equivocarme rechazando la hiptesis
nula.
Errores de contraste
Realidad desconocida
H0
Acierto
(1-)
Decisin

Grafica 1

Error tipo I

H1
Error tipo II
H0

Acierto
(1- )

H1 Potencia estadstica

Cuanto ms se reduzca el rea de ms se aumenta el de

Grfica 2

Si aumenta n disminuye por lo que las distribuciones se estrechan y el


rea de contacto entre y disminuye.
Al aumentar un tipo de error disminuye el acierto complementario y
viceversa.
Ej: Si disminuye (1- ) aumenta
Si disminuye (1- ) aumenta.
Test paramtricos y no paramtricos
1 Test paramtricos
Se utilizan en grficas que sigan una distribucin tipificada o estndar (Z,
t-Student, F de Fisher, etc.)
Si no siguen una distribucin normal pero n es grande (n > 30) entonces
se pueden utilizar estos test.
Ej de test paramtricos: ANOVA, ANOVA med pop, t-Student muestra ind,
etc.

2 Test no paramtricos o de distribucin libre


Si no tienes informacin sobre la forma que sigue tu distribucin y n < 30
no puedes utilizar los test paramtricos, se utilizan entonces los no
paramtricos.
Estos test no se basan en la estimacin de parmetros, y no dependen de
la distribucin pues de ser as no tendran sentido.
Contraste con un valor terico
1
2
3
4

Plantear H0
Construir un estadstico (efecto/azar)
Calcular/aproximar el p valor.
Decisin de rechazo/no rechazo de H0

En el contraste de proporciones si no tienes informacin sobre el tipo de


distribucin que sigue se puede considerar que sigue una distribucin Z si
n > 100.
En el contraste de medias si no tienes informacin sobre el tipo de
distribucin que sigue se puede considerar que sigue una distribucin Z si
n > 30.
Ejemplo 1 contraste de una proporcin
En una muestra con una distribucin Z de 22 individuos se obtiene una
proporcin del 54,54% de individuos fumadores. Qu probabilidad hay de
que esta muestra haya salido de una poblacin con una proporcin de
50%?
n = 22
Pm= 0,5454
H0 : = 0,5
H1 : 0,5

Z = IPm - H0I/ (p x q/n) = I0,5454 0,5I/ (0,5454 x 0,4646/22) = 0,4828


0,4828 es el punto de la distribucin Z que deja el rea del p valor.
Por la tabla A(0,4828) = 0,336
En un contraste unilateral encontraramos que esta es el rea que deja Z
sin embargo hemos hallado solo uno de los lados por lo que hay que
multiplicar el rea x 2.
0,336 x 2 = 0,66
p valor = 0,66

-1,96

-0,482

0482

1,96

p valor >> 0,05


0,482 > 1,96? No No rechazo H0
Zexperimento< Z0,025 No rechazo H0
Otra resolucin
Pm= 0,5454
IC95%: Pm 1,96 x p x q/n = (33,74%- 75,35%)
IC99%: Pm 2,57 x p x q/n = (27,2%-81,99%)

Ejemplo 2 contraste de la media


En una muestra con una distribucin t-Student de 60 individuos en la que
se quiere estudiar la concentracin en sangre de un factor F se obtiene
que la media es de 23mg/dl con una desviacin tpica de 2. Qu
probabilidad hay de que esta muestra haya salido de una poblacin con
una media de 22mg/dl?
n = 60
x= 23
s= 2

= 22
H0 : = 22
H1 : 22

t = IPx - I/ (s/n) = I23 - 22I/ (2/60) = 3,87


Buscamos en la tabla el rea del p valor
Para utilizar la tabla hay que tener en cuenta que los g.l. o en la tStudent son siempre (n-x) donde x es el nmero de parmetros a
determinar en este caso 1 n = (60-1) = 59

2,66

2,915

-3,87

0482

3,87

El 2 deja un rea de 0,025 (por la tabla)


A(2) > A(3,87) p < 0,05
A(2,66) > A(3,87) p < 0,01
A(2,87) > A(3,87) p < 0,005
Puesto que el p valor es < 0,05 rechazo H0
Anlisis de la normalidad, como saber si tus datos siguen una distribucin
normal
Existen tres tipos de criterios: descriptivos, grficos y el contraste de
hiptesis.
Descriptivos:
Deben cumplir una serie de condiciones:
Valores mximos y mnimos: No existirn valores ms all de 3 .
Contraste de la simetra: Se buscan colas derecha e izquierda. El
valor absoluto del producto del coeficiente de
asimetra y el EEasimetra debe ser < 2
Contraste de curtosis: Se busca si es leptocrtica, platicrtica o
mesocrtica. El valor absoluto del producto del
coeficiente de curtosis y el EEcurtosis debe ser < 2
Pruebas de normalidad
Kolmogorov-Sminov
Test de Shapiro-Wilks
Si el tamao muestral es muy grande con una pequea
variacin de se obtiene un valor en el test significativo. Esta
reduccin de esta significacin se consigue mediante una
reduccin de n (para lo que se utiliza el test de Shapiro-Wilks)
Grficos
Histograma
Box-plot
Grficos Q-Q (cuartil-cuartil)
Transformacin de una variable (normalizacin de una variable)
Si se trabaja con el lg de la media se obtiene la media geomtrica.
Si n > 30 no hay que hacer anlisis de la normalidad.

Inferencia de proporciones

Muestras independientes: Se consideran muestras independientes a


aquellas que han sido seleccionadas por separado y
no tiene nada que ver entre s.
Muestras relacionadas:
Autoemparejamiento: Comparacin de un individuo en un momento
determinado consigo mismo en otro momento.
Ej: Juan a las 9:00 amJuan a las 12:00 am
El contraste tendr ms parecido que si se
compara con cualquiera de la poblacin.
Naturales: Gemelos.
Casos y controles emparejados: Ej: Enfermos
Sanos
Casos
Controles
A un caso (enfermo) de 40 aos, mujer, HTA1
HTA1
de raza blanca se le busca un control(no
enfermo) que sea mujer, de 40
aos y de raza blanca.
Variables cualitativas o estadsticos de contraste para contrastes de
homogeneidad
Existen dos tipos: nominales y ordinales
Para realizar estos contrastes se utilizan tablas de contingencia
Ej:
Mujeres
Hombres
10

20

15

30

30

25

50

B 45
75

1 Nominales
-Si son dos grupos
Debe cumplirse que en nmero de individuos por la proporcin sea x
p>5
Construccin del estadstico
H0 : 1 = 2
H1 : 1 2
Z = PA PB/EEdp(diferencia de proporciones)
EEdp = p x q ((1/n1)+(1/n2))
p = proporcin ponderada (pues si cada grupo tiene un n diferente habr
que darle importancia segn su n)

p = PA x nA + PB x nB/ nA + nB
Resolucin terica de un contraste de homogeneidad
Estos problemas se resuelven utilizando la 2 de Pearson, esa no se puede
utilizar si ms del 20% de los valores esperados son < 5
1 Planteamiento de la tabla
A

Marginales

O1.1./e1.1.

O1.2./e1.2.

Mujeres m1

O2.1./e2.1.

O2.2./e2.2.

Hombres m2

Marginales

n1

n2

2 Clculo los valores esperados (ex.y.)


a = e1.1. = (m1/N) x n1
b = e1.2. = (m1/N) x n2
c = e2.1. = (m2/N) x n1
columnas)/Suma total
d = e2.2. = (m2/N) x n2

Truco = (Total de filas x Total de

3 Clculo del punto en la grfica 2


Los g. l. o se calculan as g. l. = (n de filas - 1) x (n de columnas - 1)
2 = a + b + c + d= j
2 = ((Oi ei)/ei)
4 Clculo del rea en 2
En la distribucin 2 no se buscan /2, es decir, si = 0,05 se busca el
punto que deja un rea de 0,05. Esto se debe a que la 2 es una Z2 por lo
que hacer esto
en una 2 equivale a hacer esto
en una Z
5 Rechazo de H0
Buscas en la distribucin el rea que deja j (el p valor) si p valor < que
entonces rechazas H0.

Alternativas en caso de no poder utilizar la 2 de Pearson


Correccin de Yates o por continuidad
En vez de utilizar la ecuacin de Pearson 2 = ((Oi ei)/ei) utiliza
algo similar
2 = ((Oi ei)-0,5/ei)

Agrupar categoras
Ej: si al hacer el estado civil de una muestra ves que tienes muy
pocos viudos, puedes cambiar tu categora por gente que vive sola.
De esta manera pierdes informacin sobre una categora concreta
pero ganas informacin sobre otra categora ms general.
Test exacto de Fisher
Normalmente calculamos un valor aproximado del p valor, si la tabla
es de 2 x 2 el test exacto de Fisher nos da el valor exacto del p valor.
Ejemplo 1
Tienes dos muestras distintas. La muestra A est compuesta por 500
individuos y tiene una proporcin de fumadores del 32%, la muestra B
tiene 500 individuos y una proporcin de fumadores del 47% Cul es la
probabilidad de que las dos muestras provengan de una misma poblacin?
nA = 500
nB = 500

PA = 32% = 0,32
PB = 47% = 0,47

1 Resolucin por Z
Z = PA - PB/p x q ((1/n1)+(1/n2)) = -4,852
p = 500 x 0,32 + 500 x 0,47/100 = 0,395
A(4,852) = No existe, muy pequea
4,852 >> 1,96
A(4,852) << A(1,96)
p valor < 0,05 p valor < 0,01 p valor < 0,001
2 Resolucin por 2
O1.1.
O2.1.
O1.2.
O2.2.

=
=
=
=

500
500
500
500

x 0,32
- O1.1. e1.1. = e2.1. = ((295 x 500)/1000) = 197,5
x 0,47 e1.2. = e2.2. = ((605 x 500)/1000) = 302,5
- O1.2.
100/197,5

235/197,5

340/302,5

265/302,5

Mujeres 395
Hombres 605
500

500

1000

(ex.y. Ox.y.)2
(100 - 197,5)2 = (235 - 197,5)2 = (340 - 302,5)2 = (265 - 302,5)2 = 140,25
2 = (140,25/197,5) + (140,25/197,5) + (140,25/302,5) + (140,25/302,5)
= 23,54
2experimento < 20,05
p valor < 0,001

p valor real = 0,0000012

Se puede rechazar H0

Ejemplo 2
Se estudian la presencia de cefaleas en 3 grupos distintos (pescadores,
mariscadores y voluntarios). Y sale esta tabla:

Pescadores

No

Mariscadores

137

78

44

51

181

129

Voluntarios
Cefaleas 409
194
76

cefaleas 171

270

580

Puede decirse que la proporcin en cefaleas e los 3 grupos est


relacionada?
a = e1.1. = (409/580) x 181 = 127,643
b = e1.2. = (409/580) x 129 = 90,967
c = e1.3. = (409/580) x 270 = 190,396
d = e2.1. = (171/580) x 181 = 53,363
e = e2.2. = (171/580) x 129 = 38,032
f = e2.3. = (171/580) x 270 = 79,603

Pescadores
137/127,64
3

409
No

Mariscadores
Voluntarios
194/190,39 Cefaleas
78/90,967
6

44/53,363

51/38,032

181

129

76/79,603

cefaleas

171
270

580

(ex.y. Ox.y.)2
a = (127,643 137) 2 = 87,553
b = (90,967 78) 2 = 168,143
c = (190,369 194) 2 = 13,184
d = (53,363 44) 2 = 87,665
e = (38,032 51) 2 = 168,16
f = (79,603 76) 2 = 12,981

2 = (87,553/127,643) + (168,143/90,967) + (13,184/190,369) +


(87,665/53,363) + (168,16/38,032) + (12,981/79,603) = 8,831
=2
p valor = A(8,831) < A(5,991) = 0,05 p valor < 0,05 p valor < 0,01
Rechazo H0
Variables cualitativas nominales relacionadas
Con una misma persona (autoemparejamiento)
Estadstico 2Mcmenar = (Ib cI 1)2/b + c
Ejemplo terico
Trat 2
xito

Fracaso

xito

Fracaso

Trat 1

b y c son los pares discordantes. No nos interesan los casos en los que
todo fueron xitos (a) o fracasos (d), puesto que si c es ms alta el
tratamiento 2 es mejor y si b es ms alta el tratamiento 1 es mejor.
Ejemplo 1

Paciente
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20

Metanizol
1
0
1
0
1
1
1
1
0
0
0
1
1
0
1
1
0
1
0
1

Ketorolaco
1
1
1
0
0
1
1
1
1
1
1
1
1
0
1
1
1
1
1
1
Ketorolaco
xito
Fracaso
11

xito

Fracaso

Metanizol

2Mcmenar = (I1 6I 1)2/1 + 6 = 2,286


o g. l. = 1
A(2,286) > A(3,84) = 0,05 p valor > 0,05 No rechazas H0
Ejemplo 2
Sujeto
1
2
3
4
5
6
7
8

Folleto
0
0
1
1
0
1
0
0

Charla
1
1
0
1
0
1
1
0

9
10
11
12
13
14
15
16
17
18
19
20

0
0
0
1
0
0
0
0
0
0
0
1

1
1
1
1
0
1
1
1
1
1
0
1

Ketorolaco
xito
Fracaso
3

12

xito

Metanizol

2Mcmenar = (I12 2I
o g. l. = 1

Fracaso
1)2/12 + 2 = 5,786

A(5,786) < A(3,84) = 0,05 p valor < 0,05 p valor < 0,025 Rechazas H0
Una variable ordinal y otra nominal
-Utilizacin de la 2 de tendencia lineal: nos indica si existe una tendencia
lineal (crecimiento-decrecimiento) de un carcter segn otro carcter. Ej:
fumadores segn la clase social.
Ejemplo 1

Nivel
de
estudios
Grupo

n
20
50
30
100

Fumadores
13
20
10
25

200

68

Tanto x 1 de fumadores
Grupo 1
0,65
0,4
Grupo 2
0,33
Grupo 3
0,25
4
0,34

La proporcin de fumadores cambia segn el nivel de estudios?


A simple vista parece que s.
Valores esperados

e1.1.
e1.2.
e1.3.
e2.1.

=
=
=
=

34%
34%
34%
34%

de
de
de
de

20
50
30
100

Construimos el estadstico de contraste


2 tendencia lineal = 11, 56
o g. l. = 3
A(11,56) < A(7,815) = 0,05 p valor < 0,05 p valor < 0,01 Rechazas H0
Para ver la tendencia de cambio utilizamos la 2tendencia lineal
2tendencia lineal = 2,99
A(7,81) = 0,05 A(7,81) < A(2,99) No rechazo la H0 no puedo demostrar
tendencia de cambio lineal.
Construir un IC para resolver un problema de contraste de proporciones
Dado que Z = Efecto/azar = PA - PB/p x q ((1/n1)+(1/n2))
Efecto = Estadstico = PA - PB
Azar = EEdp = p x q ((1/n1)+(1/n2))
IC estadstico deseado estadstico calculado Z/2 x EE
IC 1 2 PA - PB Z/2 x p x q ((1/n1) + (1/n2))
La H0 plantea que 1 = 2 1 - 2 = 0
Si te dan un intervalo entre el 3% y el 15% podemos ver que el 0 no est
incluido, lo que implica no existe ninguna probabilidad de que la H0 sea
cierta (pues no est incluida en el intervalo).

El mtodo para analizar la intensidad de relacin de dos variables es el


odd ratio
Diagrama de decisin para la homogeneidad de dos medias
Condiciones de uso: La muestra debe tener ms de 30 individuos, en caso
contrario sus datos deben seguir una distribucin normal.
En caso de que esto no se cumpla, podemos intentar
transformar la variable para que esta siga una
distribucin normal
2 grupos
Grupos relacionados
n > 30

Var. Independientes
n < 30

n1 y/o n2 < 30

n1 y n2 30

t-student

Z?

Homogeneidad de varianzas

T central del lmite

Z?
S

No

Transformamos
paramtricos

S
t-pooled

No

t-separated

S
Transformamos

No

Test no
(U-MannWhitney)

Test no paramtrico (Wilcoxon)

Ms de 2 grupos
Anlisis de varianzas (ANOVA)
Si no se cumplen las condiciones de uso del ANOVA se usa el test de
Kriskal Wallis

Homogeneidad de varianzas
Una vez sabemos que nuestras variables son independientes y que son
(ambas mayores de 30 individuos, debemos confirmar que hay
homogeneidad de varianzas. Esto es por s mismo un contraste de
hiptesis independiente, pero gracias al estadstico de Levenne podemos
obtener el p valor directamente. Levenne plantea que H0 : S12 = S22 y: S12
S22, si el estadstico de Levenne es mayor de 0,05 rechazamos H 1 y
consideramos que hay homogeneidad de varianzas (en caso contrario no).
SI no hay homogeneidad de varianzas el contraste se hace un igual pero
con una pequea penalizacin a los grados de libertad (se aplica a la tseparated). = ((S12/ n1) + (S22/ n2))/(((S12/n1)2/(n + 1)) + ((S22/n2)2/(n + 1)))
Esto es una reduccin pues siempre debe suceder que < (n1 + n2 2).
Esto significar que la curva se hace cada vez ms plana (como la t y la Z)
t-separated
Contraste para 2 medias de variables independientes con ambos grupos >
30 y sin homogeneidad de varianzas
Se hace como cualquier otro contraste se plantean hiptesis nula y
alternativa (H0 y H1).
Calculamos despus el estadstico mediante el cociente efecto (x1 x2) y el
azar (error estadstico de la diferencia de medias).
EEdm = (S12/n1 1) + (S22/n2 -1)

t-separated = (x1 x2)/(S12/n1 1) + (S22/n2 -1)


Se lleva a cabo una reduccin en los grados de libertad
= ((S12/ n1) + (S22/ n2))/ (((S12/n1)2/ (n + 1)) + ((S22/n2)2/ (n + 1)))

t-pooled
Contraste para 2 medias de variables independientes con ambos grupos >
30 y con homogeneidad de varianzas
t-pooled = (x1 x2)/S12 ((1/n1 1) + (1/n2 -1))

EEdm = (S2/n1 1) + (S2/n2 -1)


1))/ (n1 + n2 2)

S2sale de S2= (S12x (n1 - 1) + S22x (n2 -

El intervalo de confianza lo construimos a partir del parmetro que


tenamos (la diferencia de medias)
IC 1 2 d t/ EEdm
IC 1 2 xA - xB t/ x (S2/n1 1) + (S2/n2 -1)

Ejemplo 1
Se realiza un estudio de la concentracin de homocistena plasmtica en
sangre y su relacin con el tabaco. Se obtienen los siguientes resultados:
Fumadores
No fumadores
X
18,579
17,545
9,26
8,43
S
85,8
71,1
S2
19
11
N
Diagrama:
Son 2 variables relacionadas o independientes?
Independientes
Son ambos grupos mayores de 30 individuos?
No
Sigue la grfica una distribucin normal?
S
Hay homogeneidad de varianzas?
S pues el estadstico
de Levenne
es < 0,05
Utilizo entonces la t-pooled
S2= (S12x (n1 - 1) + S22x (n2 - 1))/ (n1 + n2 2) = (85,8 x 18 + 71,1 x 11)/26
= 80,55
EEdm = (S2/n1 1) + (S2/n2 -1) = 3,4

t-pooled = (x1 x2)/S12 ((1/n1 1) + (1/n2 -1)) = (18,579 17,545)/ 3,4 =


0,304
= 28
Al ser un contraste bilateral el rea correspondiente al punto obtenido
tengo que multiplicarla por 2. Esto implica que:
A(2,048) = 0,05 A(2,048) < 2 x A(0,304,28) No rechazo la H0 no puedo
demostrar la concentracin de homocistena plasmtica sea mayor en
fumadores que en no fumadores.
Si ahora hago un intervalo de confianza:
IC 1 2 d t/ EEdm = 1,034 2,048 x 3,4 = (-5,929; 7,997)
Dado que no hemos podido rechazar la hiptesis nula podemos ver como
el 0 est incluido. Pero segn este intervalo la diferencia de medias estar
comprendido entre un valor positivo y otro negativo que si es positivo la
diferencia entre fumadores ser mayor que entre no fumadores, y si es
negativo, al revs.
Ejemplo con datos emparejados (con una misma persona, grupo, etc)
Se mide la concentracin de colesterol en un mismo grupo de personas en
un momento determinado y seis meses despus, y se obtienen los
siguientes resultados.

1
2
3
4
5

Col1

Col2

Col2 Col1

130
130
145
18

230
145
130
160
.

100
15
-15
-20
..

Para reducir las dos variables a una sola (con la que es ms fcil trabajar)
se construye una nueva variable como diferencia de las dos (t1 t0) que
tiene su media (de la diferencia de medias) y su desviacin tpica (de la
diferencia de medias).
H0: dif = 0
H1: dif 0
Tenemos un estadstico (el de diferencia de medias) y un valor terico con
que compararlo. Esto significa que tenemos que hacer un contraste con
valor terico.

T = ()/()

plpp