Vous êtes sur la page 1sur 50

Estadstica Inferencial -Ao 2009-

ESTADSTICAS EN SALUD II
ESTADSTICA INFERENCIAL

AUTORA:
Mg. Silvana Torres

-AO 2009-

-1Mg. Silvana Torres

Estadstica Inferencial -Ao 2009-

PRLOGO
Es de fundamental importancia que los profesionales de salud conozcan la ciencia
estadstica, asumiendo que esta es una herramienta imprescindible para poder cuantificar
y analizar todos los aspectos relacionados con el proceso salud-enfermedad. Es conocido
que la informacin confiable y correctamente analizada es la base de las decisiones
coherentes.
Tambin como herramienta bsica de la investigacin, el conocimiento de la
metodologa estadstica es indispensable, ya que la investigacin trabaja con fenmenos
eminentemente variables. El concepto de variabilidad como la sistematizacin y
organizacin racional de una metodologa para el anlisis y conocimiento de fenmenos
cambiantes, es un componente de conocimiento relativamente nuevo.
Decimos que la estadstica es un conjunto de procedimientos que tienen por
finalidad recolectar, elaborar, caracterizar y

analizar un conjunto de datos. Cuando

hablamos de anlisis estadstico es necesario puntualizar que este comprende dos grandes
reas de la metodologa estadstica: el anlisis descriptivo y el inferencial. El primero, ms
ampliamente conocido, consiste en describir un conjunto de datos (recolectarlos,
presentarlos en forma tabular y grfica, calcular las medidas de resumen, etc.), para
interpretar

el comportamiento de las variables. El anlisis inferencial, bastante ms

complejo que el anterior, consiste en aplicar determinadas tcnicas estadsticas, para tratar
de generalizar o inferir resultados en la poblacin a partir del anlisis de una parte de ella
(muestra).
Es obvio que para poder comprender las tcnicas de estadstica inferencial es
imprescindible

manejar

con

fluidez

la

metodologa

de

estadstica

descriptiva,

conocimiento que el alumno de esta materia posee previamente. En este curso


estudiaremos un concepto ms amplio de la metodologa estadstica, que no slo
contempla la descripcin de datos, sino bsicamente el conocimiento de herramientas que
le permitan al alumno aplicar e interpretar algunas tcnicas inferenciales bsicas
(muestreo, estimacin de parmetros, pruebas de hiptesis, etc).

-2Mg. Silvana Torres

Estadstica Inferencial -Ao 2009-

INDICE
PRLOGO ....................................................................................................................................................................... 2
CAPTULO I-CAMPOS DE LA METODOLOGA ESTADSTICA......................................................................... 4
reas de la Estadstica ............................................................................................................................................... 4
Variables ...................................................................................................................................................................... 5
Medidas Descriptivas ................................................................................................................................................ 7
Parmetros y estadsticos .......................................................................................................................................... 8
CAPTULO II- NOCIONES BSICAS DE MUESTREO........................................................................................... 9
Poblacin...................................................................................................................................................................... 9
Generalidades ......................................................................................................................................................... 9
Definicin ................................................................................................................................................................ 9
Muestreo..................................................................................................................................................................... 10
Definiciones .......................................................................................................................................................... 11
Ventajas del muestreo: Razones para realizar un muestreo ......................................................................... 11
Diseo de muestreo.............................................................................................................................................. 12
Sesgos por muestras inadecuadas o informacin incompleta...................................................................... 12
Mtodos de muestreo................................................................................................................................................ 13
Muestreo no probabilstico................................................................................................................................... 13
Muestreo probabilstico........................................................................................................................................ 14
Tamao de la muestra (n).................................................................................................................................... 15
CAPTULO III- MEDIDAS DE ASOCIACIN ENTRE VARIABLES .................................................................. 17
Relacin entre dos caractersticas cualitativas dicotmicas.......................................................................................... 17
Estudios Prospectivos o de cohorte .......................................................................................................................... 18
Riesgo Relativo .................................................................................................................................................... 19
Riesgo Atribuible.................................................................................................................................................. 20
Estudio retrospectivo o de caso control .................................................................................................................... 21
Odds Ratio de Exposicin al Factor ..................................................................................................................... 22
Estudios de Corte Transversal .................................................................................................................................. 23
Razn de Prevalencias .......................................................................................................................................... 24
Odds Ratio de Enfermedad................................................................................................................................... 24
Relacin entre variables cuantitativas .......................................................................................................................... 25
Coeficiente de Correlacin de Pearson..................................................................................................................... 26
Coeficiente de Correlacin de Spearman. ................................................................................................................ 29
Relacin entre dos caractersticas ordinales ............................................................................................................. 29
CAPTULO IV- ESTIMACIN DE PARMETROS ............................................................................................... 30
ESTIMACIN........................................................................................................................................................... 33
Estimacin Puntual................................................................................................................................................... 33
Estimacin por intervalos ......................................................................................................................................... 35
Estimacin de la media aritmtica........................................................................................................................ 36
Estimacin de una proporcin .............................................................................................................................. 38
Estimacin de medidas de asociacin................................................................................................................... 39
CAPTULO V- TEST DE HIPTESIS ESTADSTICA............................................................................................ 41
Tipos de pruebas de hiptesis....................................................................................................................................... 43
Procedimiento general de un test de hiptesis.............................................................................................................. 43
Prueba sobre una media................................................................................................................................................ 44
Prueba sobre una proporcin ........................................................................................................................................ 45
Prueba de Independencia o Test Chi Cuadrado (2) .................................................................................................... 45
ESTUDIOS ANALITICOS............................................................................................................................................ 48
BIBLIOGRAFA ............................................................................................................................................................ 50

-3Mg. Silvana Torres

Estadstica Inferencial -Ao 2009-

CAPTULO I-CAMPOS DE LA METODOLOGA ESTADSTICA


reas de la Estadstica
La metodologa estadstica se refiere al grupo de tcnicas o mtodos que se han
desarrollado para la recopilacin, presentacin, anlisis de datos y para el uso adecuado
de los mismos, con el objeto de fundamentar cientficamente las conclusiones y decisiones
que se asuman a partir de los mismos.
Las dos grandes reas de la metodologa estadsticas son:

Estadstica descriptiva: mediante estas tcnicas, ante un conjunto de datos,


se los describe y caracteriza; esto significa, una vez recolectados los datos, se
los presenta en forma tabular y grfica, y se calculan las medidas de
resumen (posicin y variabilidad); para luego ser analizados mediante la
descripcin de las caractersticas que se observan en los mismos.

Estadstica inferencial: consiste en aquellos mtodos mediante los cuales se


pueden realizar inferencias o generalizaciones acerca de una poblacin;
mediante procedimientos estadsticos basados en la teora de las
probabilidades, a partir de una muestra o parte de una poblacin. Es decir
que, a partir del anlisis de una parte de la poblacin (muestra), se puede
conocer el comportamiento de los fenmenos en la poblacin, midiendo y
controlando, a travs de la teora de las probabilidades, el grado de error
que se estara cometiendo por el hecho de estudiar las caractersticas en slo
una parte de la poblacin y no en la totalidad de la misma.
La inferencia estadstica comprende bsicamente tres grandes metodologas:
Tcnicas de muestreo
Estimacin de parmetros
Pruebas de hiptesis
Para poder entender y aplicar las tcnicas de estadstica inferencial es indispensable
el conocimiento de la metodologa bsica de estadstica descriptiva por lo que es
fundamental repasar los siguientes temas:
Presentacin de datos: tabular y grfica
Distribucin de frecuencias: absolutas y relativas

-4Mg. Silvana Torres

Estadstica Inferencial -Ao 2009-

Medidas descriptivas o de resumen: de variables cuantitativas (posicin: media,


mediana, modo, cuartos, etc; variabilidad: rango, desvo estndar, etc.), en
variables cualitativas (proporciones, razones, etc.)
Una vez que hayamos recordado los elementos bsicos de estadstica descriptiva,
debemos aceptar que todo el campo de conocimientos que abordaremos, se desenvuelve
en torno al manejo de datos cuantitativos inferidos (y a las tcnicas que ello implica), es
decir obtenidos a travs de operaciones matemticas y lgicas que nos permitan inferir
juicios con mrgenes de error cuantificados. Es decir, podremos conocer lo que ocurre en
una poblacin determinada con slo el anlisis de los datos de una muestra extrada de
ella: decidiremos si los resultados de una investigacin son demostrativos o no de las
hiptesis que nos hayamos planteado; emitiremos juicios acerca del comportamiento
futuro de un fenmeno (prediccin), todo esto en el terreno de las probabilidades, es decir,
sin certeza absoluta, sino con un mayor o menor grado de seguridad.
En sntesis, logrado un lote de datos como producto de una investigacin, el
tratamiento que le daremos ser diverso segn se haya trabajado con:
1) Una muestra y no el total de unidades de la poblacin: se podr inferir que es lo
que ocurre en la poblacin a la que pertenece la muestra estudiada, usando para
ello la metodologa de estimacin de parmetros.
2) Una hiptesis acerca del comportamiento de un fenmeno: se necesitar comprobar
la hiptesis enunciada durante la

investigacin, para lo que necesitaremos la

metodologa de pruebas de hiptesis.


3) El estudio de un problema en un momento cronolgicamente bien definido, pero
necesitamos inferir el comportamiento futuro de las variables: para esto
necesitaremos conocer los conceptos de prediccin.
Variables
Antes de avanzar en el desarrollo de las tcnicas bsicas de estadstica inferencial es
necesario recordar el concepto de variables y su clasificacin.
Definicin: es una caracterstica que puede tomar diferentes valores (no necesariamente
numricos) en las distintas unidades de observacin. Por ejemplo, edad, sexo, tiempo de
evolucin de la diabetes, tipo de tratamiento administrado, etc. Las propiedades o

-5Mg. Silvana Torres

Estadstica Inferencial -Ao 2009-

caractersticas susceptibles de tomar distintos valores o intensidades es lo que se conoce


con el nombre de variables.
Clasificacin: Si la variable presenta un atributo o cualidad se denomina cualitativa.
Si la variable presenta valores numricos es cuantitativa.
Las variables cualitativas a su vez se clasifican en nominales, cuando sus categoras no
presentan ningn orden preestablecido (por ejemplo sexo: varn o mujer); y ordinales
cuando las categoras de la variable tiene un orden preestablecido (por ejemplo nivel de
instruccin: primario, secundario, universitario)
Dentro de estas variables cuantitativas podemos distinguir dos tipos: las que pueden
variar slo en nmeros enteros o en fracciones bien definidas sin valores intermedios,
como por ejemplo: Nmero de hijos de una mujer: puede tener 1, 2, 3,hijos; nunca 1,5 o 3,8
hijos. Son por ello llamadas variables cuantitativas discontinuas o discretas.
Las que pueden variar en forma continua, como el contenido de hemoglobina en la
sangre, la presin arterial, estatura, edad, etc. son llamadas variables cuantitativas
continuas, estas pueden tomar cualquier valor entre un mximo y un mnimo.
Para determinar los grupos o categoras en la escala cualitativa basta con enunciar las
posibilidades que se presentan. Veamos algunos ejemplos:
Variable

Categoras

Varn
Mujer
Alfabetismo
Alfabeto
Analfabeto
Rendimiento
Bueno
Regular
Malo
Para el caso de las variables cuantitativas discretas se deben definir los intervalos de
Sexo

clase. Por ejemplo nmero de cigarrillos fumados presenta los siguientes intervalos de
clase:
0- 9: los que fuman menos de 10 cigarrillos
10-20: los que fuman desde 10 a 20 cigarrillos inclusive
+ 20: los que fuman ms de 20 cigarrillos
Mayor problema se presenta cuando se trata de escalas cuantitativas continuas pues
para determinar los intervalos de clases debemos tomar en cuenta varios aspectos:
-6Mg. Silvana Torres

Estadstica Inferencial -Ao 2009-

Siempre se pierde algo de informacin por el hecho de agrupar los datos.


Es necesario definir con claridad los lmites de estos grupos o intervalos de

clase, de modo que sepamos bien a qu intervalo pertenece una observacin


individual. Estos intervalos deben ser exhaustivos (tener en cuenta todos los
posibles valores) y mutuamente excluyentes. Por ejemplo la variable edad, los
intervalos podran ser: 0-4, 5-9, 10-14, 15-19, 20-24 aos, etc.
En resumen las variables se clasifican en:
Por su escala de medicin.

Cualitativas

Nominales

Ordinales

Cuantitativas

Discretas

Continuas

Por su lugar en la investigacin:

Independiente: que precede a la aparicin del fenmeno en estudio,


frecuentemente llamado causa o factores relacionados con el fenmeno
en estudio.

Dependiente: frecuentemente llamada efecto,

los valores que asume

dependen de otras variables. Es la variable principal que mide el


fenmeno que se quiere estudiar.
Medidas Descriptivas
Segn el tipo de variable que se estudie y los objetivos de la investigacin se
calcularn las medidas descriptivas correspondientes:
o En el caso de variables cualitativas:
Tasa
Razn
Proporcin
o En el caso de variables cuantitativas
Medidas de Posicin central

Media aritmtica
-7Mg. Silvana Torres

Estadstica Inferencial -Ao 2009-

Mediana

Modo

Medidas de Posicin no central:

Mnimo y mximo

Percentiles

Cuartiles

Medidas de Variabilidad o Dispersin

Desvo estndar

Rango

Rango inter-cuartos

o En el caso de relacin entre dos variables


Coeficiente de correlacin
Riesgo relativo
Odds Ratio
Parmetros y estadsticos
Si estas medidas, tambin designadas caractersticas son calculadas con los datos de
la poblacin se denominan parmetros, si estas son calculadas a partir de datos muestrales
son llamadas estadsticos.
Cuando no es posible calcular directamente los parmetros de la poblacin, estos
pueden ser estimados a travs del clculo de los estadsticos de las muestras.
Veamos algunos ejemplos de parmetros y estadsticos y los smbolos con los que
usualmente se representan:
Caractersticas
Media
Desvo estndar
Varianza
Correlacin
Proporcin
Riesgo Relativo
Odds Ratio

Smbolo del
Parmetro

RR
OR

Smbolo del
Estadstico
x
s
s2
r
p
RR
OR

-8Mg. Silvana Torres

Estadstica Inferencial -Ao 2009-

CAPTULO II- NOCIONES BSICAS DE MUESTREO


Poblacin
Generalidades
En cualquier investigacin, el inters central es la obtencin de conclusiones que
sean aplicables no solamente a quienes fueron escogidos para participar en ella; sino al
conjunto de la poblacin de la cual se obtuvo la informacin.
Uno de los primeros pasos en una investigacin, consiste en delimitar con exactitud
los elementos (personas, objetos, etc.) sobre los cuales se desea realizar el estudio. Los
elementos de una poblacin son las unidades de las cuales se busca informacin; son los
individuos, elementos, unidades elementales que forman la poblacin; stas son las
unidades de anlisis, y su naturaleza se determina mediante los objetivos de la
investigacin.
Definicin
La poblacin es el agregado de los elementos, siendo stos las unidades bsicas que
forman y definen la poblacin.
Poblacin: conjunto de unidades (individuos, objetos, instituciones, etc.) en las que
existe una caracterstica comn susceptible a ser medida y a partir de las cuales se
obtendrn los datos.
Es el agregado de los elementos que cumplen con un conjunto predeterminado de
criterios.
La poblacin puede estar constituida por personas, animales, registros mdicos,
nacimientos, muestras de laboratorio, accidentes viales, instituciones, etc..
El tamao de la Poblacin (N) es el total de unidades que la componen. Si la
poblacin tiene un tamao limitado recibe el nombre de poblacin finita, en estos casos es
posible obtener un listado o inventario de los elementos de la poblacin (por ej. Alumnos
de la Escuela de Enfermera). Por su parte una poblacin infinita o hipottica es aquella
que contiene una cantidad ilimitada o muy grande de elementos, por lo que resulta
imposible en la prctica producir un listado o inventario de ellos (por ej. portadores de
HIV).
Con fines didcticos se acostumbra a diferenciar dos tipos de poblaciones:
poblacin bajo estudio y poblacin objetivo. La primera representa la poblacin a partir
-9Mg. Silvana Torres

Estadstica Inferencial -Ao 2009-

de la cual se obtendrn los datos, o se extraer la muestra, denominndose tambin


poblacin muestreada; en tanto que la poblacin objetivo es aquella a la que se desea
generalizar los resultados del estudio. Generalmente ambas poblaciones son coincidentes.
Poblacin objetivo

Se requiere sentido comn para


hacer inferencias del muestreo a
la poblacin objetivo

Poblacin muestreada
Para hacer inferencias estadsticas
de la muestra a la poblacin
muestreada se requiere que la
muestra sea aleatoria

Muestra

Si todos los elementos que integran una poblacin poseen similares caractersticas,
es decir baja variabilidad, se dice que esta es homognea; en caso de no cumplir esta
condicin, la poblacin es heterognea, o sea que presenta mucha variabilidad. En sentido
estricto, las poblaciones humanas son siempre heterogneas, puesto que las unidades que
la componen presentan variaciones individuales respecto a una o ms caractersticas
personales (edad, sexo, raza, actividad laboral, nivel de instruccin, tipo de alimentacin,
etc.).
Si en un estudio de investigacin se obtiene la informacin de la totalidad de la
poblacin se denomina censo. Cabe destacar que los datos censales estn tambin sujetos a
error: errores de medicin.
Muestreo
Con frecuencia resulta muy difcil, y a veces imposible, desarrollar una
investigacin que comprenda el total de la poblacin, ya sea porque el nmero de
elementos es demasiado grande o infinito, porque estn distribuidos en forma muy
heterognea o porque la inclusin de todos los elementos de la poblacin generara
complicaciones o encarecera excesivamente el estudio. De all la utilidad del diseo de
muestras, con las que habindose operado adecuadamente, pueden obtenerse resultados
similares a los que se alcanzan incluyendo a todos los elementos de la poblacin.

- 10 Mg. Silvana Torres

Estadstica Inferencial -Ao 2009-

Definiciones
Muestra: es el subconjunto de unidades provenientes de la poblacin (parte de la
poblacin), que con algn criterio o sin l, son seleccionadas a los efectos de ser
estudiadas en una o ms caractersticas.
Es el subconjunto o parte de la poblacin en la que se llevar a cabo la investigacin
con el fin posterior de generalizar los hallazgos a la poblacin.
La cantidad de elementos que integran la muestra constituyen el tamao muestral
(n). El muestreo puede definirse como la seleccin de una parte de la poblacin con el fin
de hacer inferencias acerca de la totalidad de la misma.
Unidad de observacin: son los elementos de la poblacin en los cuales se medirn o
estudiarn las variables de inters.
Unidad de muestreo: es el elemento utilizado para seleccionar la muestra. En muchos
casos las unidades de observacin y muestreo coinciden ( Ej. Alumnos de la Facultad),
pero hay casos en que no (Ej. Si se desea estudiar las infecciones respiratorias agudas en
menores de 2 aos, no se tendra un listado de nios, sino que se tendra que tomar
muestras de casas para llegar a los nios)
Ventajas del muestreo: Razones para realizar un muestreo
1. Costo: las muestras al examinar parte de la poblacin es mucho menos costosa
que el censo. El costo es un argumento a favor del muestreo debido a que frecuentemente
una muestra puede proporcionar datos con la suficiente precisin y a un costo mucho ms
bajo que el censo.
2. Precisin: (calidad de informacin) se puede ejercer mucho mejor control sobre
los errores que no son de muestreo (fallas en las encuestas, respuestas incompletas,
informacin imprecisa, errores de medicin, errores de proceso, etc..) usando el muestro
en lugar del censo. Por ejemplo en una encuesta por muestreo generalmente obtenemos
mejor supervisin y entrenamiento de encuestadores; mayor control de respuestas y
procesos.
3. Tiempo necesario: las muestras producen informacin ms rpidamente por dos
razones principales: 1- tomar una muestra requiere menos tiempo que levantar un censo
y 2- el procesamiento de los datos toma menor tiempo.

- 11 Mg. Silvana Torres

Estadstica Inferencial -Ao 2009-

4. Cantidad de informacin: puede obtenerse informacin ms detallada debido a que


la muestra toma menos tiempo, menor costo y permite poner ms cuidado en la ejecucin.
( Ej. en el Censo 2001 se llev a cabo una muestra para conocer ciertas caractersticas de la
poblacin).
5. Pruebas destructivas: cuando la medicin implica la destruccin del elemento
poblacional la nica manera de realizar la investigacin es a travs de muestras. Ej.
Control de estados de conservacin de las vacunas (cadena de fro), efectividad.
Diseo de muestreo
El diseo de muestras tiene dos aspectos fundamentales: un proceso de seleccin, que
consiste en las reglas y operaciones mediante las cuales se incluyen en la muestra algunos
elementos de la poblacin; y un proceso de estimacin (inferencias) para calcular los
estadsticos de la muestra que son estimaciones muestrales de valores de la poblacin
(proporciones, medias, desvo estndar, etc.).
Otros aspectos importantes que se deben considerar en el diseo de muestras son:
Definicin de variables: especificar la naturaleza de las caractersticas, categoras
de clasificacin y unidades para expresarlas.
Mtodos de observacin: (mediciones) que incluye tanto la recoleccin como el
procesamiento de los datos.
Mtodos de anlisis estadsticos: reducen los datos de la encuesta a resultados que
pueden comprenderse y utilizarse.
Utilizacin de los resultados: que estos sirvan para tomar decisiones concretas que
se basen en los resultados.
La precisin que se desea: fijar la probabilidad de error por estar trabajando con
una muestra en lugar de la poblacin; es decir el riesgo que se corre de que el
resultado obtenido a partir de la muestra no estime con exactitud al de la
poblacin, se simboliza con p (p value) y generalmente vara del 0,01 al 0,05 (1%
al 5%).
Sesgos por muestras inadecuadas o informacin incompleta
Una muestra constituye una parte de la poblacin, y si el mtodo de seleccin de las
unidades se realiza a travs de un procedimiento adecuado se espera que sta represente a
la poblacin en su conjunto, es decir que todas las unidades que la constituyan posean
- 12 Mg. Silvana Torres

Estadstica Inferencial -Ao 2009-

idnticas caractersticas a las que tiene la poblacin. En cambio si la muestra es integrada


por algunas de las unidades y por lo tanto corresponden slo a una parte de la poblacin
de origen se dice que la muestra es sesgada.
Podemos hablar de error sistemtico o sesgo cuando existe una tendencia a obtener
resultados que difieren en forma sistemtica de los valores verdaderos.
Las principales fuentes de error sistemtico son:

Sesgo de seleccin

Sesgo de medicin (o clasificacin) cuando las mediciones y/o clasificaciones

de la variable son inexactas.


Si el error no es sistemtico no lo denominamos sesgo.
Sesgo de seleccin: el sesgo de seleccin se produce cuando existe una diferencia
sistemtica entre las caractersticas de la poblacin seleccionada para el estudio y las
caractersticas de la poblacin no seleccionada. El marco de referencia no est constituido
por la totalidad de la poblacin.
El error de muestreo mide la discrepancia que se presenta a partir de una
enumeracin incompleta de la poblacin. Estos errores pueden presentarse debido a que la
poblacin no ha sido definida debidamente o no corresponde a la poblacin bajo estudio.
La poblacin meta (a ser estudiada) difiere de la poblacin muestreada. Ejemplo: analizar
la cobertura de vacunacin de los nios de Tucumn, tomando una muestra de los que
concurren a los Centros Asistenciales oficiales.
Los errores de muestreo (si no son debido a problemas del diseo) pueden
reducirse aumentando el tamao y/o complejidad de la muestra.
Mtodos de muestreo
Los mtodos de muestreo se clasifican en no probabilsticos y probabilsticos.
Muestreo no probabilstico
Se caracterizan porque se desconoce la probabilidad que tienen los elementos de la
poblacin de ser escogidos para constituir la muestra, y la seleccin tiene lugar siguiendo
criterios para los fines del estudio, sin recurrir al azar. En estos mtodos no se puede medir o
controlar el error probable de muestreo. Algunas de las tcnicas de muestreo no probabilstico
ms usadas son:

- 13 Mg. Silvana Torres

Estadstica Inferencial -Ao 2009-

Muestras casuales o fortuitas: los elementos van siendo incorporados a medida que
acuden al sitio donde se efectan las mediciones, hasta alcanzar un tamao muestral
previamente establecido.
Seleccin experta: muestra de juicio utilizadas por expertos para seleccionar elementos
representativos o tpicos de la poblacin.
Por cuotas: el investigador propone estratos de acuerdo a las variables que considere
relevantes, y se incorporan elementos hasta completar la cantidad o cuota prefijada.
Muestreo probabilstico
En el muestreo probabilstico cada elemento de la poblacin tiene una probabilidad
conocida y no nula de ser seleccionado. Esta probabilidad se obtiene a travs de una operacin
mecnica de aleatorizacin (fraccin de muestreo: fh). En ste tipo de muestreo se puede
cuantificar la probabilidad de cometer error de muestreo (p).
El muestreo irrestricto aleatorio (mia) es el proceso de seleccin y todos los dems
procedimientos pueden verse como modificaciones de l, introducidos para proveernos de
diseos ms prcticos econmicos y precisos. Las tcnicas de muestreo probabilsticas ms
usadas son:
Aleatorio Simple: En este tipo de muestreo cada unidad tiene la misma probabilidad de
ser seleccionada para formar la muestra. Este se basa en la aleatoriedad del proceso de
seleccin (seleccin al azar) esto puede ser llevado a cabo a travs de diferentes
maneras: sorteo, empleo de tablas de nmeros aleatorios, nmeros aleatorios de
computadoras o de calculadoras. Para poder realizar el sorteo de las unidades que
conformarn la muestra es necesario previamente enumerar el listado de elementos de
la poblacin (marco muestral), y luego seleccionar las unidades de la muestra.
Sistemtico: Consiste en seleccionar al azar la primera unidad y a partir de all tomar las
siguientes unidades a intervalos constantes, establecidos de acuerdo al tamao de la
muestra que se desea obtener.
Estratificado: De acuerdo a un criterio predeterminado la poblacin se divide en
subgrupos (bloques o estratos) mutuamente excluyentes, con igual o diferente tamao,
en cada uno de los cuales estn contenidas unidades que poseen caractersticas
semejantes, es decir que cada estrato es homogneo dentro del mismo, y son
heterogneos entre los estratos. De cada estrato se obtiene una muestra aleatoria. El
- 14 Mg. Silvana Torres

Estadstica Inferencial -Ao 2009-

muestreo estratificado se aplica cuando la poblacin bajo estudio es heterognea y las


caractersticas de los estratos difieren entre s, obtenindose as resultados con menor
nivel de error.
Por conglomerados: Consiste en dividir la poblacin bajo estudio en subgrupos, llamados
conglomerados, que tienen existencia en la realidad (tales como barrios, manzanas,
escuelas, etc.), y que contienen unidades de distinta clase, aplicando luego en cada uno
de ellos el mtodo de muestreo aleatorio simple. A diferencia del muestreo
estratificado, donde los subgrupos son homogneos, en el muestreo por conglomerados
resultan conjuntos heterogneos, los cuales no fueron divididos por el investigador sino
que se encuentran divididos en la realidad, adems se desconoce de antemano cmo
estn distribuidas las unidades.
Polietpico: consiste en realizar el muestreo en varias etapas sucesivas, utilizando iguales
o distintos procedimientos en las diferentes fases. Se comienza con la divisin del
universo en unidades de primer grado, a partir de las cuales se obtiene la muestra
inicial, a continuacin esta vuelve a dividirse para formar las unidades de segundo
grado, de donde se selecciona una nueva muestra, as en forma continuada hasta llegar
a las unidades finales del muestreo, unidades de observacin de las cuales se obtendrn
los datos.
Tamao de la muestra (n)
La cantidad de unidades incluidas en la muestra (tamao muestral) debe ser la
adecuada para demostrar con una probabilidad razonable, prefijada por el investigador, la
existencia de una diferencia estadsticamente significativa (no atribuible al azar), cuando la
misma realmente existe.
El tamao muestral depende entre otros factores de:
El diseo de la investigacin
La frecuencia con que se presenta en la poblacin la caracterstica, factor o
fenmeno que se desea estudiar
El nivel de confianza con que se pretende efectuar las estimaciones
La variabilidad de las mediciones (dispersin)
La precisin que se desea (p value)

- 15 Mg. Silvana Torres

Estadstica Inferencial -Ao 2009-

En general el tamao muestral es menor cuanto mayor sea la frecuencia con que ocurre
la caracterstica, factor o fenmeno que se estudia en la poblacin, ms homognea sea su
distribucin en la misma (menor variabilidad) y menor sea la precisin que se desea
obtener. El criterio empleado, para la eleccin del tamao muestral es realizar el estudio
con el menor nmero posible de elementos que sean suficientes para obtener los
resultados con la precisin fijada.

- 16 Mg. Silvana Torres

Estadstica Inferencial -Ao 2009-

CAPTULO III- MEDIDAS DE ASOCIACIN ENTRE VARIABLES


Las medidas descriptivas consideradas hasta ahora son apropiadas slo para
resumir observaciones sobre una caracterstica o variable (como por ejemplo: edad, nivel
de colesterol en sangre, etc.). Sin embargo, gran parte de la investigacin en salud se
interesa en la relacin entre dos o ms caractersticas, tratando de establecer el grado de
asociacin entre ellas.
Cuando se quiere describir el grado de asociacin entre dos caractersticas hay que
tener en cuenta no slo si ellas son cuantitativa o cualitativas sino tambin algunas
caractersticas de su distribucin, como ser si ellas son simtricas o asimtricas, los
objetivos y el diseo de la investigacin.
Para cumplir con el objetivo de evaluar la asociacin entre dos variables, se debe
tratar de cuantificar esta relacin, establecer la posible relacin causa-efecto; para esto es
necesario definir medidas de asociacin. Los objetivos de asociacin dependen del tipo de
variables involucradas, estos pueden ser:
1. Evaluar si la presencia de un factor (causa) produce cambios en la frecuencia de
presentacin de una patologa (evento de inters). Relacin entre dos variables
cualitativas dicotmicas.
2. Evaluar si la distribucin de una variable efecto (evento de inters) cambia segn
los niveles de un factor. Relacin entre una variable cualitativa y la otra cuantitativa.
3. Evaluar si la magnitud del cambio observado en los valores de la variable efecto se
puede explicar por un cambio en los valores del factor. Relacin entre dos variables
cuantitativas.
Relacin entre dos caractersticas cualitativas dicotmicas
Uno de los ms difciles, pero tambin ms importante, de los problemas en
investigaciones mdicas concierne a la existencia de asociacin entre el llamado factor de
riesgo y la incidencia de una enfermedad. La investigacin de tales tpicos es parte de lo que
se conoce formalmente como epidemiologa.
El principal inters est en dar medidas e interpretacin de la asociacin entre el
posible factor de riesgo y la particular enfermedad. Tres diseos epidemiolgicos
principales son los que se tratarn en esta seccin: el estudio prospectivo, estudio
retrospectivo y el de corte transversal.
- 17 Mg. Silvana Torres

Estadstica Inferencial -Ao 2009-

Ejemplo: supngase que existe una sospecha clnica de que existe una relacin entre la
obesidad y el diagnstico de cardiopata coronaria. Hay muchas formas para investigar
esta suposicin, se mostrarn las ms importantes.
Estudios Prospectivos o de cohorte
Un estudio prospectivo comienza con dos grupos de personas, el primero contiene
personas expuestas al factor de riesgo de inters, y el segundo contiene personas sin tal
exposicin. Al comienzo de la investigacin se supone que los dos grupos estn sanos, es
decir libres del evento (patologa) que se est estudiando. Las personas dentro de cada
grupo son seguidas durante un perodo de tiempo especificado, y al final del mismo se
comparan, de alguna manera, las estimaciones de la incidencia de enfermos en cada
grupo.
Diseo de Estudio de Cohorte Prospectivo

Tanto en el grupo de expuestos como en el grupo de de no expuestos al factor se


pueden calcular las incidencias de la enfermedad, por lo tanto es posible conocer el riesgo
de enfermar en cada grupo.
Los resultados de esta investigacin se pueden resumir en una tabla de
contingencia de 2x2.
- 18 Mg. Silvana Torres

Estadstica Inferencial -Ao 2009-

Tabla 1: Datos genricos de un estudio prospectivo


Factor de riesgo

Enfermos

No enfermos

Total

Presente

a+b

Ausente

c+d

a+b

c+d

a+b+c+d

Total

En esta tabla slo los totales a+b, c+d son conocidos ya que ellos estn fijos por el
diseo del estudio, incluyen al total de personas expuestas (factor presente) y total de
personas no expuesta (factor ausente) respectivamente.
Determinar Incidencia o riesgo de enfermar en cada grupo:
Incidencia en Expuestos (Factor presente): IF=a/(a+b)
Incidencia en no expuestos (Factor ausente): INF =c/(c+d)
Conocida la incidencia en cada grupo (Riesgo Absoluto) debemos construir medidas
para poder comparar las mismas, entre las ms usadas tenemos: Riesgo Relativo y Riesgo
Atribuible.
Riesgo Relativo
El riesgo relativo se calcula como

RR =

IF
a (a + b )
=
I NF c (c + d )

En el ejemplo presentado anteriormente donde se pretende conocer si la obesidad


podra ser considerado un factor de riesgo para enfermedad coronaria, la investigacin
podra comenzar con un grupo de obesos y no obesos (ambos sin enfermedad coronaria) y
hacer un seguimiento en el tiempo para determinar la incidencia de enfermedad coronaria
entre los obesos y entre los no obesos. Un conjunto hipottico de datos obtenidos despus
de un nmero de aos de seguimiento se muestra en la siguiente tabla.
Tabla 2: Enfermedad Coronaria segn obesidad
Obesidad

Enfermos

No enfermos

Total

Presente

65

500

565

Ausente

25

650

675

Total

90

1150

1240

- 19 Mg. Silvana Torres

Estadstica Inferencial -Ao 2009-

A partir de estos datos se encuentra que la proporcin de personas con enfermedad


coronaria entre los obesos es 65/565 (11,5%), mientras que la del grupo de no obesos es
25/675 (3,7%). Estas dos proporciones son las estimaciones de la incidencia (tambin
llamado riesgo) de la enfermedad entre los que presentan el factor y los que no presentan
el factor considerado de riesgo respectivamente.
Un procedimiento comnmente usado para resumir los resultados de un estudio
prospectivo es comparar estos riesgos estimados mediante lo que se conoce como el riesgo
relativo. Esto es simplemente el cociente del riesgo estimado en cada grupo, dando aqu el
valor 11,5/3,7=3,11.
El riesgo relativo le indica cunto se incrementa el riesgo de enfermarse en un
paciente expuesto al factor de riesgo, comparado con un paciente no expuesto al factor; y
cuantifica el beneficio que puede tener el paciente si el factor de riesgo fue removido.
As en el ejemplo el riesgo de sufrir enfermedad coronaria entre aquellas personas
con obesidad se estima que es aproximadamente tres veces el riesgo de las personas que
no presentan obesidad.
Si tanto obesos como no obesos tuvieran el mismo riesgo de enfermedad coronaria,
el riesgo relativo en la poblacin debera ser igual a 1. De esta manera, un valor del RR igual
a uno o cercano a uno indicara que el factor considerado no es un factor de riesgo para la
enfermedad.

Si IF INF RR1 NO ES FACTOR DE RIESGO


Si IF > INF RR>1 ES FACTOR DE RIESGO
Si IF < INF RR<1 ES FACTOR PROTECTOR
Riesgo Atribuible
Tambin se denomina diferencia de riesgos, se calcula mediante una resta entre la
incidencia de expuestos y la incidencia entre no expuestos. Tambin se puede calcular el
riesgo atribuible porcentual.

Riesgo Atribuible
RAexp= IF -INF
Riesgo atribuible porcentual
%RAexp=RAexp / IF x 100
- 20 Mg. Silvana Torres

Estadstica Inferencial -Ao 2009-

El Riesgo Atribuible mide el exceso de riesgo a enfermar de los expuestos al factor en


comparacin a los que no presentan el factor.

Si IF INF RAO NO ES FACTOR DE RIESGO


Si IF > INF RR>0 ES FACTOR DE RIESGO
Si IF < INF RR<0 ES FACTOR PROTECTOR
Esto es simplemente una resta del riesgo estimado en cada grupo, en el ejemplo
planteado este valor sera 11,5% - 3,7% = 7,8%. Lo que se interpretara que entre los obesos
la incidencia de enfermedad coronaria es un 7,8% mayor.
Estudio retrospectivo o de caso control
Un estudio retrospectivo comienza, como el prospectivo, con dos grupos de
personas. Sin embargo, ahora, uno de los grupos est compuesto por individuos que ya
tienen la enfermedad y el otro por personas que no tienen la enfermedad.
Diagrama de un estudio retrospectivo o de caso control

Nuevamente los resultados de este estudio se pueden resumir en una tabla de


contingencia de 2x2 en la cual inicialmente se conocen los totales de casos (enfermos) y
controles (no enfermos), y a partir de ellos se examina en cada grupo, por ejemplo por
medio de una encuesta, cuantas personas han estado expuestas al factor de riesgo en el
pasado obtenindose una tabla como la siguiente:
- 21 Mg. Silvana Torres

Estadstica Inferencial -Ao 2009-

Tabla 3: Datos genricos de un estudio retrospectivo


Factor de riesgo

Casos (Enfermos)

Controles (No enfermos)

Total

Presente

a+b

Ausente

C+d

Total

a+c

b+d

a+b+c+d

En el ejemplo, para analizar la posible asociacin entre relacin entre la obesidad y


el diagnstico de cardiopata coronaria, usando un diseo retrospectivo, se debera
comenzar con un grupo de pacientes que haya sido diagnosticados con cardiopata
coronaria (casos) y un grupo que no presenta dicha patologa (control). Una vez elegidos
los grupos se busca la informacin acerca de la presencia de obesidad.
Odds Ratio de Exposicin al Factor
Un conjunto hipottico de datos se muestra en la tabla siguiente:
Tabla 4: Enfermedad Coronaria segn obesidad
Obesidad

Casos (Enfermos)

Controles (No enfermos)

Total

Presente

70

40

110

Ausente

30

60

90

100

100

200

Total

A partir de esta tabla podemos calcular las proporciones de expuestos al factor


(obesidad) en cada grupo. As, para el grupo de enfermos la proporcin es 70/100 (70%),
mientras que en el control (no enfermos) es 40/100 (40%).
Aqu no podemos estimar el riesgo en cada grupo como lo hicimos en el estudio
prospectivo, ya que el nmero de expuestos al factor y no expuestos al factor no estn bajo
el control del investigador y las proporciones calculadas (70% y 40%) no son la incidencia
de la enfermedad., lo que se puede calcular son las chances u odds de exposicin en casos
y controles, lo que permite contar con otra medida que indica el grado de asociacin entre
las variables consideradas conocida como odds ratio (OR):
Chance u odds de exposicin
Odds exposicin en Enfermos (casos)= oddsE= a/c
Odds exposicin en No Enfermos (controles)= oddsNE= b/d

- 22 Mg. Silvana Torres

Estadstica Inferencial -Ao 2009-

Odds Ratio de Exposicin al Factor.

OR

(F )

oddsE
a c ad
=
=
odds NE b / d c b

Un odd ratio igual a 1 indica que no hay asociacin entre las variables estudiadas.
As si en un caso particular se obtiene valores de OR cercanos a uno se podra inferir que
la asociacin no es significativa. El odd ratio estimado para los datos del ejemplo es
OR=70x60/30x40=3,5 lo que indicara que dentro del grupo de los enfermos (casos) la
proporcin de expuestos al factor es mayor que la de los no enfermos (control).
Si oddsE oddsNE OR1 NO HAY ASOCIACIN ENTRE FACTOR Y ENFERMEDAD
Si oddsE>oddsNE

OR>1 FACTOR POSITIVAMENTE ASOCIADO A ENFERMEDAD

Si oddsE <oddsNE OR<1 FACTOR NEGATIVAMENTE ASOCIADO A ENFERMEDAD


Debe notarse que OR no es una medida de riesgo, sino solo de asociacin
Estudios de Corte Transversal
En este tipo de estudio donde se parte de un grupo de individuos

sin

predeterminar con anterioridad ninguna caracterstica. De la poblacin se selecciona un


grupo de personas y se observa si est enfermo o no y si estuvo expuesto o no al factor de
riesgo. Es decir que inicialmente solo conocemos en total de individuos incluidos en el
estudio.

- 23 Mg. Silvana Torres

Estadstica Inferencial -Ao 2009-

Obtendramos finalmente la siguiente informacin:


Tabla 5: Datos genricos de un estudio de corte transversal
Factor de riesgo

Enfermos

No enfermos

Total

Presente

a+b

Ausente

C+d

Total

a+c

b+d

a+b+c+d

Razn de Prevalencias
En este tipo de estudios es posible calcular la prevalencia de la enfermedad en los
grupos de exposicin (presente y ausente), por lo que la medida de asociacin adecuada a
calcular es la Razn de Prevalencias (RP). Esta se calcula de la misma forma que el Riesgo
Relativo, pero su interpretacin es distinta ya que no es posible conocer la incidencia de la
enfermedad sino solo la prevalencia.
Determinar Prevalencia en:
Expuestos al Factor de Riesgo: PF= a/(a+b)
No expuestos al Factor de Riesgo: PNF = c/(c+d)

RP =

PF
a (a + b )
=
PNF c (c + d )

Esta medida se interpreta como una razn que nos indica cuntas veces es ms
frecuente la prevalencia de la enfermedad entre los expuestos al factor en relacin a los no
expuestos.
Si PF PNF

RP1 NO HAY ASOCIACIN ENTRE EL FACTOR Y ENFERMEDAD

(La prevalencia de la enfermedad es igual en expuestos y no expuestos)


Si PF >PNF

RP>1 FACTOR POSITIVAMENTE ASOCIADO A LA ENFERMEDAD

(La prevalencia de la enfermedad es mayor en el grupo de expuestos al factor)


Si PF <PNF

RP<1 FACTOR NEGATIVAMENTE ASOCIADO A LA ENFERMEDAD

(La prevalencia de la enfermedad es menor en el grupo de expuestos al factor)


Odds Ratio de Enfermedad
En los estudios de corte transversal tambin es posible calcular las chances u odds
de la Enfermedad
- 24 Mg. Silvana Torres

Estadstica Inferencial -Ao 2009-

Chance u odds de la enfermedad


Odds de Enfermedad entre expuestos al factor: oddsF= a/b
Odds de Enfermedad entre no expuestos al factor: oddsNF= c/d
Odds Ratio de la Enfermedad:

OR
Si oddsF oddsNF

(E)

odds F
a b ad
=
=
odds NF c d c b

OR1 NO HAY ASOCIACIN ENTRE FACTOR Y ENFERMEDAD

Si oddsF >oddsNF OR>1 FACTOR POSITIVAMENTE ASOCIADO A ENFERMEDAD


Si oddsF <oddsNF OR<1 FACTOR NEGATIVAMENTE ASOCIADO A ENFERMEDAD
Relacin entre variables cuantitativas
Suponga, por ejemplo, que se desea estimar la relacin entre la concentracin de
colesterol y el cambio en el dimetro vascular medio en pacientes con angina de pecho
estable (variables cuantitativas), en el sentido de que cunto se asocia un cambio en el
dimetro vascular medio a un cambio en los niveles de colesterol. Como ya se vio en el Mdulo
de Estadstica Descriptiva, una manera de graficar esta relacin es a travs de un diagrama
de dispersin o correlacin. Qu debemos observar de ese diagrama para que se pueda
visualizar algn tipo de asociacin? La respuesta es ver si los puntos de ese diagrama son
tales que se puede pensar que estn agrupados alrededor de alguna lnea, como se puede
observar en los grficos siguientes, donde el primero muestra una agrupacin alrededor
de una lnea recta, y el segundo alrededor de una curva.
Grfico N1: Grfico de dispersin o correlacin
20

37

15

27

10

17

0
-1

-3

-1

- 25 Mg. Silvana Torres

Estadstica Inferencial -Ao 2009-

Coeficiente de Correlacin de Pearson


Si se consideran los tipos de agrupamientos alrededor de una lnea, una medida
de este tipo de asociacin o correlacin (lineal) es el Coeficiente de Correlacin de Pearson.
En la figura 1 del grfico 2 se observa que cuando aumenta el valor de X, tambin aumenta
el valor de Y, mientras que en la figura 2 cuando aumenta el valor de X, disminuye el de Y
(X,Y son las variables que se estn analizando). En el primer caso se dice que hay una
correlacin positiva y en el segundo una negativa. Las tres ltimas figuras muestran casos
de ausencia de correlacin, donde una aumento o disminucin de X no implica un
aumento o disminucin de Y.
Grfico N2: Gficos de correlacin

Volviendo al ejemplo, si con X designamos a la concentracin de colesterol, y con


Y al cambio del dimetro vascular medio, y si se denota con r al Coeficiente de Correlacin
de Pearson, su clculo puede hacerse usando la expresin:

r=

(X X )(Y Y )
( X X)

( Y Y)

donde X e Y son las medias de la concentracin de colesterol y del dimetro vascular


medio respectivamente.
Con los datos de los valores tpicos de colesterol total/LAD, y cambio del
dimetro vascular medio en 39 pacientes con angina de pecho, cuya lesin no creci; se
- 26 Mg. Silvana Torres

Estadstica Inferencial -Ao 2009-

calcul el coeficiente de correlacin y se obtuvo r = 0.5. Qu significa una correlacin de


0.5 entre colesterol y cambio en el dimetro vascular?
Los posibles valores de r oscilan entre 1 y +1, en donde +1 describe una lnea
recta perfecta con pendiente positiva, como se observa en la primera figura del Grfico
N3 y -1 describe una lnea recta perfecta con pendiente negativa, como se muestra en la
segunda figura del mismo grfico
Grfico N3: Tipos de correlacin lineal
Y 12

Y 12

10

10

0
1

9
X

Una correlacin de 0 (o sea r=0) significa que no hay relacin lineal entre las dos
variables. Existe una correspondencia entre la cifra del coeficiente de correlacin y cun
dispersas estn o no las observaciones alrededor de una lnea recta. Cuando la correlacin
se aproxima a 0, la forma del grfico de dispersin es ms o menos circular, como se
observa en el siguiente grfico.
Grfico N4: Correlacin entre dos variables
12

10

4
-1

Conforme el valor de la relacin se aproxima a +1 o 1, la forma se vuelve ms


elptica, hasta que, en +1 o 1, las observaciones quedan directamente sobre la lnea recta.
Con una correlacin de 0.5, cabe esperar una dispersin de datos en forma ms o menos
oval, como en el siguiente grfico.
- 27 Mg. Silvana Torres

Estadstica Inferencial -Ao 2009-

Grfico N5: Correlacin entre colesterol total y cambio en el dimetro vascular.

En ocasiones, la correlacin se eleva al cuadrado (r2) para formar un valor


estadstico importante llamado coeficiente de determinacin. Para los datos de colesterol y
dimetro vascular, el coeficiente de determinacin es (0.5)2 0.25, que significa que el
colesterol total explica el 25 % de los cambios del dimetro vascular medio. De otra
manera si se conociera el valor del colesterol de los pacientes y se tomara en consideracin
al examinar el cambio del dimetro del vascular medio, la variabilidad de esta ltima
medicin podra reducirse un 25 %.
El coeficiente de correlacin posee varias caractersticas.
Es independiente de cualquier unidad usada para medir las variables, es decir es
adimensional
El valor del coeficiente de correlacin se altera en forma importante por la presencia de un valor
alejado o distante. Por tanto la correlacin no proporciona una descripcin adecuada
entre dos variables cuando la distribucin de una u otra variable est sesgada o incluye
valores distantes.
El coeficiente de correlacin de Pearson mide slo el grado de asociacin lineal; de hecho, dos
factores pueden guardar una relacin no lineal fuerte, an cuando la correlacin lineal
es bastante pequea. Por tanto, cuando se analizan las relaciones entre dos
caractersticas, los datos se debern graficar antes de calcular el coeficiente de
correlacin.
- 28 Mg. Silvana Torres

Estadstica Inferencial -Ao 2009-

Correlacin no implica causalidad. El enunciado de que una caracterstica causa otra, debe
justificarse basndose en observaciones experimentales o argumentos lgicos, no con
fundamento en el tamao de un coeficiente de correlacin.
El coeficiente de correlacin de Pearson no es adecuado cuando las variables provienen de
distribuciones asimtricas.
Coeficiente de Correlacin de Spearman.
En el caso de falta de conocimiento a cerca de la distribucin, o de la linealidad de
la relacin entre las variables, se puede usar mtodos de rango para evaluar una relacin
ms general entre los valores de las variables mencionadas.
El coeficiente de correlacin que se usa con frecuencia para describir la relacin
entre dos caractersticas que no cumplen con las condiciones antes mencionadas ya sea
porque las distribuciones de las variables son asimtricas o estn medidos en escala
ordinal (o una ordinal y una numrica) o hay observaciones alejadas, o el tamao de
muestra es pequeo, es el coeficiente de correlacin de Spearman.
Este coeficiente puede variar de 1 a +1 igual que el coeficiente de Pearson, pero
+1 o 1 indican concordancia perfecta entre posiciones de los valores o categoras de la
variable ordinal en lugar de entre los valores mismos.
Para calcular el coeficiente de correlacin de rangos de Spearman (rs), se ordena
separadamente de menor a mayor los valores de ambas variables y se les asigna rangos
(indicando el orden que ocupan), luego se sustituye los valores de los rangos en la frmula
del coeficiente de correlacin de Pearson.
Aunque la frmula de Spearman se deriva de la de Pearson, esto no implica que los
valores de ambos coeficientes vayan a coincidir siempre.
Relacin entre dos caractersticas ordinales
Otras medidas de correlacin de datos ordenados son Tau de Kendall y W de
Kendall basadas tambin en rangos. La Tau generalmente da valores menores de la
correlacin si se la compara con el coeficiente de correlacin de Pearson cuando se puede
usar este ltimo.

- 29 Mg. Silvana Torres

Estadstica Inferencial -Ao 2009-

CAPTULO IV- ESTIMACIN DE PARMETROS


Antes de desarrollar los conceptos bsicos sobre las tcnicas estadsticas que nos
permitirn estimar parmetros a partir de datos muestrales es importante dar algunos
conceptos sobre distribucin muestral.
Un estadstico (media aritmtica, mediana, proporcin, RR, OR, etc.) es una forma
de combinar los datos (funcin de los datos muestrales), por ejemplo la media es la suma
de los datos divida en el nmero de datos.
Para un conjunto particular de datos (valores observados en una muestra) el valor
obtenido de esa funcin nos da una estimacin del parmetro poblacional. Obviamente
con cada posible muestra tendramos diferentes valores del estadstico, es decir
obtendramos diferentes estimaciones. Por lo tanto, un estadstico es una variable que
toma diferentes valores, y estos valores o estimaciones depende de la particular muestra
con que estemos trabajando.
Si pudiramos extraer todas las posibles muestras de un dado tamao de la
poblacin de inters y con cada una de ellas calculamos el estadstico correspondiente
obtendramos todas las estimaciones posibles, a partir de ella podramos construir la
distribucin del estadstico que recibe el nombre de distribucin muestral del estadstico.
Cabe preguntarse por qu es tan importante el concepto de distribucin muestral, la
respuesta es simple. Cuando se quiere estimar un parmetro poblacional (caracterstica de
la poblacin) a partir de una muestra surgen interrogantes como: qu tan buena es la
estimacin obtenida?, se puede llegar a la conclusin de que el parmetro de la poblacin
es idntico al estadstico de la muestra o es probable que exista algn error?. Si es as, qu
tan grande es dicho error? Para responder a estas preguntas se debe comparar los
resultados obtenidos a partir de las muestras con los resultados esperados. Los
resultados esperados son justamente dados por la distribucin muestral del estadstico y
de all la importancia de ella.
Surgen ahora otros interrogantes, cmo es en realidad una distribucin muestral y,
por lo tanto, cules son los resultados esperados? La distribucin muestral del estadstico
depende de:
- 30 Mg. Silvana Torres

Estadstica Inferencial -Ao 2009-

la distribucin de la poblacin,
el estadstico que se elija para estimar el parmetro,
la forma de seleccin aleatoria de la muestra,
el tamao de la misma.
Distribucin muestral de la media aritmtica (estadstico).

La relacin existente entre ambas distribuciones (distribucin de la poblacin de


individuos y distribucin muestral del estimador) es la que nos permite hacer
afirmaciones sobre el parmetro poblacional y cuantificar el error de dichas afirmaciones.
Debemos ser conscientes que en general es imposible obtener todas las posibles
muestras de una poblacin, pero la estadstica inferencial nos provee herramientas que nos
permiten conocer la distribucin muestral terica del estadstico, y a partir de ella hacer
afirmaciones sobre la precisin de la estimacin y cuantificar el error de las afirmaciones
que se hagan sobre ella.

- 31 Mg. Silvana Torres

Estadstica Inferencial -Ao 2009-

A fin de clarificar estos conceptos, se considera por el momento el caso en que el


parmetro poblacional es la media y el estadstico para estimarla es la media aritmtica
x , obtenida a partir de una muestra de tamao n de la poblacin.
Es claro que si se quiere obtener la distribucin muestral de x, extrayendo todas las
muestras de tamao n, esto consumira ms tiempo que el requerido para tomar la
informacin de toda la poblacin y, en consecuencia, sera poco prctico. En su lugar, es
posible usar la teora estadstica para determinar la distribucin muestral de la media
aritmtica en cualquier situacin particular. Por ejemplo, supongamos una poblacin de
personas adultas donde la presin arterial sistlica (PAS) tiene media poblacional =120
mm Hg con un desvo estndar =10 mm Hg. Supongamos ahora, que se desconoce esta
informacin y se decide estimar la media poblacional tomando una muestra aleatoria de
tamao n=100 de la poblacin. La media aritmtica calculada a partir de la muestra dio un
valor x=121 mm Hg. Para hacer afirmaciones sobre la precisin de la estimacin que nos
d algn grado de confianza en el valor encontrado a travs de la muestra, necesitamos
conocer la distribucin muestral de x. Las propiedades de la distribucin muestral de x
son la base para uno de los teoremas ms importantes de la teora estadstica, llamado
Teorema del Lmite Central.
Dada una poblacin con media y desviacin estndar , la distribucin muestral
de la media basada en muestras aleatorias repetidas de tamao n tiene las siguientes
propiedades:
1. La media de una distribucin muestral o media de medias, es igual a la media de la poblacin

.
2. La desviacin estndar en la distribucin muestral de x es igual a

. Esta cantidad

denominada error estndar de la media (SEM), tiene una funcin importante en numerosos
procedimientos estadsticos.
3. Con muestras de tamao grande la distribucin muestral de x sigue un modelo terico
denominado modelo de distribucin normal, sin importar la forma de la distribucin de la
poblacin original.
- 32 Mg. Silvana Torres

Estadstica Inferencial -Ao 2009-

Esto nos da la base para toda la inferencia estadstica sobre la media. As, en el
ejemplo si se supone conocido, es decir conocemos que =10 mm Hg. se puede afirmar
que la distribucin muestral de x en este caso tiene un error estndar
SEM=

= 10/10= 1

ya que la raz cuadrada de n=100 es 10.


La importancia del SEM radica en que a partir de l se puede hacer la siguiente
afirmacin: si el tamao de muestra es grande aproximadamente el 95% de las muestras
daran valores de x en un intervalo que va desde -2SEM a +2SEM.
Obviamente, en la prctica siempre se desconoce el valor de y casi siempre el
valor de , de manera que esto es slo el respaldo terico de toda la inferencia estadstica,
como se ver en las secciones subsiguientes.
En el ejemplo de PAS, si y fueran conocidos entonces se puede afirmar que
aproximadamente el 95% de las muestras de tamao n=100 daran valores de x entre 120-2
y 120+2.
Si el estadstico elegido para estimar la media poblacional no es la media aritmtica
sino cualquier otro estimador, por ejemplo la mediana, entonces el clculo de su error
estndar y su distribucin muestral no sigue exactamente lo enunciado para el caso de x,
sino que ello deber determinarse en cada caso, basndose en herramientas de la teora
estadstica.
ESTIMACIN
Nuestro objetivo es estimar, de alguna forma, el o los parmetros que caracterizan a
nuestra poblacin. El estadstico a utilizar, depender del parmetro a estimar, y para un
dado parmetro en general hay ms de un estadstico que nos podra resultar de utilidad.
Estimacin Puntual
Se denomina Estimacin Puntual al valor obtenido del estadstico o estimador a
partir de una muestra. A partir de los datos muestrales se calculan los estadsticos (media,
desvo estndar, proporciones, etc.) que son los estimadores puntuales de los parmetros
poblacionales.
- 33 Mg. Silvana Torres

Estadstica Inferencial -Ao 2009-

Debemos preguntarnos cules son las propiedades de que debera tener un


estimador para que sea considerado como bueno y que nos facilite la eleccin entre un
estadstico y otro. Al obtener una estimacin puntual debemos ser conscientes que l
depende de la muestra que hayamos seleccionado y que el valor encontrado puede
cambiar de muestra en muestra. As, las propiedades deseables seran que con cada
estimacin no estemos muy alejados del verdadero valor del parmetro y que no haya
demasiada diferencia entre los valores del estadstico obtenidos de muestra en muestra.
Esto se puede formalizar diciendo que:
Las propiedades a tener en cuenta de los estadsticos son las siguientes:
1. Insesgado: Ausencia de error sistemtico, el estadstico tiene como valor promedio
el parmetro que se busca estimar.
2. Varianza Mnima: Las estimaciones obtenidas para distintas muestras varan poco
entre ellas.
Si la variabilidad de las estimaciones se mide a travs del desvo estndar, este
desvo estndar recibe el nombre de error estndar del estimador (SE).
No debe confundirse entre desvo estndar de la distribucin de la poblacin
(variabilidad entre los individuos) y error estndar del estimador que es el desvo
estndar de la distribucin muestral (variabilidad entre las estimaciones de las
muestras).
Si se consideran todos los estadsticos (estimadores) insesgados posibles de algn
parmetro, aqul con la varianza ms pequea recibe el nombre de estadstico insesgado
ms eficiente del parmetro. Se puede demostrar que la media aritmtica es un estimador
insesgado y eficiente de la media poblacional.
Es muy probable que el estadstico insesgado ms eficiente no estime el parmetro
poblacional con exactitud, esto se debe a que en realidad cuando realizamos la
estimacin slo tomamos una muestra, y obtenemos uno de los posibles valores del
estadstico que en general no tiene porque coincidir con el valor del parmetro que se
quiere estimar. Si bien la precisin se incrementa con muestras grandes no hay razn para
esperar que la estimacin puntual de una muestra dada deba ser exactamente igual al
- 34 Mg. Silvana Torres

Estadstica Inferencial -Ao 2009-

parmetro poblacional que se supone estima. Entonces, existen muchas situaciones en las
cuales es preferible determinar un intervalo dentro del cual se esperara encontrar el valor
del parmetro, tal metodologa se conoce como estimacin por intervalos de confianza.
Estimacin por intervalos
Consiste en un conjunto de procedimientos mediante los cuales, segn el nivel de
significacin deseado, se calcula el intervalo en el cual se podra encontrar el parmetro
estimado a un determinado nivel de confianza, que generalmente vara entre el 95% y
99%.
Intervalos de Confianza: Son intervalos aleatorios obtenidos a partir de los datos
muestrales y en los cuales hay un grado de confianza prefijado (medido en %) de que dicho
intervalo contenga al verdadero valor del parmetro (valor poblacional) que se quiere
estimar.
El grado de confianza se denomina nivel de confianza y lo denotaremos como
100(1-)%. Usualmente este valor corresponde a un 95%. Donde:
(1-) = es el grado de confianza o coeficiente de confianza
= es la probabilidad de error de que el parmetro poblacional no se encuentre
dentro del intervalo de confianza. Este valor es fijado por el investigador y generalmente
vara entre el 1% y 5% (=0,01 o =0,05)
Para encontrar estos intervalos debemos conocer la distribucin muestral de cada
estimador (tipo de distribucin terica y error estndar del estimador), que como ya se vio
esto depende del parmetro de inters y del estadstico que se elija para estimar dicho
parmetro. Sin embargo es posible dar la forma general que adopta un intervalo de
confianza en cualquier caso.
Supongamos que se quiere estimar un parmetro Q de la poblacin a travs del
estadstico q, si el error estndar de la distribucin de q lo denotamos con SE(q), entonces
un intervalo de confianza para Q con una confianza del 95% (IC95%) viene dado por la
expresin:
IC95% = [q k1SE(q) , q + k2SE(q)]
- 35 Mg. Silvana Torres

Estadstica Inferencial -Ao 2009-

donde k1 y k2 dependen de la forma de la distribucin de q. Los lmites inferior y superior


del intervalo estn dados por q k1SE(q) y q + k2SE(q) respectivamente
En el ejemplo de la PAS el intervalo de confianza para la media poblacional con una
confianza del 95% est dado por:
IC95% = [121 1.96x1 ; 121 + 1.96x1] = [119.04 ; 122.96]
Interpretacin y usos del Intervalo de Confianza: Hay dos aspectos importantes en la
interpretacin de un intervalo de confianza a saber:
La amplitud del IC mide el grado de precisin de la estimacin puntual, es
decir cuando menor es la amplitud mayor es la precisin de la estimacin. Esto
viene del hecho de que la amplitud del IC depende del SE el cual, como ya se
vio, mide el grado de variabilidad de las estimaciones de muestra en muestra.
Dado el IC100(1-)% para Q, existe una probabilidad del 100(1-)% que el
intervalo estimado contenga al verdadero valor del parmetro poblacional Q.
En el ejemplo podramos decir que existe una probabilidad del 95% que el IC95%
=[119.04, 122.96] contenga al verdadero valor de .
El IC nos permite hacer comparaciones entre poblaciones o diferentes
estimaciones de una misma poblacin. Por ejemplo, supongamos que la PAS
media en otra poblacin B es de B=115 mm Hg , luego a partir del IC se puede
B

concluir que la PAS media en nuestra poblacin es significativamente mayor


que la correspondiente a la poblacin B, ya que B es menor que el extremo
B

menor del intervalo.


A continuacin vamos a ver algunos ejemplos de estimaciones de parmetros.
Estimacin de la media aritmtica
Sabemos que x (media muestral) estima a (media poblacional), y se calcula con la
siguiente frmula:

x = ( xobs)/n
El error estndar de la media (SEM)es igual a

en el caso que se conozca , pero

si es desconocido lo reemplazamos por SD ( desvo estndar) donde:


- 36 Mg. Silvana Torres

Estadstica Inferencial -Ao 2009-

SD =

suma de los desvios al cuadrado


=
n 1

y el SEM es igual a

suma ( xobs x) 2
n 1

SD
n

Bajo el supuesto de normalidad; es decir que suponemos que la distribucin


muestral de la media es normal; podemos decir que x es una estimacin precisa de
cuando el tamao muestral (n) es grande.
Si fijamos = 0,05 , recordemos que es el error, y 1- es el nivel de confianza.
(1-) 100% = (1-0,05)100%= 95%; entonces el intervalo del 95% de confianza de es:
IC95% [ x -Z/2 SEM ; x + Z/2 SEM]

(1)

Como la distribucin de x es normal Z/2 =Z0,025 = 1,96 (este valor se obtiene de la


tabla de valores de la distribucin normal)
Ejemplo del clculo e interpretacin de un intervalo de confianza: Supongamos que
en una muestra de tamao n=36, el peso promedio de recin nacidos prematuros es de
1930 grs. con un desvo estndar de 325 grs. Se quiere conocer cual es el intervalo del 95%
de confianza para el peso promedio de los prematuros.
n= 36 ;

x = 1930 grs. ;

= 0,05 ;

/2= 0,025 ;

SD= 325 grs. ;

SEM=

325
= 54,17
36

Z0.025= 1,96

Usando la formula (1) el intervalo del 95% de confianza para la media es


IC95% = [1930 1,96 (54,17) ; 1930 +1,96 (54,17)]
IC95% = [1930 106,17 ; 1930 +106,17 ]
IC95% = [1823,83 ; 2036,17]
El intervalo del 95% de confianza para el peso promedio de los prematuros es de
1824grs. a 2036grs.

- 37 Mg. Silvana Torres

Estadstica Inferencial -Ao 2009-

Estimacin de una proporcin


Proporcin (p): es un cociente que relaciona una parte con el total. Es un cociente
que se obtiene dividiendo el nmero de individuos que poseen determinada
caracterstica con el total de individuos. Esta se calcula de la siguiente forma:

p=

x
n

Donde x representa al nmero de individuos que pertenecen a una determinada


categora y n es el total de individuos.
Como p estima a la proporcin en la poblacin, el error estndar de la proporcin

SE ( p) es igual a:
SE ( p) =

pq
n

donde q = 1-p

Bajo el supuesto de normalidad; es decir que suponemos que la distribucin


muestral de la proporcin es normal; podemos decir que p es una estimacin precisa de la
proporcin de la poblacin cuando el tamao muestral (n) es grande.
Si fijamos = 0,05 , recordemos que es el error, y 1- es el nivel de confianza.
(1-) 100% = (1-0,05)100%= 95%; entonces el intervalo del 95% de confianza de p es:
IC95% [p - Z/2 SE ( p ) ; p + Z/2 SE ( p ) ]

(2)

Como la distribucin de p es normal Z/2 =Z0,025 = 1,96 (este valor se obtiene de la


tabla de valores de la distribucin normal)
Ejemplo del clculo e interpretacin de un intervalo de confianza para una
proporcin: Supongamos que en una muestra de n=750 nios se encontraron en estado de
desnutricin 34 de ellos; se quiere conocer cual es el intervalo del 95% de confianza para la
proporcin de desnutridos.
n= 750 ;

= 0,05 ;

p=

34
= 0,045 ; q= 1-0,045= 0,955 ;
750

/2= 0,025 ;

SE ( p ) =

0,045 0,955
= 0,0076
750

Z0.025= 1,96

Usando la formula (2) el intervalo del 95% de confianza para la proporcin es


- 38 Mg. Silvana Torres

Estadstica Inferencial -Ao 2009-

IC95% = [0,045 1,96 (0,0076) ; 0,045 +1,96 (0,0076)]


IC95% = [0,045 0,015 ; 0,045+0,015]
IC95% = [0,030 ; 0,060]
IC95% = [3% ; 6%]
El intervalo del 95% de confianza para la proporcin de desnutridos es de 0,03 a
0,06.Las proporciones tambin pueden expresarse en porcentajes, en ese caso podramos
decir que la proporcin de desnutridos es de 4,5% , y el intervalos del 95% de confianza es
del 3% al 6%.
Estimacin de medidas de asociacin
En el captulo anterior se definieron las principales medidas para analizar la
asociacin entre variables, a estas estimaciones puntuales se deben acompaar los
respectivos intervalos de confianza. Para cuantificar la precisin de la asociacin se realiza
el clculo de los intervalos de confianza, normalmente estimados para un nivel de
confianza del 95%; esto es, si se repitiera el mismo estudio n veces, bajo las mismas
suposiciones estadsticas, en 95% de los casos el estimador puntual (r, RR, RP, OR, etc)
estar contenido dentro de los lmites estimados. Para cada medida de asociacin
calculada se debe tener en cuenta cul es el valor nulo o punto de corte en el cual se puede
concluir que no existe asociacin entre las variables, y se podr inferir que existe
asociacin significativa slo cuando el intervalo de confianza no contenga dicho valor.
El coeficiente de correlacin de Pearson

(r) mide la relacin lineal entre dos

variables cuantitativas, este puede tomar valores en el rango [-1 ; 1], siendo el valor nulo o
punto de corte r=0; por lo tanto cuando el intervalo de confianza de este coeficiente
contenga al cero no podremos concluir que exista asociacin o correlacin lineal
significativa entre dos variables cuantitativas.
En el caso de variables cualitativas las medidas de asociacin y riesgo, dependiendo
del diseo del estudio, son RR (Riesgo Relativo), RP (Razn de Prevalencias) y OR (Odds
Ratio), siendo en todos estos casos el valor nulo o punto de corte el uno (1); por lo tanto
cuando el intervalo de confianza contenga este valor no podremos concluir que exista
asociacin significativa entre las variables en estudio.
- 39 Mg. Silvana Torres

Estadstica Inferencial -Ao 2009-

En el caso de RR se podr concluir que el factor estudiado se considera de riesgo


cuando el intervalo se encuentre en valores mayores que uno, y ser considerado factor
protector a intervalos menores que uno; siempre teniendo en cuenta que el intervalo no
contenga al valor nulo (uno). La interpretacin del intervalo de confianza de RP es similar,
pero se podr concluir que la prevalencia es mayor o menor, o que existe asociacin si el
intervalo de confianza no contiene al uno.
Tambin se puede calcular el impacto de la exposicin mediante el riesgo atribuible
(RA), llamado tambin diferencias de riesgos, el cual mide la proporcin de la enfermedad
que se evitara si se lograra erradicar la exposicin. El valor nulo del RA es el cero (0), por
lo tanto cuando este valor se encuentre en el intervalo de confianza, la diferencias de
riesgos no ser significativa.
La interpretacin de los resultados en los estudios retrospectivos es la siguiente: si
OR igual a uno, la exposicin no est asociada con el evento o enfermedad; si OR es menor
de uno, la exposicin est asociada de manera inversa con el evento, esto es, la exposicin
disminuye la posibilidad de desarrollar el evento; si OR es mayor de uno, la exposicin se
encuentra asociada positivamente con el evento, lo que quiere decir que la exposicin
aumenta la posibilidad de desarrollar el evento y si OR es igual a uno no existe asociacin
entre las variables; por lo tanto para poder inferir los resultados a la poblacin es necesario
considerar si el intervalo de confianza contiene el valor nulo del OR, es decir el uno. En
caso de que el intervalo contenga este valor podremos concluir que la asociacin entre las
variables involucradas en el estudio no es significativa.
Caractersticas de las Medidas de Asociacin, Correlacin y Riesgo
Tipo Variables

Tipo Estudio

Cuantitativas

Corte Transversal

Cualitativas

Medida

Valor Nulo

Interpretacin

Mide correlacin lineal

Prospectivo

RR

Mide Riesgo

Cualitativas

Prospectivo

RA

Mide Riesgo

Cualitativas

Corte Transversal

RP

Mide asociacin

Cualitativas

Retrospectivo

OR

Mide asociacin

- 40 Mg. Silvana Torres

Estadstica Inferencial -Ao 2009-

CAPTULO V- TEST DE HIPTESIS ESTADSTICA


En las secciones anteriores tratamos con estimacin y precisin de las estimaciones
que es una forma de inferencia estadstica. En esta seccin se introduce una forma
diferente de inferencia, los test de hiptesis estadsticas.
Un test de hiptesis es una metodologa o procedimiento que permite cuantificar la
probabilidad del error que se cometera cuando se hace una afirmacin sobre la poblacin
bajo estudio, es decir, nos permite medir la fuerza de la evidencia que tienen los datos a
favor o en contra de alguna hiptesis de inters sobre la poblacin. Es un procedimiento
de decisin basado en datos muestrales.
Hiptesis estadstica se define como una afirmacin acerca de una o ms
poblaciones.
Para ilustrar los conceptos de los tests de hiptesis supongamos que estamos
interesados en conocer cuanto influye el nivel de escolaridad de la madre sobre el estado
nutricional del nio, es decir, nuestro inters es saber si en nuestra poblacin el estado
nutricional del nio est asociado al nivel de escolaridad de la madre. En principio, este
interrogante se plantea porque tenemos la sospecha que realmente existe tal asociacin.
Para investigar sobre este punto, se toma una muestra de nios y se analiza en cada uno
de ellos el estado nutricional y el nivel de escolaridad de sus madres. Una vez obtenido los
datos como estamos conscientes que los hallazgos en la muestra pueden ser aleatorios
necesitamos de algn procedimiento que estime la verosimilitud de los resultados
obtenidos en la muestra y ste es precisamente un test de hiptesis estadstica.
Los tests de hiptesis consisten en confrontar dos hiptesis, una llamada hiptesis
nula que denotamos con Ho y otra llamada hiptesis alternativa denotada con H1. En el
ejemplo las hiptesis que se plantean son:
1. el estado nutricional de los nios est asociado al nivel de escolaridad de las
madres (hiptesis de trabajo)
2. No existe tal asociacin

- 41 Mg. Silvana Torres

Estadstica Inferencial -Ao 2009-

Cabe preguntarse ahora, cul de ellas se debe considerar como hiptesis nula. En la
mayora de los tests que se usan en investigacin mdica la hiptesis nula se elige a
aquella que se quiere rechazar, es decir, en este caso Ho: No hay asociacin.
La hiptesis nula generalmente es una hiptesis de igualdad, por lo que admite slo
una posibilidad; mientras la hiptesis alternativa admite varias posibilidades. Para aclarar
esto veamos un ejemplo: Supongamos que queremos probar si la proporcin (p) de
desnutridos en una poblacin infantil es igual o no al 20%. La H0 es que la proporcin de
desnutridos es igual al 20% (p=0,20); y la H1 admite tres posibilidades, de acuerdo a los
datos muestrales, que la proporcin de desnutridos sea menor al 20% (p<0,20), que sea
mayor al 20% (p>0,20), o que la proporcin sea distinta al 20% (p#0,20), se debe
determinar como H1 una de estas tres posibilidades. En smbolos:
H0 : p=0,20
H1 : p<0,20
H1 : p>0,20

Seleccionar una de estas alternativas

H1 : p#0,20
Bajo este planteo un test de hiptesis estadstica no es otra cosa que un
procedimiento para tomar una decisin, bajo incertidumbre, sobre la validez de la
hiptesis nula usando la evidencia de los datos. Puesto que se trabaja bajo incertidumbre
es claro que cualquiera sea la decisin que se tome siempre existe una probabilidad de
cometer error. A fin de clarificar esto podemos presentar el siguiente esquema:
Situaciones posibles al probar una hiptesis estadstica
Realidad sobre Ho

Decisin
Rechazar Ho
No rechazar Ho

Falsa

Cierta

Decisin correcta

Error Tipo I

Error Tipo II

Decisin correcta

Como se pueda ver en el esquema, con cada tipo de decisin que se tome hay
asociado una posibilidad de cometer un error. Un procedimiento de este tipo sera ptimo
cuando las probabilidades de cometer un error, cualquiera sea la decisin que se adopte,
- 42 Mg. Silvana Torres

Estadstica Inferencial -Ao 2009-

sean pequeas. Lamentablemente, en la mayora de los test de hiptesis slo es posible


controlar una de ellas, con el agravante de que estos errores son competitivos, es decir,
cuando se disminuye mucho la probabilidad de uno aumenta la probabilidad del otro.
Puesto que, el inters generalmente es rechazar Ho la probabilidad de error que se
controla durante este procedimiento, es justamente el error asociado a esta decisin
(Probabilidad del Error Tipo I), es decir, la probabilidad de rechazar Ho cuando es cierta.
La mxima probabilidad de error tipo I se denota con y recibe el nombre de nivel de
significacin del test y l debe ser prefijado de antemano, generalmente vara entre el 1% y
el 5% (= 0,01 o = 0,05). La probabilidad de Error Tipo II se denota con .
La bondad de un test de nivel se mide en trminos de la cantidad 1- denominada
Poder del Test.
El nivel de significacin que se usa generalmente es =0.05 lo que corresponde a un
5% en trmino de porcentaje.
Tipos de pruebas de hiptesis
El tipo de prueba de hiptesis depende de la alternativa que se seleccione.
Prueba de una cola: prueba de cualquier hiptesis estadstica donde la alternativa
es unilateral
H0 : p=p0
H1: p>p0 (cola derecha)

H1: p<p0 (cola izquierda)

Prueba de dos colas: prueba de cualquier hiptesis estadstica donde la alternativa


es bilateral
H0 : p=p0
H1: p#p0
Procedimiento general de un test de hiptesis
El procedimiento de un test de hiptesis lo podemos resumir en los siguientes
pasos:
1. Establecer la hiptesis nula. Se supone que Ho es cierta.
2. Seleccionar la H1 apropiada.
- 43 Mg. Silvana Torres

Estadstica Inferencial -Ao 2009-

3. Seleccionar el nivel de significacin


4. Para confrontar esta suposicin con la informacin (parcial) que proveen los datos
sobre la realidad de Ho, se forma una especie de indicador de concordancia,
denominado estadstico del test.
5. Como el estadstico depende de la informacin de los datos, con cada muestra posible
hay asociado un valor de este estadstico y en consecuencia se genera una nueva
variable aleatoria. Asociada a esta variable hay una cierta distribucin de probabilidad,
a partir de la cual se determina la probabilidad de que la informacin de los datos
concuerde con la hiptesis nula, denominado P-value. De esta manera, el P-value
representara la probabilidad de cometer un error cuando se toma la decisin de
rechazar Ho.
6. Decidir: es claro que, si de antemano se fij que la mxima probabilidad de error al
rechazar Ho deba ser igual a , para tomar la decisin es necesario comparar el valor
de P con . As
Si P entonces la decisin es Rechazamos Ho
Si P > la decisin es No hay evidencia suficiente para rechazar Ho
Prueba sobre una media
Para ilustrar el procedimiento a seguir para realizar un test de hiptesis sobre una
media, presentaremos el siguiente ejemplo: Se conoce que el promedio das de estada de
los pacientes de un hospital es de 8 das; si en una muestra aleatoria de 30 pacientes
incluidos en un estudio indica que el promedio das de estada es de 6das con un desvo
estndar de 2,31 das; se puede pensar a un nivel de significancia del 5% que el promedio
das de estada es menor a 8 das.
Siguiendo el procedimiento se prueba la hiptesis nula
1. H0 : =8das
2. H1 : < 8das
3. = 0,05
4. El estadstico de prueba en este caso es el test t para una media
- 44 Mg. Silvana Torres

Estadstica Inferencial -Ao 2009-

5. Del clculo surge que P= 0,00026


6. Se decide rechazar H0 ya que P(0,00026)es menor que (0,05). Se concluye que el
promedio das de estada de los pacientes en el hospital es menor a 8 das.
Prueba sobre una proporcin
Tambin para ilustrar la aplicacin del procedimiento para realizar un test de
hiptesis sobre una proporcin (p), presentaremos el siguiente ejemplo: Se cree que un
medicamento es efectivo en un 60% (p=0,6) de los casos. De un nuevo medicamento
administrado en una muestra aleatoria de 100 adultos, 70 mejoraron (p=0,7); al 5% de
significancia se puede afirmar que el nuevo medicamento es mejor.
Siguiendo el procedimiento se prueba la hiptesis nula
1. H0 : p=0,6
2. H1 : p>0,6
3. = 0,05
4. El estadstico de prueba en este caso es el test Z para una proporcin
5. Del clculo surge que P= 0,0248
6. Se decide rechazar H0 ya que P(0,0248)es menor que (0,05). Se concluye que el
nuevo medicamento es mejor
Si en este ejemplo se hubiese fijado = 0,01 (1%) al comparar P (0,0248) con (0,01)
la decisin sera: no hay evidencia estadstica suficiente para rechazar H0, por lo tanto no
se puede afirmar que el nuevo medicamento sea mejor.
Prueba de Independencia o Test Chi Cuadrado (2)
Esta prueba se utiliza para probar la hiptesis de independencia entre dos variables.
Se deben presentar las frecuencias observadas (datos de la muestra) en una tabla de
contingencia (o tabla de clasificacin cruzada) con sus respectivas frecuencias conjuntas
(celdas) y frecuencias marginales (totales).
Ejemplo: Supongamos que queremos conocer si existe asociacin entre las variables
estado nutricional de los nios y el nivel de instruccin de la madre; para analizar tal
- 45 Mg. Silvana Torres

Estadstica Inferencial -Ao 2009-

asociacin se toma una muestra aleatoria de 1000 nios y se obtienen los siguiente datos
(frecuencias observadas) que presentamos en una tabla de contingencia:
Tabla N 1: Estado Nutricional de los nios segn nivel de instruccin de la madre.
Frecuencias observadas (oi)
Estado Nutricional

Nivel de Instruccin de la Madre


Primario

Secundario

Total

Terciario

Eutrfico

182

213

203

598

Desnutrido

154

138

110

402

Total

336

351

313

1000

Las Hiptesis nula y alternativas sern:


H0: las variables son independientes
H1: existe asociacin entre las variables
Se calculan las frecuencias esperadas (ei) en caso de independencia:
ei = (Total de columna)x (Total de rengln)
Gran Total
Frecuencias esperadas ( ei )
Estado Nutricional

Nivel de Instruccin de la Madre


Primario

Secundario

Total

Terciario

Eutrfico

201

210

187

598

Desnutrido

135

141

126

402

Total

336

351

313

1000

Se debe calcular el estadstico de prueba, en este caso corresponde el 2 (CHI


CUADRADO). Este estadstico de prueba se calcula sumando las diferencias de las
frecuencias observadas y esperadas al cuadrado divididas en las frecuencias esperadas,

(o e )

2obs=

/ ei

- 46 Mg. Silvana Torres

Estadstica Inferencial -Ao 2009-

a este estadstico se le calculan los grados de libertad (gl) que son igual al nmero de
categoras de la variable (renglones) menos 1 por el nmero de categoras de la otra
variable (columnas) menos 1,
Se debe fijar = 0,05

gl = (r-1)(c-1)

Luego se compara el 2obs con el 2 con (r-1)(c-1) grados de libertad ( este valor se lo
busca en la tabla de distribucin del 2 ). Si el 2obs nos da un valor mayor que el 2(r-1)(c-1)
la decisin es rechazar H0 y concluir que existe asociacin entre las variables; pero si 2obs
es menor que el 2 no se rechaza H0 y se concluye que las variables son independientes,
todo esto a un nivel de significacin .
Si calculamos 2obs = 7,88 ; y si =0,05 el 20,05;2 =5,991 ; al comparar estos dos valores
tomamos la decisin de rechazar H0 y se concluye que el estado nutricional del nio y el nivel de
instruccin de la madre estn asociados. Al calcular la prueba a travs de un programa
estadstico este nos da un p-value, P=0,0195; al comparar este valor de P con =0,05 la
decisin es rechazar H0 ; pero si = 0,01 la decisin es no hay evidencia estadstica suficiente para
rechazar H0.

- 47 Mg. Silvana Torres

Estadstica Inferencial -Ao 2009-

ESTUDIOS ANALITICOS
RELACION ENTRE DOS VARIABLES MEDIDAS EN EL MISMO INDIVIDUO
Evaluar la asociacin entre dos variables
MEDIDAS SUGERIDAS
VARIABLES
(ANALISIS SUGERIDO)
DOS CONTINUAS
(n grande)
DOS CONTINUAS
(n mediano o chico)
CONTINUA
vs
ORDINAL
CONTINUA
vs
NOMINAL
CONTINUA
vs
DICOTOMICA

coef. de correlacion de Pearson (r)


coef. correlacion de Spearman (rs)
coef. correlacion de Kendall ()
coef. correlacion de Kendall ()
(TEST DE TENDENCIA DE CUZICK)
(ANOVA PARAMETRICO)
(NO PARAMETRICO)
(TEST T O TEST Z)
(TEST MANN-WHITNEY)
coef. correlacion de Kendall ()

DOS ORDINALES

ORDINAL
Vs
NOMINAL
ORDINAL
Vs
DICOTOMICA
DOS NOMINALES
NONINAL
vs
DICOTOMICA

(TEST DE TENDENCIA DE CUZICK)


(TEST 2 PARA TABLA cxr)
(TEST 2 PARA TABLA cxr)
( 2 DE TENDENCIA LINEAL PARA TABLA 2xk)
(TEST 2 PARA TABLA cxr)
(2 SIN TENDENCIA EN TABLA 2xk)
RIESGO RELATIVO ODDS RATIO

DOS DICOTOMICAS

(2 PARA TABLA 2x2


TEST EXACTO DE FISHER)

- 48 Mg. Silvana Torres

Estadstica Inferencial -Ao 2009-

COMPARACIN DE DOS GRUPOS INDEPENDIENTES


Evaluar influencia de condiciones (Factores o tratamientos) en problemas de salud
Ejemplo: Peso al nacer de nios de un grupo de madres con CPN comparado con aquellos
de un grupo de madres sin CPN

TIPO DE DATOS
CONTINUOS

ANALISIS SUGERIDO
TEST DE HIPOTESIS
(para grupos independientes)

ORDINAL

2 DE TENDENCIA LINEAL EN TABLA 2xk


(ms del 80% de las frec. esperadas deben ser > que 5)

NOMINAL

2 SIN TENDENCIA PARA TABLA 2xk


(ms del 80% de las frec. esperadas deben ser > que 5)

DICOTMICOS

2 PARA TABLA 2x2


(ms del 80% de las frec. esperadas deben ser > que 5)
EXACTO DE FISHER

COMPARACIN DE LA RESPUESTA DE UN GRUPO BAJO DIFERENTES


CONDICIONES
Evaluar la respuesta a intervenciones (PLS o Tratamientos) sobre los problemas de salud
Ejemplo: Presin arterial antes y despus del tratamiento

TIPO DE DATOS
CONTINUOS

ANALISIS SUGERIDO
TEST DE HIPOTESIS
(para grupos pareados)

ORDINAL
O
NOMINAL

TEST DE SIGNO
TEST McNEMAR

DICOTMICOS

TEST LIDDELL

- 49 Mg. Silvana Torres

Estadstica Inferencial -Ao 2009-

BIBLIOGRAFA
1. Batellino, Luis y Susana Doronsoro. METODOLOGA DE LA INVESTIGACIN
EN SALUD. Universidad Nacional de Crdoba, Facultad de Odontologa. Crdoba.
1994.
2. Dawson-Sanders and Trapp, RG. BIOESTADSTICA MDICA. Ed. Manual
Moderno. 1993
3. Hernndez-vila, M; Garrido-Latore, F. y Lpez-Moreno, S. DISEO DE
ESTUDIOS EPIDEMIOLGICOS. Salud Pblica de Mxico. Vol. 42, N 2. MarzoAbril 2000.
4. Norman y Striner. BIOESTADSTICA. Harcourt-Brace. Espaa. 1998.
5. Pita-Fernndez, S. TIPOS DE ESTUDIOS CLNICOS EPIDEMIOLGICOS. Madrid.
2001.
6. Kleinbaum, D.G; Kupper, L.L; Morgenstern H. EPIDEMIOLOGIC RESEARCH.
PRINCIPLES AND CUANTITATIVE METHODS. Van Nostrand Reinhold
Company. 1982
7. Kish, Leslie. MUESTREO DE ENCUESTAS. Editorial Trillas. Mxico. 1979
8. Santana,

Mirta.

APUNTES

DE

ESTADSTICA

INFERENCIAL.

Ctedra

Bioestadstica. Facultad de Medicina. U.N.T. 2000


9. Santana, M; DUrso,M y Lencina, V. BIOESTADSTICA I. Facultad Medicina. UNT.
Tucumn. 2004.
10. Walpole y Myers. PROBABILIDAD Y ESTADSTICA .4 Edicin. McGrawHill/Interamericana de Mxico. Mxico. 1991.

- 50 Mg. Silvana Torres

Vous aimerez peut-être aussi