Vous êtes sur la page 1sur 18

Manual de Bioestadstica para Jornadas de BioINTEC

2do Taller

Temario 2do Taller

1234-

La hiptesis. Medidas de Tendencia Central Medidas de Dispersin Prueba de hiptesis

5- Comparacin de proporciones 6- Comparacin de medias

La hiptesis:
La hiptesis de la investigacin no es ms que la proposicin provisional que se expone en cuanto a un objetivo que se busca dilucidar en la investigacin, y cuya veracidad es provisionalmente asumida para el propsito investigativo hasta que se confirme o demuestre lo contrario. Las hiptesis son el punto de enlace entre la teora y la observacin. Su importancia es que esta da el rumbo a la investigacin al sugerir los pasos y procedimientos que deben darse en la bsqueda del conocimiento. Cuando la hiptesis de la investigacin ha sido bien elaborada, y en ella se observa relacin clara entre dos o ms variables, es factible que el investigador pueda: Trazar los objetivos que desea alcanzar. Seleccionar el tipo de diseo de investigacin. Seleccionar el mtodo adecuado. Seleccionar los recursos, tanto humanos como materiales.

La hiptesis presenta requisitos fundamentales en su solidez: Debe plantearse en trminos claros. Debe poseer un referente emprico, lo que hace que pueda ser comprobable. Dicho referente generalmente parte de la observacin. Algoritmo para la elaboracin de una buena hiptesis:

Planteamiento del problema

Revisin lteraria

Establecimiento de la hiptesis

Detrminar el tipo de estudio

Construccin del marco terico

Las hiptesis pueden adoptar diversas clasificaciones, de acuerdo a la conveniencia del autor, por lo que hemos seleccionado la siguiente clasificacin por reunir los objetivos perseguidos: a. Hiptesis General o conceptual: es cuando trata de corresponder de forma amplia a las dudas del investigador acerca de la relacin existente en torno a las variables. b. Hiptesis especfica: esta se deriva de la general, tratan de concretizar la misma y hace explicitas las orientaciones para resolver la investigacin.

c. Hiptesis estadstica: es aquella que somete a prueba y expresa a las hiptesis operacionales en forma de ecuaciones matemticas, est a su vez es un enunciado acerca de la distribucin de probabilidad de una variable aleatoria. Dentro de las hiptesis estadsticas obran importancia: 1. La hiptesis nula: esta es construida para anular o refutar y funciona como antagonista. Esta en general es lo contrario de lo que se sospecha sern los resultados. 2. Hiptesis alternativa: es cualquier hiptesis que difiera de la hiptesis nula (es la que por lo general se refiriere a lo que se cree que suceder). d. Hiptesis operacional: es aquella que expresa en trminos medibles (cuantitativamente) a la hiptesis conceptual.

Ejemplo: Problema: se requiere determinar si el entrenamiento en tcnicas de estudio mejora el rendimiento acadmico de los estudiantes del liceo Juan Pablo Duarte. Hiptesis especfica: los alumnos del sub-proyecto de lenguaje y comunicacin del liceo, sometidos a entrenamiento en tcnicas de estudio, obtendrn altas calificaciones al mejorar sus tcnicas de estudio. Hiptesis operacional: el promedio de rendimiento de los alumnos del sub-proyecto de lenguaje y comunicacin, sometidos a entrenamientos en tcnicas de estudio, obtendrn mayor promedio que aquellos alumnos no sometidos a entrenamiento. Hiptesis estadstica: H. Nula: no existe relacin entre los promedios obtenidos por los estudiantes entrenados y los no entrenados. H. Alternativa: los alumnos sometidos a entrenamiento obtuvieron mejor promedio que aquellos que no lo recibieron.

Medidas de Tendencia Central

Al describir grupos de observaciones, con frecuencia es conveniente resumir la informacin con un solo nmero. Este nmero que, para tal fin, suele situarse hacia el centro de la distribucin de datos se denomina medida o parmetro de tendencia central o de centralizacin. Las medidas de tendencia central corresponden a valores que generalmente se ubican en la parte central de un conjunto de datos. (Ellas permiten analizar los datos en torno a un valor central). Entre stas estn la media aritmtica, la moda y la mediana.

Media X
Es aquella medida que se obtiene al dividir la suma de todos los valores de una variable por la frecuencia total. En palabras ms simples, corresponde a la suma de un conjunto de datos dividida por el nmero total de dichos datos. La media resume en un valor las caractersticas de una variable teniendo en cuenta todos los casos. Solamente puede utilizarse con variables cuantitativas. La media aritmtica es, probablemente, uno de los parmetros estadsticos ms extendidos. Se le llama tambin promedio o, simplemente, media.

suma de todos los valores x1 x2 x3 x4 ... nmero total de datos n

Ejemplo: Se tienen las edades de cinco estudiantes universitarios de Ier ao, a saber: 18,23, 27,34 y 25., para calcular la media aritmtica o promedio de las edades, se tiene que:

28 23 27 34 25 127 25.4 aos 5 5

Las principales propiedades de la media aritmtica son: Su clculo es muy sencillo y en l intervienen todos los datos. Su valor es nico para una serie de datos dada. Se usa con frecuencia para comparar poblaciones, aunque es ms apropiado acompaarla de una medida de dispersin. Es poco sensible a fluctuaciones muestrales, por lo que es un parmetro muy til en inferencia estadstica Este parmetro, an teniendo mltiples propiedades que aconsejan su uso en situaciones muy diversas, tiene tambin algunos inconvenientes, como son Es una medida a cuyo significado afecta sobremanera la dispersin, de modo que cuanto menos homogneos sean los datos, menos informacin proporciona. Dicho de otro modo, poblaciones muy distintas en su composicin pueden tener la misma media.4 Por ejemplo, un equipo de baloncesto con cinco jugadores de igual estatura, 1,95 m, evidentemente, tendra una estatura media de 1,95 m, valor que 5

representa fielmente a esta poblacin homognea. Sin embargo, un equipo de jugadores de estaturas ms heterogneas, 2,20 m, 2,15 m, 1,95 m, 1,75 m y 1,70 m, por ejemplo, tendra tambin, como puede comprobarse, una estatura media de 1,95 m, valor que no representa a casi ninguno de sus componentes. En el clculo de la media no todos los valores contribuyen de la misma manera. Los valores altos tienen ms peso que los valores cercanos a cero. Por ejemplo, en el clculo del salario medio de un empresa, el salario de un alto directivo que gane 1.000.000 de pesos tiene tanto peso como el de diez empleados "normales" que ganen 1.000 pesos. En otras palabras, se ve muy afectada por valores extremos.

Moda (Mo)
Es la medida que indica cual dato tiene la mayor frecuencia en un conjunto de datos, o sea, cual se repite ms. Su clculo es extremadamente sencillo, pues slo necesita un recuento. Hablaremos de una distribucin bimodal de los datos, cuando encontremos dos modas, es decir, dos datos que tengan la misma frecuencia absoluta mxima. Cuando en una distribucin de datos se encuentran tres o ms modas, entonces es multimodal. Por ltimo, si todas las variables tienen la misma frecuencia diremos que no hay moda. La moda es la medida de tendencia central especialmente til para describir mediciones de tipo ordinal, de intervalos y nominal. Ejemplo: Determinar la moda en el siguiente conjunto de datos que corresponden a las edades de nias de un Jardn Infantil. 5, 7, 3, 3, 7, 8, 3, 5, 9, 5, 3, 4, 3 La edad que ms se repite es 3, por lo tanto, la Moda es 3 (Mo = 3) Ejemplo 2: 20, 12, 14, 23, 78, 56, 96 En este conjunto de datos no existe ningn valor que se repita, por lo tanto, este conjunto de valores no tiene moda. Sus principales propiedades son: Clculo sencillo. Interpretacin muy clara. Al depender slo de las frecuencias, puede calcularse para variables cualitativas. La moda tiene la ventaja de no ser afectada por valores extremos. Sus inconvenientes son: En muchas series de datos no hay moda porque ningn valor aparece ms de una vez. No siempre se sita hacia el centro de la distribucin. En algunas series de datos hay ms de una moda, en este caso uno podra preguntarse cul es el valor representativo de la serie de datos?

Mediana (Med)
Es el valor central de un conjunto de valores ordenados en forma creciente o decreciente. Dicho en otras palabras, la Mediana corresponde al valor que deja igual nmero de valores antes y despus de l en un conjunto de datos agrupados. Segn el nmero de valores que se tengan se pueden presentar dos casos: - Si el nmero de valores es impar, la Mediana corresponder al valor central de dicho conjunto de datos. - Si el nmero de valores es par, la Mediana corresponder al promedio de los dos valores centrales (los valores centrales se suman y se dividen por 2). Ejemplo: Se tienen los siguientes datos: 5, 4, 8, 10, 9, 1, 2 Al ordenarlos en forma creciente, es decir de menor a mayor, se tiene: 1, 2, 4, 5 , 8, 9, 10 El 5 corresponde a la Med, porque es el valor central en este conjunto de datos impares. Ejemplo 2: El siguiente conjunto de datos est ordenado en forma decreciente, de mayor a menor, y corresponde a un conjunto de valores pares, por lo tanto, la Med ser el promedio de los valores centrales. 21, 19, 18, 15, 13, 11, 10, 9, 5, 3

Las principales propiedades de la mediana son: No se ve afectada por la dispersin. De hecho, es ms representativa que la media aritmtica cuando la poblacin es bastante heterognea. Hay solo una mediana en una serie de datos. No es afectada por los valores extremos ( altos o bajos ) Puede ser calculada en distribuciones con escala relativa, de intervalos, y ordinal. Sus principales inconvenientes son que en el caso de datos agrupados en intervalos, su valor vara en funcin de la amplitud de estos. Por otra parte, no se presta a clculos algebraicos tan bien como la media aritmtica.

Medidas de Dispersin
Se llaman medidas de dispersin aquellas que permiten retratar la distancia de los valores de la variable a un cierto valor central, o que permiten identificar la concentracin de los datos en un cierto sector del recorrido de la variable. La dispersin es importante porque proporciona informacin adicional que permite juzgar la confiabilidad de la medida de tendencia central. Si los datos se encuentran ampliamente dispersos, la posicin central es menos representativa de los datos.

Rango (R)
El rango o recorrido estadstico es la diferencia entre el valor mnimo y el valor mximo en un grupo de nmeros aleatorios. Requisitos del rango Ordenamos los nmeros segn su tamao. Restamos el valor mnimo del valor mximo. Ejemplo Para una muestra (8,7,6,9,4,5), el dato menor es 4 y el dato mayor es 9 (Valor unitario inmediatamente posterior al dato mayor menos el dato menor). Sus valores se encuentran en un rango de: Rango = (9-4) =5 Propiedades del Rango o Recorrido: El recorrido es la medida de dispersin ms sencilla de calcular e interpretar puesto que simplemente es la distancia entre los valores extremos (mximo y mnimo) en una distribucin. Puesto que el recorrido se basa en los valores extremos ste tiende a ser errtico. No es extrao que en una distribucin de datos econmicos o comerciales incluya a unos pocos valores en extremo pequeos o grandes. Cuando tal cosa sucede, entonces el recorrido solamente mide la dispersin con respecto a esos valores anormales, ignorando a los dems valores de la variable. La principal desventaja del recorrido es que slo est influenciado por los valores extremos, puesto que no cuenta con los dems valores de la variable. Por tal razn, siempre existe el peligro de que el recorrido ofrezca una descripcin distorsionada de la dispersin.

Varianza (2, S2)


La varianza es una medida estadstica que mide la dispersin de los valores respecto a un valor central (media), es decir, la media de las diferencias cuadrticas de las puntuaciones respecto a su media aritmtica.
Esta puede ser calculada, cuando se trata de muestras con:

Y en el caso de que sea una poblacin, calculamos con:

Ejemplo: Se tienen las edades de cinco estudiantes universitarios de Ier ao, a saber: 18,23, 25, 27, y 34. Al calcular la media aritmtica (promedio de las edades, se obtuvo 25.4 aos, encontrar la varianza de las edades de estos estudiantes: Para calcular se utiliza una tabla estadstica de trabajo de la siguiente manera:

Xi
18 23 25 27 34 Total

i X

(18 25.5)=-7.4 (23 25.5)=-2.4 (25 25.5)=-0.4 (27 25.5)= 1.6 (34 25.5)= 8.6

(-7.4)2=54.76 (-2.4)2= 5.76 (-0.4)2= 0.16 ( 1.64)2= 2.16 ( 8.6)2 =73.96 137.20

Respuesta: la varianza de las edades es de 27.4 aos Propiedades La varianza es siempre positiva o 0: Si a los datos de la distribucin les sumamos una cantidad constante la varianza no se modifica. Yi = Xi + k c

Si a los datos de la distribucin les multiplicamos una constante, la varianza queda multiplicada por el cuadrado de esa constante.

Desviacin tpica (, S)
La varianza a veces no se interpreta claramente, ya que se mide en unidades cuadrticas. Para evitar ese problema se define otra medida de dispersin, que es la desviacin tpica, o desviacin estndar, que se halla como la raz cuadrada positiva de la varianza. La desviacin tpica informa sobre la dispersin de los datos respecto al valor de la media; cuanto mayor sea su valor, ms dispersos estarn los datos. Desviacin tpica muestral

Desviacin tpica poblacional

Tambin se puede calcular de forma sencilla, si se conoce la varianza, por cuanto que es la raz cuadrada positiva de esta. Ejemplo: Del clculo de la varianza de las edades de cinco estudiantes universitarios de primer ao se obtuvo 2=27.44, como la desviacin estndar es la raz cuadrada positiva, entonces = 27.44 = 5.29 aos. A su vez la desviacin estndar, tambin tiene una serie de propiedades que se deducen fcilmente de las de la varianza (ya que la desviacin tpica es la raz cuadrada positiva de la varianza): Es la medida de dispersin ptima por ser la ms pequea. La desviacin estndar toma en cuenta las desviaciones de todos los valores de la variable Si a todos los valores de la variable se le suma una misma constante la desviacin estndar no vara. Si a todos los valores de la variable se multiplican por una misma constante, la desviacin estndar queda multiplicada por el valor absoluto de dicha constante.

Prueba de Hiptesis: (Comparacin de Proporciones y de Medias). Comparacin de proporciones (X y Valor P):


En las investigaciones de salud muchas veces queremos probar si la frecuencia de una condicin es significativamente diferente entre dos o ms grupos, como en grupos que reciben tratamientos diferentes o que han sido expuestos a factores ambientales. Por ejemplo, podramos querer probar si un sntoma es menos frecuente en un grupo que ha recibido un tratamiento en comparacin con un grupo que recibi un tratamiento estndar. Asimismo podramos probar si los nios que son amamantados tienen menor nmero de infecciones respiratorias que nios que son alimentados con frmula. 10

Para este tipo de preguntas, en las que tanto el resultado y el nivel de exposicin son variables que pueden ser clasificadas en categoras (como por ejemplo la presencia o ausencia de sntomas), utilizamos la prueba estadstica de chi-cuadrado para comprobar si hay o no buena evidencia que demuestre que hay una relacin entre las variables evento y exposicin. Cabe destacar que el valor P obtenido de una prueba de chi-cuadrado indica la posibilidad de que la diferencia en las probabilidades del resultado entre los dos grupos haya ocurrido por casualidad.

Tablas de contingencia
Cuando exploramos una relacin entre dos variables categricas, la informacin debe ser organizada en primer lugar, utilizando una tabla de contingencia como la que se muestra a continuacin en la Tabla 1. La tabla de contingencia que se muestra es llamada tabla 2 x 2 ya que hay dos categoras para las variables enfermedad (columnas) y exposicin (filas). Sin embargo, las tablas de contingencia pueden ser mayores en tamao cuando el resultado (evento) o la exposicin, tienen ms de dos categoras, por ejemplo, tablas de 2 x 3 3 x 3. Tabla 1. Con FR Sin FR Total Enfermos (casos) A C a+c Sanos (controles) B D b+d Total a+b c+d N

El grado de relacin existente entre dos variables categricas no puede ser establecido simplemente observando las frecuencias de una tabla de contingencia. La simple observacin de las frecuencias no puede llevarnos a una conclusin definitiva, aunque si puede darnos alguna pista. Para determinar si dos variables se encuentran relacionadas debemos utilizar alguna medida de asociacin, preferiblemente acompaada de su correspondiente prueba de significacin.

Chi-cuadrado
Es un estadstico propuesto por Pearson (1911) que permite contrastar la hiptesis de que los dos criterios de clasificacin utilizados (las dos variables categricas) son independientes. Para ello compara las frecuencias observadas (las frecuencias de hecho obtenidas) con las frecuencias esperadas (las frecuencias que tericamente deberamos haber encontrado en cada casilla si las dos variables fueran independientes). Las celdas interiores de una tabla de contingencia muestran el nmero de personas en cada uno de los grupos de enfermedad/exposicin. Cuando utilizamos la prueba de chi-cuadrado, cada persona debe ser incluida en la tabla una nica vez. Algunas veces, las personas pueden ser representadas ms de una vez en un conjunto de datos, por ejemplo si han sido estudiados en dos o ms ocasiones por razones como readmisiones o por exmenes en dos extremidades. Si una persona tiene dos o ms historias en un archivo, entonces slo una de esas historias puede utilizarse para el anlisis de chi-cuadrado y por tanto debe tomarse una decisin en cuanto a cul de ellas utilizar, como por ejemplo tomar slo el primero de los dos casos, etc. La inclusin de una persona ms de una vez en un anlisis de chi-cuadrado, violara la principal asuncin de esta prueba, es decir, que todas las observaciones son independientes. Las pruebas de chi-cuadrado son fcilmente calculadas utilizando un programa estadstico o algn programa disponible en Internet, como es el caso de Simple Interactive Statistical Analysis (SISA) 11

http://home.clara.net/sisa. Gran parte de los programas estadsticos nos muestran un rango de valores diferentes de chi-cuadrado para tablas 2 x 2. As como se muestra en la Tabla 2, el valor apropiado depende tanto del tamao de la muestra como del nmero de casos esperados en cada celda de la tabla de contingencia. Los casos esperados, son los nmeros que se esperara que se obtuvieran en cada celda si la hiptesis nula de no-relacin entre las dos variables fuera verdadera. Es una Prueba estadstica que ayuda a establecer la presencia de una asociacin entre la exposicin de un factor que se considera de riesgo y la ocurrencia de una enfermedad. En esta prueba se establece se busca analizar la asociacin causal entre la exposicin y la ocurrencia de una enfermedad, X2 nos permite aceptar o descartar hiptesis, H1 H0. Tabla 2. Cundo usar cada chi-cuadrado Estadstico Descripcin Chi-cuadrado de Aproximacin para muestras Pearson grandes

Correccin por continuidad Test exacto de Fisher

Ajustado para muestras pequeas Usado cuando una de las frecuencias esperadas es baja

Aplicacin Se usa cuando el tamao de la muestra es grande. Al menos el 80% de las celdas deben de tener una frecuencia esperada mayor de 5. Se usa cuando el tamao de la muestra es pequeo. Est disponible slo para tablas 2x2. Se usa cuando una o ms celdas en una tabla 2x2 tienen una frecuencia esperada menor de 5.

A pesar de que un valor de chi-cuadrado se puede obtener muy fcilmente utilizando un programa estadstico, es bueno que se comprenda como se lleva a cabo para as ayudar a su interpretacin. El clculo del valor del chi-cuadrado de Pearson es bastante sencillo. Primero, el valor esperado para cada celda de la tabla de contingencia es calculado al multiplicar la fila Total por la columna Total de la celda y dividiendo este nmero entre el tamao de la muestra. En la Tabla 1, el nmero esperado de la celda a sera (a+b) x (a+c) / Total. Cada valor de las celdas es simplemente el nmero predicho por la probabilidad de exposicin y la probabilidad de enfermedad de la muestra. El valor del chi-cuadrado de Pearson se obtiene al sumar las desviaciones entre los valores esperados y los valores observados en cada celda, como sigue: Chi-cuadrado de Pearson = Sum (Valores Observados Valores Esperados)2 / Valores Esperados

X2

Oi - Ei 2
Ei

El valor de chi-cuadrado calculado de esta manera se compara con un valor tabulado tomado de la tabla de distribucin de probabilidades tericas de chi-cuadrado (Ver anexos). Este valor terico corresponde al que se esperara encontrar si los resultados observados ocurrieran puramente al azar. A este valor terico se le llama valor crtico: si el valor observado es mayor que el valor crtico se concluye que la diferencia observada no es debida al azar y se dice que es estadsticamente significativa. El valor crtico indica el nivel de significancia de la prueba, que expresa la probabilidad de que la diferencia observada haya ocurrido por azar. Usualmente la probabilidad utilizada en investigaciones en salud es de 5% y se denota como p<0.05. El complemento de esta probabilidad se llama nivel de confianza, en general, 95%. 12

Con este valor de confianza, el valor crtico en una tabla de 2x2, con un (1) grado de libertad (gl), es 3.84 (Ver anexos). Si el valor observado es mayor, se concluye que existe asociacin entre exposicin y enfermedad, estadsticamente significativa al nivel de 5% de significancia (95% de confianza). Los grados de libertad de la tabla se refieren al nmero mnimo de celdas que se requieren para conocer los valores de las otras celdas, dado que se conozcan los marginales, y son iguales a (F 1)(C 1), donde (F) es igual al nmero filas y (C) el nmero de columnas. El valor crtico va a depender del tamao de la tabla de contingencia y del nivel de significancia estadstica que escojamos. Por lo que decimos que existe un chi-cuadrado de tabla o valor crtico para un tamao especfico de tabla y para un nivel de significancia especfico. Obviamente, si el nmero de valores esperados es prximo al nmero de valores observados, el valor del chi-cuadrado estar cerca de cero y por tanto no ser significativo. Mientras mayor es la diferencia entre los valores observados y los esperados, mayor es la posibilidad de que el chi-cuadrado sea estadsticamente significativo, indicando as una muy baja probabilidad de que la asociacin haya ocurrido por casualidad y que por tanto, existe buena evidencia de que la exposicin y la enfermedad estn relacionadas. El chi-cuadrado es un estadstico aproximado basado en la suposicin de un tamao de muestra grande. Por lo que para que constituya una buena aproximacin, conviene que se cumplan algunas condiciones; entre ellas, que las frecuencias esperadas no sean demasiado pequeas. Suele asumirse que, si existen frecuencias esperadas menores que 5, stas no deben superar el 20% del total de frecuencias esperadas. La salida del SPSS muestra un mensaje indicando el valor de la frecuencia esperada ms pequea; si existe alguna casilla con frecuencia esperada menor que 5, la salida tambin muestra el porcentaje que estas representan sobre el total de casillas de la tabla. En el caso de que ese porcentaje supere el 20%, se recomienda escoger otro estadstico. Sin embargo, hay otros valores de chi-cuadrado que se ajustan a muestras ms pequeas. Si el nmero de esperados en cualquier celda de la tabla de contingencia es menor que 5, una prueba exacta de Fisher se debera utilizar, en lugar del chi-cuadrado de Pearson. (Ver Tabla 2)

NOTAS -Para un valor de chi-cuadrado correcto, al menos el 80% de las celdas de la tabla de contingencia deben tener un valor mayor de 5. -El valor P de una prueba de chi-cuadrado est influenciado por el tamao de la muestra. Mientras menor sea la muestra, menos significativo ser el valor P para la prueba de chi-cuadrado.

EJEMPLOS 1. Se han estudiado 60 casos de pacientes con cncer en la cavidad bucal, queremos saber si la estirpe celular pudiera ser distinta de acuerdo a la localizacin. Tabla 3. Localizacin y estirpe celular de los cnceres en cavidad bucal. Localizacin Estirpe celular Paladar Enca Lengua Total Carcinoma 4 8 24 36 Otros tipos 7 11 6 24 11 19 30 60

13

Primero. Formulacin de Hiptesis H0: La estirpe celular no difiere de acuerdo a la localizacin anatmica. H1: La estirpe celular difiere de acuerdo a la localizacin anatmica. Segundo. Establecer un nivel de significancia y los grados de libertad Nivel de significancia: =0.05 GL= (F-1) (C-1) GL= (2-1) (3-1) GL= (1) (2) = 2 En la distribucin chi-cuadrado el nivel de confianza es lo que complementa al nivel de significancia, por lo que para un nivel de significancia de 0.05 (5%) tendremos un nivel de confianza de 0.95 (95%), que junto con los grados de libertad los utilizamos en la tabla de distribucin para ubicar el valor crtico o chi-cuadrado de tabla correspondiente.

Por lo que el chi-cuadrado de tabla que corresponde en este caso es de 5.99. Tercero. Aplicacin de la prueba estadstica.

X
2

Oi - Ei 2
Ei

Ecuacin que se puede realizar con un software estadstico, como el Statistical Package for the Social Sciences (SPSS). Cuarto. Comparar el valor calculado con el que puede ocurrir por el azar. El resultado de la prueba chi-cuadrado es de 10.99, valor que es superior al 5.99 de tabla, por lo tanto estamos en la zona de rechazo de la hiptesis nula y de aceptacin de la hiptesis alterna. 14

Aqu calculamos la probabilidad de que al rechazar la hiptesis nula cometamos un error, esto es el valor de p. El programa estadstico tambin lo calcula y en este caso es de 0.006. Esta es la probabilidad de cometer un error al rechazar la hiptesis nula, esta es una probabilidad bastante baja por lo que diremos que es correcto afirmar lo que dice la hiptesis alterna: La frecuencia del carcinoma difiere de acuerdo a la localizacin anatmica.

2. Estudiamos una muestra de 500 nios para saber si existe asociacin entre el estado nutricional (pobre, bueno) y los resultados acadmicos (malos, satisfactorios). Tabla 4. Relacin entre estado nutricional y resultados acadmicos Malos Satisfactorios Total Pobre 105 80 120 Bueno 15 300 380 Total 185 315 500 Hiptesis H0. El estado nutricional y los resultados acadmicos son independientes. H1. Las dos variables no son independientes. Rechazamos H0 si el valor de chi-cuadrado calculado es igual o mayor que el tabulado. Clculo del estadstico chi2 1) Obtencin de las frecuencias esperadas: para cada casilla, el valor de la frecuencia esperada es total filas x total columnas/total. En este caso: Tabla 5. Frecuencias esperadas por el azar Malos Satisfactorios Total Pobre 44.4 140.6 120 Bueno 75.6 239.4 380 Total 185 315 500 X2= (105-44.4)2/44.4 + (80-140.6)2/140.6 + (15-75.6)2/75.6 + (300-239.4)2/239.4 X2= 177.7, que es mayor que el valor de chi-cuadrado de tabla. (3.84) Rechazamos Ho, ya que el valor calculado es superior al tabulado, y concluimos que existe asociacin entre el estado nutricional y los resultados acadmicos con un p<0,05.

3. Los datos de un estudio para examinar el efecto de exposicin al humo ambiental de tabaco sobre la prevalencia de infeccin respiratoria en los primeros aos de vida en 1200 los nios se muestran en la Tabla 6. La exposicin se defini como tener un padre que fumaba y la enfermedad se defini como haber recibido tratamiento para la bronquitis por un mdico o en un hospital durante los dos primeros aos de vida. 15

Tabla 6. Exposicin al humo del tabaco y presencia de bronquitis en edad temprana. Bronquitis Sin Bronquitis Total Padre fumador 45 (15.0%) 255 (85.0%) 300 (10.0%) Padre no fumador 90 (10.0%) 810 (90.0%) 900 (100.0%) Total 135 (11.3%) 1065 (88.8%) 1200 (100.0%) La Tabla 6 muestra que de un total de 1200 nios 300/1200, es decir, 25% de los estos fueron expuestos a padres fumadores y 135/1200, para un 11.3% fueron tratados por bronquitis. En tablas como estas, el porcentaje a lo largo de las filas nos ayuda a interpretar la asociacin entre dos variables porque proveen un estimado del efecto en cada caso. Los porcentajes de las filas muestran que 15% de los nios que fueron expuestos a padres fumadores fueron tratados por bronquitis en comparacin con un 10% de los nios que no fueron expuestos. La prueba de chi-cuadrado se utiliza para determinar si esta diferencia de 5% en la frecuencia de bronquitis entre los dos grupos es estadsticamente significativa, o si por el contrario ha ocurrido por casualidad. El valor P indica la estrechez de la asociacin entre la variable de exposicin (padre fumador) y la variable de resultado (tratamiento para bronquitis). El valor del chi-cuadrado de Pearson es 5.63 y el P= 0.018, indicndonos as que los nios que han sido expuestos a padres fumadores tienen una posibilidad significativamente mayor de padecer de bronquitis en comparacin con los nios que por el contrario no fueron expuestos a un padre que fuma. Sntesis de como elaborar un X2 correctamente: Pasos: 1. Construir una tabla de contingencia. 2. Elaborar H0 y H1 (recordemos que la hiptesis alternativa es la que siempre se va a apegar al criterio que sea ms cientficamente correcto de acuerdo a los conocimientos generales que tenemos y previa documentacin acerca del fenmeno estudiado). 3. Determinar los grados de libertad y significancia. GL: se definen como el nmero de categoras o variables independientes existentes; para determinarlos dependeremos directamente del tipo de tabla de contingencia con la que estemos trabajand0. calcularemos los grados de libertad haciendo el siguiente clculo: As por ej. si estamos trabajando con una tabla 2x2: 2x2= (2-1) (2-1)= (1) (1)= 1, lo cual nos dice que estamos trabajando con un (1) grado de libertad. S fuese 2x3: 2x3= (2-1) (3-1)= (1) (2)= 2. NS: es el complemento del nivel de confianza y se corresponde con l % de error permitido, en todo caso a menos que se nos den datos distintos, pero es importante saber que a partir de un de los dos se puede deducir fcilmente el otro. Dicho de este modo el nivel de significancia ideal ser 0.05 (valor a usar) equivalente al 5% de error permitido y se corresponder por lgica con un 95% de confianza.

Nota: estos dos valores GL y NS se utilizan para ser cruzados a modo de coordenada en la tabla de valores de 16

X2 y hallar un valor crtico comparable con el valor de nuestra prueba, as por ejemplo si vamos ms arriba y cruzamos GL=1 y NS=0.05 obtendremos un valor crtico = 3.84. 4. Calculamos el valor de nuestra prueba de X2:

X2

Oi - Ei 2
Ei

Donde: O= es el valor observado aquel dato numrico que se nos da directamente de una categora especifica que se corresponde a las frecuencias observadas. E= es el numero o valor terico esperado. Esto se obtiene para cada celda central en la tabla de contingencia multiplicando sus totales marginales correspondientes y dividiendo este producto por el gran total. Por ej. Enfermos (casos) A C a + c=L Sanos (controles) B D b + d=M Total a + b=O c + d=P N

Con FR Sin FR Total

Valor Observado para la celda del valor A= (O*L)/N o bien dicho en otras palabras el cociente del producto del subtotal marginal a+c y el subtotal marginal a+b, por el gran total general N; Valor Observado para D=(P*L)/N; etc. As por el estilo calculamos los valores observados para cada celda, y luego aplicamos la formula de X2. 5. Realizamos el anlisis del resultado y discernimos entre H1 y H2: Si el valor obtenido del clculo de la prueba de X2 es menor que el valor crtico correspondiente, eso significa que se aprueba la H0 y se descarta la H1, lo que quiere decir que hubieron factores diversos que modificaron lo que se supone debera de suceder y que las frecuencias observadas fueron por casualidad o por alguna razn relacionada. Ahora bien si ocurre lo contrario y el valor obtenido del clculo de la prueba de X2 supera el valor crtico esto quiere decir que se aprueba la H1 y se descarta la H0, y mientras mayor sea X2 en relacin al valor crtico y ms an superando el valor de 16.6 ms contundente ser la hiptesis nula. Ejemplo de todos lo explicado: En una localidad rural de 760 habitantes, situada en una zona malrica, se observo que, en el ltimo ao, la incidencia acumulada de malaria en campesinos fue de 88.2 por mil, mientras que en la poblacin no campesina fue de 55.8 por mil. De acuerdo al censo local ms reciente, en la comunidad hay 204 campesinos. Interesa saber si la ocupacin campesina se asocia a la malaria. Los datos que resumen la situacin descrita son: Con malaria 18 31 49 Sin malaria 186 525 711

Campesino No campesino

204 556 760 17

Inc. = 18/204: 88.2 tasa por mil Inc. = 31/556: 55.8 tasa por mil Desde el punto de vista estadstico interesa saber si hay diferencia significativa entre las dos medidas de incidencia acumulada. En este caso aplicamos la prueba de chi-cuadrado. Resumiendo todos los pasos (construimos nuestra tabla; elaboramos hiptesis H1 y H0 donde asumiramos que si hay relacin en este caso; NS=0.05 y NS=0.05 donde VC=3.84; realizo el clculo; analizo). Realizacin del clculo:

X2

Oi - Ei 2
Ei

VO y VE: Para 18. VE= (204*49)/760=13.2 Para 31. VE= (556*49)/760=35.8 Para 186. VE= (204*711)/760=190.8 Para 525. VE= (556*711)/760=520.2 Con malaria Campesino No campesino 18 31 49 Sin malaria 13.2 186 35.8 525 711 190.8 204 520.2 556 760

Aplicamos la formula: X2=[(18-13.2)/13.2]+[(186-190.8)/190.8]+[(31-35.8) /35.8)]+[(525-520.2) /520.2]=2.56 Analizamos: 2.56<3.84, por lo que se aprueba H0. Para hacer mayores deducciones del por qu usaramos la prueba de valor P para hallar significancia estadstica.

Valor P:
No es otra cosa que la posibilidad que hay de obtener un valor crtico parecido al valor observado para comprobar la hiptesis propuesta o, en caso de obtencin de un valor ms extremo comprobar la hiptesis de nulidad. El valor P es un refuerzo al X, pues este indica si la asociacin causal es estadsticamente

significativa y si nos podemos deshacer de H0 o H1 de modo definitivo, segn sea el caso. (ver documento Anexo sobre Valor P).

18

Vous aimerez peut-être aussi