Vous êtes sur la page 1sur 21

APUNTES DE BIOESTADSTICA

Lic. Gabriela Serralunga Ms. Loreto Yaez

AO 2010

FUNCION DE LA ESTADISTICA EN LAS CIENCIAS DE LA SALUD

Qu es la Estadstica?
Es un conjunto de mtodos que nos permiten aprender a partir de la experiencia. Es la maquinaria del mtodo cientfico .Es la ciencia que se ocupa de resumir y analizar datos sujetos a variaciones aleatorias. Es la mejor forma de anticipar, detectar, medir, reducir y en definitiva manejar la incertidumbre.

Por qu como profesional de la salud debo preocuparme por la Estadstica?


Porque la medicina es cada vez es ms cuantitativa. Para evaluar crticamente la literatura mdica y poder distinguir entre informacin correcta e incorrecta, incorporando as la experiencia de los dems para la toma de decisiones.

Porque la planificacin, realizacin e interpretacin de la investigacin en medicina, descansa cada vez ms sobre la metodologa estadstica.

En qu formas interviene la Estadstica en la investigacin biomdica?


En el diseo de la experiencia desde el comienzo, desde el Protocolo, con el fin de lograr la mayor eficiencia con el menor esfuerzo y al menor costo. En la recopilacin de los datos, determinando el tipo de muestreo y el tamao de la muestra. En el anlisis de los datos: Formas de organizar y presentar la informacin como tablas, grficos y medidas resumen: Estadstica descriptiva. Manejo de la incertidumbre, cuantificando y reduciendo la intervencin del azar: Estadstica inferencial.

CAPITULO 1 ESTADISTICA DESCRIPTIVA: PRESENTACION Y RESUMEN DE LA INFORMACION


1.1 Cuantificacin de los problemas de salud. Fuentes de datos. 1.2 Escalas de medicin: nominal, ordinal y numrica (discretas y continuas). 1.3 Presentacin de la informacin Tablas: Tabla de distribucin de frecuencias. Grficos: De sectores circulares, de barras, histograma, polgono de frecuencias, de lneas, diagrama de dispersin, diagrama de puntos, grfico de cajas. 1.4 Medidas resumen Proporciones, razones y tasas. Medidas de centralizacin: media aritmtica, moda, mediana. Medidas de dispersin: rango, rango intercuartlico, desvo estndar, varianza, coeficiente de variacin. Medidas de orden: Cuartiles y percentiles.

1.1 CUANTIFICACIN DE LOS PROBLEMAS DE SALUD


La medicina es cada vez ms cuantitativa. Toda cuantificacin comporta una medicin. Imaginemos por un momento si no hubiera medidas de peso, temperatura o presin arterial. Todo quedara librado a la intuicin, la suposicin o la evaluacin subjetiva. Las mediciones permiten resultados objetivos, verificables, precisos, comparables y comunicables. El anlisis estadstico constituye un mtodo para presentar esta informacin cuantitativa en forma comprensible. Sin la ayuda de la estadstica, los datos cuantitativos recolectados podran resultar una masa catica de nmeros. Los procedimientos estadsticos permiten organizar, resumir y analizar conjunto de datos y comunicar la informacin por ellos generada. Una cuantificacin del problema permite la comparacin y una adecuada interpretacin y comprensin de los problemas de salud. De esa cuantificacin se obtiene informacin relevante para la toma de decisiones. La caracterstica que el investigador desea medir se denomina variable ya que puede diferir de un individuo a otro. Por ejemplo, altura, temperatura corporal, dolor, angustia preoperatoria, etc. Los valores que adoptan las variables en la realidad, constituyen los datos. En la investigacin cuantitativa, estos valores se expresan numricamente . Slo cuando los datos se organizan y resumen, se convierten en informacin; esta informacin nueva, al ser analizada e integrada con informacin ya existente, constituyen la base del conocimiento. FORMAS DE RECOLECCIN DE DATOS Los datos pueden obtenerse mediante tres mtodos bsicos:

Observacin: incluye desde la simple observacin, hasta mediciones in vivo (por ejemplo, medicin de la temperatura corporal) e in vitro (obtenidos en laboratorio). Registro: es una recoleccin sistemtica, peridica, continua y en ocasiones permanente. Por lo general genera datos secundarios. Por ejemplo, las Estadsticas vitales. Encuestas: es una recoleccin sistemtica pero eventual. Si se realizan al total de la poblacin se llaman censos. Por lo general producen datos de tipo primario.

No existe un mtodo instrumento perfecto para la recoleccin de datos; todos tienen ventajas y limitaciones, por lo que es conveniente combinar dos ms de ellos. FUENTES DE DATOS Los datos pueden existir o pueden ser obtenidos por mtodos planificados por quien los necesita. De acuerdo a esto se reconocen dos tipos de fuentes de datos:

Secundarias documentales: tienen datos que ya existen y que fueron recolectados por
otras personas y con fines diferentes a los fines de quien va a utilizarlos. Ejemplos: certificados de defuncin, registros especficos, estadsticas hospitalarias, etc. Son una forma rpida y econmica de recabar datos. Tienen algunas limitaciones que deben conocerse para evitar errores en la interpretacin de la informacin por ellas generada. Cuanto mayor desarrollo socioeconmico tiene un pas, mayor es la cobertura y calidad de sus registros. Las fuentes secundarias pueden ser de carcter permanente eventual:

Fuentes secundarias de carcter permanente: Estadsticas Vitales elaboradas por la Direccin Nacional de Estadsticas de Salud con datos sobre nacimientos, defunciones, y matrimonios provistos por el Registro Civil. Estadsticas hospitalarias Fuentes secundarias de carcter eventual: Censos Empadronamientos Encuestas Nacionales que aportan, por ejemplo, datos de mortalidad y morbilidad.

Primarias de recoleccin directa: contiene datos obtenidos por mtodos planeados y


provocados por quien los necesita, para sus fines especficos. Ejemplos: mediciones in vivo e in vitro, encuestas, etc. Requieren ms tiempo y dinero para su obtencin, pero se logra una mayor especificidad en la recoleccin del dato primario. ACLARACION: Es importante distinguir fuente de datos, de forma de recoleccin de datos. La forma de recoleccin puede ser la misma, por ejemplo una encuesta, pero lo que distingue a si la fuente es primaria secundaria, es que en este ltimo caso, la recoleccin se realiza con otros fines y por personas ajenas a quien utilizar los datos de esa encuesta.

1.2 ESCALAS DE MEDICION


En un estudio no basta con identificar las variables; es necesario definirlas en forma precisa a fin de evitar confusiones o ambigedades. Este proceso por el cual se definen exactamente cmo sern medidas, se llama operacionalizacin de la variable. Es importante definirlas claramente para permitir la reproducibilidad de un estudio y la comparacin con otros estudios. Por ejemplo, dos definiciones operativas diferentes de hipertensin, podran ser: Definicin 1: Presin diastlica mayor a 110 mm en cualquier momento. Definicin 2: Presin diastlica mayor a 90 mm en dos o ms mediciones consecutivas. La definicin operativa adoptada, determinar la escala de medicin de una variable. Los mtodos de presentacin de los datos y el anlisis estadstico subsecuente, dependen principalmente de la escala de medicin utilizada. Existen tres grandes categoras de escalas de medicin:

a. Escala nominal
Se usan para la forma ms simple de medicin, cuando la variable es una cualidad. Los datos valorados en esta escala se llaman observaciones cualitativas, categricas atributos. Ejemplos: Grupo sanguneo (A, B, AB, O); Grupo tnico (Blanco, Indgena, Mestizo) Si el nmero de categoras posibles se reduce a dos, la variable se dice dicotmica binaria. Por ejemplo: Sano - Enfermo; Vivo - Muerto; Varn - Mujer.

b. Escala ordinal
Se asignan rangos a las categoras que indican un orden natural. Permiten clasificar los objetos de acuerdo a su posicin relativa con respecto a los dems, pero sin indicar cunto mayor es un atributo de un nivel respecto a otro nivel. Aunque existe un orden entre las categoras, la diferencia entre dos grupos adyacentes no es uniforme a lo largo de la escala. Ejemplos: Disnea leve, moderada, grave; Estado de carcinoma de cuello uterino (I a IV); Nivel socioeconmico. No podemos decir que la persona con estado IV de cncer de cuello de tero, est el doble de grave respecto a otra que tiene II.

c. Escala numrica cuantitativa


Las observaciones individuales son cantidades numricas, por lo general mediciones recuentos. Se clasifican en: Discretas: La observacin slo puede medirse en valores enteros. Se originan en recuentos. Ejemplos: Paridad (nmero de partos); Gravidez (Nmero de gestaciones), Nmero de fracturas. Continuas: Las observaciones provienen de mediciones y pueden adoptar un intervalo de valores continuo e ininterrumpido, restringido slo por el grado de precisin del instrumento de medicin. Ejemplos: Peso; Presin sangunea; Nivel de colesterol, Nivel de glucosa. Los tres niveles de medicin constituyen una jerarqua que va de la escala cuantitativa en el extremo superior a la nominal en la base. Cuando se pasa de un nivel alto de medicin a uno ms bajo, siempre se pierde informacin. Siempre es posible manipular los datos para bajar de nivel, pero no al contrario. Al operacionalizar las variables conviene seleccionar la escala de medicin tan alta como sea posible. Esto ofrece mayor informacin y mayores posibilidades de aplicar procedimientos estadsticos diferentes.

Codificacin de las variables


Cuando las variables estn en escala nominal u ordinal, y con el fin de procesar los datos, es necesario transformar los datos verbales a nmeros; se deben asignar cdigos numricos a cada uno de los valores que puede adoptar la variable. Este proceso se conoce como codificacin. En una escala nominal estos cdigos numricos no indican una informacin cuantitativa, sino que son slo rtulos o carteles que designan las categoras. Por ejemplo, si asignamos para la variable "sexo": 1 =Masculino y 2=Femenino, esta codificacin podra invertirse reemplazarse por 0 y 1, sin que se alteren los resultados. Con estos nmeros no puede operarse matemticamente. En una escala ordinal, los nmeros asignados deben respetar la posicin relativa de las categoras. Si estamos midiendo "grado de satisfaccin", debemos asignar por ejemplo: 1=No satisfecho, 2=Algo satisfecho, 3=Muy satisfecho, siguiendo el orden subyacente. Cuando la variable mide "Presencia" "Ausencia" de un atributo, se estila codificar: 0=Ausencia, 1=Presencia. Variables dependientes y variables independientes En un estudio, las variables cumplen diferentes funciones. Existe generalmente una variable principal, llamada variable dependiente, que se pretende comprender, explicar o predecir, y una serie de otras variables relacionadas con aquella, llamadas variables independientes que se utilizan para explicar a la primera. Muchos estudios buscan determinar la causa de un determinado fenmeno. Por ejemplo, si se quiere determinar si fumar produce cncer de pulmn: la causa (tabaquismo) sera la variable independiente, y el efecto (cncer de pulmn), la variable dependiente. Las variables no son inherentemente dependientes independientes; la asignacin de una u otra depende del papel que desempean en la investigacin. Una misma variable puede ser dependiente en un estudio e independiente en otro. Si en un estudio, cada variable se analiza individualmente, el anlisis se dice univariado; si se analizan dos variables simultneamente analizando la existencia y magnitud de las relaciones entre ellas, el anlisis se dice bivariado, y si se analizan ms de dos a la vez, ser multivariado.

1.3 PRESENTACION DE LA INFORMACION


Las formas ms utilizadas de presentar la informacin son las Tablas y/o Grficos. Las tablas aportan una descripcin ms detallada de los datos, mientras que en los grficos se pueden observar los patrones generales. Ambos son muy tiles como una forma de explorar la informacin antes de analizarla, para comprenderla y recordarla fcilmente.

TABLAS
Una buena tabla es aquella en que los patrones y excepciones son obvios de un vistazo. Para ello hay ciertas reglas bsicas que debern seguirse: a) No pretender presentar demasiada informacin; el lector puede necesitar mucho tiempo para interpretarla y puede perderse el objetivo que los autores estn tratando de comunicar. b) Deben incluir ttulos, leyendas completas y unidades de medida.

c) Deben redondearse las cifras limitando el nmero de dgitos, de forma de alcanzar no ms precisin que la necesaria. (Para la presentacin, no para el anlisis posterior). d) Las cifras se comparan ms fcilmente en columnas. e) Deben espaciarse adecuadamente filas y columnas; ni tan juntas que los nmeros queden amontonados, ni tan separadas que el ojo deba esforzarse para recorrerlas. ACLARACION PARA EL LECTOR: En este apunte, los ejemplos utilizados para "PRESENTACIN DE LA INFORMACIN" y "MEDIDAS RESUMEN", se encuentran agrupados desde la pgina 14 hasta la pgina 20. Oportunamente al desarrollar estos temas nos remitiremos a ellos indicando su nmero de Tabla de distribucin de frecuencias pgina. Las distribuciones de frecuencias representan un mtodo para presentar ordenadamente un conjunto de datos. Constituyen un arreglo sistemtico de diferentes categoras, valores individuales intervalos de valores de la variable, junto con un recuento del nmero de veces que se obtuvo cada valor; por lo tanto pueden utilizarse para datos medidos en cualquiera de las tres escalas de medicin. Su elaboracin es sencilla, consta bsicamente de dos componentes: los valores mediciones de la variable (x) y el recuento de las observaciones pertenecientes a cada uno de esos valores frecuencia absoluta (f). Si la variable es nominal, la frecuencia se indica para cada valor de la variable. ( Tabla 1. Pg. 14). Si la variable es ordinal numrica discreta, y el rango de valores que puede tomar es reducido, la frecuencia puede indicarse en cada valor de la variable. (Tabla 2. Pg 14); en cambio si los valores posibles presentan una amplitud muy grande, conviene agrupar los datos en intervalos que sean mutuamente excluyentes y exhaustivos. Si la variable es continua siempre se deben formar intervalos clases, cuyo nmero depende del nmero total de observaciones denotado por n. El nmero de clases debe ser suficiente para mostrar la forma de la distribucin, pero no excesivo para registrar demasiadas fluctuaciones menores. En general vara entre 6 y 15 clases. Con la agrupacin en clases se gana en comodidad pero se pierde informacin, ya que una vez agrupados, todos los datos pertenecientes a un intervalo sern identificados para el anlisis posterior con el punto medio o marca de clase de ese intervalo. Siempre que se pueda, las amplitudes anchos de clase (diferencia entre el lmite superior y el inferior) deben ser iguales. (Tabla 3. Pg 15)

La frecuencia de una distribucin no se expresa a menudo como un recuento absoluto sino como una frecuencia relativa (fr) frecuencia relativa % (fr%), es decir como una proporcin porcentaje de la frecuencia total, siendo fr% = (f / n) x 100. En variables nominales generalmente se usan estos porcentajes. Cuando se analizan dos variables a la vez, (anlisis bivariado), la tabla de frecuencia se denomina Tabla de contingencia de clasificacin cruzada. Son fciles de construir y tienen la propiedad de comunicar una gran cantidad de informacin. Un caso especial de este tipo de tablas son las tablas de 2 x 2, es decir de 2 filas y 2 columnas. ( Tabla 4. Pg 17). Las hay de mayores dimensiones.

GRAFICOS
Los grficos tienen la ventaja de transmitir en forma casi instantnea una gran cantidad de informacin y deberan contribuir a hacer ms comprensible el material presentado. Para ello, el grfico ms eficiente es el que logra su propsito con la mayor sencillez posible. Algunas consideraciones que deben tenerse en cuenta para su construccin: a) El grfico no debe contener ms lneas smbolos que los que el ojo cmodamente pueda distinguir. b) Debe poder interpretarse por s mismo, sin necesidad de recurrir al texto. c) Debe estar claramente titulado y sus ejes rotulados indicando las unidades de medida. d) Deben interpretarse con precaucin aquellas escalas que no comienzan en cero, hecho que se indica mediante una interrupcin del eje en las proximidades del cero. e) Si se trabaja con porcentajes, se debe aclarar cul es el denominador utilizado para el clculo de los mismos. GRAFICOS QUE REPRESENTAN DISTRIBUCIONES DE FRECUENCIAS Para representar las tablas de distribucin de frecuencias, se utilizan diferentes grficos de acuerdo a la escala de medicin de la variable, el rango de valores, el nmero de datos con que se est trabajando y los objetivos buscados. Los ms conocidos y utilizados son:

Grfico de sectores circulares (Pie chart)


Se utiliza para representar la distribucin de frecuencias de variables nominales. (Grfico 1. Pg 14). Son sectores de un crculo con reas proporcionales a la frecuencia de cada categora. Se utiliza cuando el nmero de categoras no es muy grande. Si hay varias categoras con baja frecuencia conviene agruparlas en un solo sector. Como por lo general las frecuencias de este tipo de variables se expresan como porcentajes, siempre debe figurar en el grfico, el total de datos sobre los cuales se calcularon dichos valores. No se recomienda comparar grficos de sectores, cuando los denominadores utilizados para el clculo de los porcentajes son muy diferentes.

Grfico de barras bastones (Bar chart)


Se utiliza para representar la distribucin de frecuencias de variables en escala nominal, as como para variables en escalas ordinal y numrica discreta cuando el rango de valores es reducido. (Grfico 2. Pg 15). La longitud de las barras es proporcional a la frecuencia. Por lo general los valores de la variable se representan en el eje horizontal y las frecuencias correspondientes, en el vertical.

Histograma
Se utiliza para representar una distribucin de frecuencias de una variable cuantitativa continua de una variable numrica discreta con rango de valores muy amplios y agrupados en clases. (Grfico 3. Pg 16). Est formado por rectngulos adyacentes cuyas alturas representan la frecuencia.

Polgono de frecuencias
Se utiliza para comparar dos o ms distribuciones de frecuencia en un mismo grfico, ya que el el histograma dificultara la lectura. (Grfico 3. Pg 16). Se construyen uniendo los puntos medios de los rectngulos del histograma, mediante una lnea continua que debe extenderse

hasta las marcas de clase de un intervalo anterior al primero y posterior al ltimo, de modo que el rea encerrada por el polgono sea equivalente al rea encerrada por el histograma. Son una manera til de visualizar rpidamente la forma de una distribucin de valores numricos. Estas formas pueden ser de tipos muy variados. Sin embargo, hay dos caractersticas fundamentales que definen a una distribucin: Simetra y Modalidad.

Simetra: una distribucin es simtrica si, al plegarla sobre s misma sus dos mitades se superponen aproximadamente. Las distribuciones que se muestran en la grfica siguiente son simtricas:

Con datos reales, es muy raro que las distribuciones sean perfectamente simtricas, sin embargo, cuando se trata de caracterizar la forma de una distribucin, a menudo las discrepancias menores se ignoran. En las distribuciones asimtricas sesgadas, el pico se encuentra descentrado y una cola es ms larga que la otra. Cuando la cola ms larga apunta a la derecha se dice que el sesgo es positivo; cuando apunta a la izquierda, la distribucin tiene sesgo negativo.

Modalidad: Una distribucin unimodal es aquella que slo presenta un pico punto alto(es decir un valor con elevada frecuencia), en tanto que una distribucin polimodal tiene dos ms picos; si tiene dos en particular se llama bimodal.

La simetra y la modalidad son aspectos completamente independientes. Conocer el sesgo de una distribucin no indica nada acerca de su modalidad. Algunas distribuciones se encuentran tan frecuentemente que han dado lugar al uso generalizado de trminos especiales para designarlas. De particular inters en el anlisis estadstico es la distribucin normal, tambin conocida como distribucin de Gauss. Esta distribucin es simtrica, unimodal y no demasiado puntiforme. No le resultar muy complicado identificarla entre las cinco figuras anteriores. Muchas variables fsicas y psicolgicas se aproximan a esta distribucin, entre ellas, la estatura, la inteligencia, la edad de la menarca, y la presin arterial.

OTROS GRAFICOS Los grficos siguientes no representan distribuciones de frecuencias y se utilizan con fines especficos:

Grfico de lneas
Se utiliza generalmente para mostrar las variaciones que experimenta una variable a lo largo del tiempo. (Grfico 4. Pg 17). Las unidades de tiempo se colocan en el eje horizontal y los puntos que representan la variable principal en momentos sucesivos, se unen con segmentos rectilneos. Se debe ser cuidadoso en la eleccin de la escala y en su interpretacin, si se elige un origen distinto de cero.

Diagrama de dispersin (Scatterplot)


Ilustra la relacin dependencia entre dos variables cuantitativas continuas medidas sobre los mismos individuos. (Grfico 5. Pg 18). Una de las variables se asocia al eje horizontal y la otra al vertical. Cada individuo se representa con un punto en el plano. La forma en que se disponen estos puntos indica la posible existencia de una relacin entre ambas variables. Si los puntos se alinean configurando una banda lineal, de pendiente positiva negativa, puede inferirse una dependencia de naturaleza lineal. Si los puntos se dispersan en el plano, sin configurar tendencia alguna, probablemente no exista relacin entre las dos variables.

Diagrama de puntos (Dot chart)


Se utiliza para ilustrar la relacin entre una variable nominal y una cuantitativa, cuando el nmero de observaciones no es elevado. ( Grfico 6. Pg 19). En las abcisas se ubican las categoras de la variable nominal, y los valores correspondientes de la variable numrica, se representan por puntos alineados verticalmente. Es til para comparar visualmente el comportamiento de la variable cuantitativa, en cada categora de la variable nominal.

1.4 MEDIDAS RESUMEN


Las distribuciones de frecuencias presentadas en tablas o grficos, son importantes para el ordenamiento de un conjunto de datos en bruto y para reconocer los patrones generales. Sin embargo, muchas veces se requiere resumir describir numricamente esas distribuciones con el fin de concentrar an ms la informacin y comparar de forma ms precisa y eficiente, diferentes conjuntos de datos. Para ello se utilizan lo que se conoce como medidas estadsticas descriptivas. La eleccin de estas medidas est determinada en principio, por la escala de medicin de la variable. Si la variable est en escala nominal se utilizan proporciones, razones y tasas. Si la variable est en escala numrica, y en ciertos casos para una variable ordinal, se utilizan medidas de tendencia central , medidas de dispersin, y medidas de orden. Se debe tener especial cuidado en la eleccin de tales medidas, ya que elegir la medida incorrecta puede conducir a resultados no vlidos. ACLARACION PARA EL LECTOR: En la seccin Ejemplos (Pag. 15 y 16), se calculan e interpretan las medidas resumen aqu presentadas.

PROPORCION, RAZON Y TASA

Proporcin
Es el nmero (a) de observaciones con una caracterstica dada, por ejemplo enfermos, dividido por el nmero total de observaciones (a + b), es decir sanos y enfermos: a / (a + b) Establece la relacin de una parte con el todo. El numerador siempre debe estar contenido en el denominador. Suelen expresarse como porcentajes, multiplicando la proporcin por 100. Ejemplo: En un ensayo clnico se enrrolan 120 pacientes, 72 de los cuales son mujeres; la proporcin de mujeres es 72 /120 = 0.6 el 60%.

Razn
Es el nmero (a) de observaciones con una caracterstica dada, por ejemplo estar enfermo, dividido el nmero (b) de observaciones sin la caracterstica dada, no estar enfermo: a / b Establece la relacin de una parte con otra parte. El numerador no es parte del denominador. Ejemplo: Durante el 2004 hubo en Argentina 960 muertes por accidente de trnsito, 720 varones y 240 mujeres. Por cada muerte del sexo femenino por esa causa, hubo 3 del sexo masculino. La razn de muertos hombre:mujer es 3 = 720/240.

Tasa ndice
Son semejantes a las proporciones, excepto en que, tienen en cuenta una medida del tiempo en la cual fueron recogidos los datos. Para permitir la comparacin rpida entre tasas, se las expresa en relacin a un multiplicador base, por ejemplo 1000, 10000, 100000 un milln, dependiendo de la frecuencia del evento. Describen la rapidez con que tiene lugar un suceso dado. Ejemplo: Durante el ao 1960 hubo en una ciudad de 2 millones de habitantes, 500 casos de tuberculosis. La tasa de tuberculosis puede expresarse entonces como 25 x 100000 personas por ao 250 x milln de personas por ao.

MEDIDAS DE CENTRALIZACIN Buscan definir a un "representante oficial" "valor tpico" del conjunto de datos. Moda (Mo)
Es el valor de la variable que se presenta con mayor frecuencia. Puede haber una moda (unimodal), dos (bimodal), ms de dos (polimodal) ninguna. Se utiliza con variables en cualquier escala de medicin. En el caso de variables continuas, que generalmente se presentan agrupadas en intervalos, la moda puede identificarse con la marca de clase del intervalo que presenta la mayor frecuencia. Es la nica medida que se puede utilizar para resumir la tendencia central de variables en escala nominal.

Media aritmtica promedio ( x )


Con los datos crudos, x1, x2,..., xn , se calcula como la suma de todos esos valores, dividida por el nmero total de observaciones n.

x1 x 2 xn n

10

Si los datos estn agrupados en una tabla de distribucin de frecuencias y no es posible recurrir a los datos originales, se obtiene un valor aproximado de la media debido al efecto del agrupamiento; en este caso se utiliza el punto medio del intervalo como el ms representativo del mismo y se considera que todos los valores de ese intervalo coinciden con l. Es la medida de centralizacin que se utiliza en Estadstica inferencial (intervalos de confianza, test de hiptesis, etc.), porque incluye en su clculo a todas las observaciones y por sus propiedades matemticas. No es una medida representativa si la variable tiene distribucin asimtrica no es unimodal.

Mediana (Me)
Es la observacin que ocupa el lugar central de los datos cuando se los ordena en forma creciente. Divide a la distribucin en partes iguales; la mitad de los datos estn por encima de este valor y la otra mitad por debajo. Si el nmero total de observaciones n es impar, existir una nica mediana y ser el valor que ocupe la posicin (n + 1)/2. Ej: {2, 5, 7, 19, 21 , Me = 7 (Ocupa el 3 lugar = (5 + 1)/2). Si n es par no existe un nico valor central y la mediana se define como el promedio de las dos observaciones centrales, es decir las que ocupan las posiciones n/2 y n/2 + 1. Ej: {2, 5, 7, 19, 21, 25 Me = (7 + 19)/2 = 13 No tiene en cuenta la magnitud exacta de cada observacin, sino solamente la del dato que ocupa la posicin central. Esto se puede considerar una desventaja con relacin a la media, porque implica una prdida de informacin; sin embargo, esto se transforma en ventaja cuando la distribucin es asimtrica, ya que la mediana en ese caso, no se ve afectada por valores extremos que pueda tomar la variable. Si al conjunto de datos del ejemplo anterior le cambiamos el valor 25 por 250, la mediana no se modifica, sigue siendo 13. Si la distribucin es simtrica y unimodal, media, moda y mediana coinciden. Se la utiliza para estimar tiempo medio de sobrevida, ya que es posible calcularla despus que slo la mitad de los sujetos han muerto; la media, en cambio, no se puede calcular hasta que todos murieron.

Es la medida de centralizacin que se utiliza cuando la variable es numrica y la distribucin es asimtrica, y tambien para variables en escala ordinal.

MEDIDAS DE ORDEN
Las medidas de orden no tienen en cuenta la magnitud exacta de cada observacin, sino solamente la posicin u orden que un dato que ocupa cuando el conjunto de datos es ordenado en forma creciente. Son valores que dividen al conjunto ordnado en partes iguales.

Cuartiles (Q1, Q2 y Q3)


Los cuartiles son tres valores que dividen al conjunto de datos ordenados en cuatro partes iguales, de forma tal que el 25% queda por debajo del Q1, el 50% por debajo del Q2 y el 75% por debajo del Q3. El segundo cuartil es la mediana. Son ejemplos particulares de una medida ms general, el percentil.

11

Percentiles (P1, P2, .....P99)


Los percentiles son valores que dividen al conjunto de datos en 100 partes iguales Por ejemplo, el Percentil 20, deja por debajo al 20% de los valores observados. As los cuartiles primero, segundo y tercero son los percentiles 25, 50 y 75, respectivamente. Los percentiles se utilizan frecuentemente para comparar un valor individual con un conjunto de normas, por ejemplo, para desarrollar e interpretar Tablas de crecimiento fsico (peso y altura por edades), y para mediciones de destreza e inteligencia. Se emplean tambin para determinar rangos de referencia de valores de laboratorio, especialmente cuando la distribucin de la variable es asimtrica. Para esos casos se utilizan el P2.5 y el P97.5, que encierran al 95% central de todos los datos.

MEDIDAS DE DISPERSION
Expresan el grado de variacin de los datos, y por lo general, indican en qu medida el resto de los datos se asemeja al "representante oficial". Una medida de centralizacin como la media, ser ms fiable, y estar determinada con mayor precisin, si todos los valores se encuentran cercanos a ella, que si varan ampliamente. Dos series de mediciones pueden coincidir en media, mediana y moda, y sin embargo, ser totalmente diferentes en su distribucin. Por eso, una medida de centralizacin siempre debe ir acompaada de una de dispersin, que indique la magnitud en la que los resultados se desvan unos de otros. Las ms utilizadas son: el rango, el rango intercuartlico, el desvo estndar, la varianza y el coeficiente de variacin.

Rango (R)
Es la diferencia entre la mayor y la menor observacin. Siempre se deben especificar ambos valores, pues dan informacin ms til que el rango. No es una medida estable, ya que es comun que aumente a medida que aumenta el nmero de datos, y su clculo se basa slo en los valores extremos, (que por otra parte son los ms variables). Por este motivo, el rango se utiliza, sobre todo, como un ndice descriptivo grueso y se informa junto con otras medidas de variabilidad, pero no en su lugar.

Rango intercuartlico (RI)


Es una medida que, a diferencia del rango, evita la utilizacin de los valores extremos y los reemplaza por los valores entre los cuales se encuentra el 50% central de los datos ordenados Estos valores son, el Primer cuartil (Q1) y el Tercer cuartil (Q3). A la distancia entre ambos se la llama Rango intercuartlico. RI = Q3 Q1 Es la medida de dispersin que se utiliza cuando la distribucin de los datos es asimtrica, en algunos casos de variables ordinales. (En las mismas situaciones en que se utiliza la mediana como medida de centralizacin).

Desvo estndar (S DE)


Es la medida de dispersin ms utilizada, aunque su significado y su clculo pueden parecer algo complejos. Mide la dispersin de los datos alrededor de la media aritmtica. Se lo utiliza como medida de dispersin para distribuciones simtricas, sea en los casos en que se utiliza la media aritmtica, como medida de centralizacin. Tiene las mismas unidades que los datos. Mide cunto se desva cada dato, en promedio, de la media aritmtica. Sin importar la forma en que se distribuyen las observaciones, por lo menos el 75% de los valores quedan siempre entre la media menos dos desvos estndar y la media ms dos desvos estndar.

12

Si la distribucin es simtrica y unimodal: 67% de las observaciones estn entre la media menos un desvo y la media ms un desvo. 95% de las observaciones estn entre la media menos dos desvos y la media ms dos desvos. 99.7% las observaciones estn entre la media menos tres desvos y la media ms tres desvos. Si al desvo estndar se lo eleva al cuadrado, se obtiene otra medida de dispersin muy utilizada conocida como varianza.

Coeficiente de variacin (CV%)


Es una medida de variabilidad relativa que se utiliza para comparar la dispersin de dos ms variables numricas cuando: las variables se refieren a distintos caracteres de un mismo grupo (Peso en kg. y altura en cm.) las variables se refieren al mismo caracter medido en distintos grupos que presentan medias aritmticas de diferente magnitud. (Peso en neonatos y peso en adultos). No tiene unidades y expresa la variabilidad como un porcentaje de la media. A menor CV%, menor variabilidad y mas homogeneos son los datos. Se calcula dividiendo el desvo estndar por la media aritmtica y multiplicando por 100:

CV %

S 100% x

Grfico de caja box-plot


Luego de haber presentado los cuartiles y el rango intercuartlico estamos en condiciones de conocer esta forma de representar grficamente la informacin. El box plot permite comparar la distribucin de frecuencias ( tendencia central, dispersin, simetra y outliers) de una variable numrica, entre dos o ms categoras de una variable nominal u ordinal. La forma bsica muestra una caja delimitada por el primer y tercer cuartil y con la mediana marcada por una subdivisin de la caja. Desde ambos extremos de la caja se extienden bisagras hasta los valores mximo y mnimo. Otros autores extienden las bisagras hasta las observaciones que no se alejan de los cuartiles ms que un rango intercuartlico. Los puntos que quedan por fuera de las bisagras se consideran valores atpicos outliers y se marcan individualmente con un punto. (Grfico 7. Pag.20) ______________________________________________________________________________

13

EJEMPLO 1
Se revisaron las historias clnicas de 93 pacientes que fueron operados en el Servicio de Neurociruga entre 1990 y 1994 de tumores intracraneales del Sistema Nervioso Central. Se clasific a los tumores segn su tipo histolgico con los siguientes resultados:

Tabla 1. Tabla de frecuencias de diferentes tipos de tumores intracraneales


Tipo de tumor Gliomas Meningiomas Metstasis Neurinomas Otros TOTAL Nmero de pacientes 34 22 15 7 15 93 Porcentaje 37% 24% 16% 8% 16% 100%

Grfico 1. Grfico de sectores. Tipos histolgicos de tumores intracraneales del Sistema Nervioso Central

N = 93

Otros 16%

Meningiomas 24%

Neurinomas 8%

Metastasis 16%

Gliomas 36%

__________________________________________________________________________ EJEMPLO 2
Se observ prospectivamente durante 5 aos a 120 pacientes con cardiopata isqumica estable que haban sido intervenidos quirrgicamente, y se cont el nmero de veces que necesitaron ser hospitalizados durante ese perodo. Los resultados se ordenaron en la siguiente tabla de frecuencias:

Tabla 2. Tabla de frecuencias del Nmero de hospitalizaciones


N de hospitalizaciones 0 1 2 3 4 5 6 TOTAL N de pacientes (f) Frecuencia relativa % (fr%) 22 18.4 39 32.5 31 25.8 16 13.4 8 6.6 3 2.5 1 0.8 120 100% Frecuencia Acumulada (fa) 22 61 92 108 116 119 120

14

Grfico 2. Diagrama de barras. Nmero de hospitalizaciones

50 45

Nmero de pacientes

40 35 30 25 20 15 10 5 0

39 31 22 16 8 3 1

2 3 4 5 Nmero de hospitalizaciones

Media aritmtica = 202/120 = 1.68 Cuartil 1 = 1 Desvo estndar = 155.89/ 119 = 1.31 Mediana = Cuartil 2 = 1 Cuartil 3 = 2 Varianza = 1.71 Moda = 1 Rango intercuartlico = 2 - 1 = 1 Este es un caso de distribucin asimtrica y por lo tanto como medida de centralizacin se recomienda la mediana y como medida de dispersin, el rango intercuartlico.

_________________________________________________________________________________
EJEMPLO 3 A continuacin figuran los valores de seroalbmina en g/l de sangre de 50 mujeres sanas: _________________________________ 42 41 42 44 44 36 38 41 42 44 42 39 49 40 45 32 34 43 37 39 41 39 48 42 43 33 43 35 32 34 39 35 43 44 47 40 39 42 41 46 37 49 41 39 43 42 47 48 51 52 _________________________________ Los datos fueron agrupados en 6 intervalos de clase de igual amplitud y se construy la Tabla de frecuencias correspondiente. Tabla 3. Tabla de frecuencias de seroalbmina (g/l) en sangre de mujeres sanas.
Seroalbmina (g/l) [ 30 - 34) [34 - 38) [38 - 42) [42 - 46) [46 - 50) [50 - 54) TOTAL Nmero de mujeres Frec. absoluta (f) 3 7 14 17 7 2 50 Marca de clase 32 36 40 44 48 52 Frecuencia relativa % (fr%) 6.0 14.0 28.0 34.0 14.0 4.0 100.0 Frecuencia acumulada (fa) 3 10 24 41 48 50

15

Grfico 3. Histograma y Polgono de frecuencias. Valores de seroalbmina (g/l)

Mnimo = 32 Mximo = 52 Rango = 52 32 = 20 Amplitud de clase = 4 Marca de clase = (Lmite superior + Lmite inferior)/2 = (30 + 34)/2 = 32 Frecuencia relativa % = 3/50 x 100 = 6%
Medidas resumen calculadas con los datos sin agrupar

Media aritmtica = 2069/50 = 41.38 Desvo estndar = 232.26/49 = 4.746 Mediana = Cuartil 2 = 42 Varianza = 22.52 Moda = 42 Rango intercuartlico = 44 39 = 5 Cuartil 1 = 39 Percentil 40 = 41 Cuartil 3 = 44 Percentil 90 = 48
En este caso la distribucin es prcticamente simtrica, y por lo tanto las medidas de centralizacin estn muy prximas; como medida de dispersin puede utilizarse el desvo estndar.

Entre 39g/l y 44 g/l se encuentran los valores centrales de seroalbmina del 50% de las mujeres. El 40% tiene valores inferiores a 41 g/l y el 10% tiene valores superiores a 48 g/l.

De dnde se obtuvieron estas conclusiones?

16

EJEMPLO 4

Mediante un estudio de casos y controles se desea investigar la historia del consumo de carne en personas con enteritis necrotizante, comparndola con el de personas que no han sufrido la enfermedad. Se cuenta con 118 individuos de los cuales 61 son casos y 57, controles. Entre los primeros, 50 consumieron carne recientemente y entre los segundos, 16 lo haban hecho. Con estos datos se puede construir una tabla de contingencia de 2 x 2.
Tabla 4. Tabla de contingencia de 2 x 2. Asociacin entre enteritis necrotizante y consumo reciente de carne.
Exposicin (ingesta de carne) SI NO Enfermedad (enteritis necrotizante) SI NO Total 50 16 66 11 41 52 Total 61 57 118

Este tipo de tabla de frecuencias permite calcular, entre otras cosas, medidas de riesgo. _________________________________________________________________________________ EJEMPLO 5 Grfico de lineas
Se analizaron seis encuestas realizadas en Australia durante los aos 74, 76, 80, 83 86 y 89, para evidenciar los cambios que haba experimentado la proporcin de hombres y mujeres que eran fumadores habituales. Porcentaje de hombres y mujeres que eran fumadores habituales en Australia AO HOMBRES MUJERES 1974 46 29 1976 44 33 1980 42 32 1983 41 32 1986 34 30 1989 31 28

Grfico 4. Grfico de lneas de la proporcin de hombres y mujeres que eran fumadores habituales en Australia.

Qu lectura puede hacer de este grfico?

17

EJEMPLO 6. Diagrama de dispersin

Se realiz un estudio de tipo ecolgico en 11 pases asiticos para correlacionar la prevalencia de insuficiencia ponderal infantil con la ingesta calrica per cpita.
Prevalencia de insuficiencia ponderal infantil e ingesta calrica en 11 pases asiticos.

Pas

Ingesta calrica cpita (kcal)

per % de nios con insu-

1 2 3 4 5 6 7 8 9 10 11

1900 2000 2080 2200 2200 2210 2250 2340 2520 2540 2670

ficiencia ponderal 70 70 73 35 56 52 49 41 21 40 53

Grfico 5. Diagrama de dispersin de la prevalencia de insuficiencia ponderal infantil e ingesta calrica per cpita en 11 pases asiticos.

Relacin entre ingesta calrica e insuficiencia ponderal infantil


80 70

Prevalencia de nios con insuficiencia ponderal

60 50 40 30 20 10 0 1800

1900

2000

2100

2200

2300

2400

2500

2600

2700

Ingesta calrica per cpita (kcal)

Se observa una correlacin lineal negativa entre ambas variables; a menor ingesta calrica, mayor prevalencia de insuficiencia ponderal infantil. 18

EJEMPLO 7 Grfico de puntos


Se realiz un estudio para comparar el nmero de pulsaciones por minuto de dos grupos de pacientes, uno tratado con una droga nueva, y otro al que se le suministr un placebo. Los resultados se muestran grficamente a travs de grficos de puntos.

Grfico 6. Grfico de puntos del Nmero de pulsaciones por minuto de droga y placebo

Se observa que, en general, los pacientes tratados con la nueva droga, presentan menor nmero de pulsaciones que los que recibieron placebo. Este ltimo grupo, presenta mayor variabilidad del nmero de pulsaciones, que los que tomaron la droga.

19

Grfico de caja Para los mismos datos del Ejemplo 7, se utilizaron grficos de caja. Grfico 7. Grfico de caja del nmero de pulsaciones por minuto del grupo que recibi la droga y el grupo placebo

N m ero d e pu lsa cio ne s p or m inu to


160

140

120

100

80

60 Nueva Droga Placebo

Tratamiento

Adems de los comentarios que acompaan al Grfico 6, en el box plot podemos visualizar las medianas de uno y otro grupo, la asimetra en el grupo que recibi placebo, y confirmar la mayor dispersin del grupo placebo y la condicin de dato atpico o outlier (representado por el smbolo ), de uno de los pacientes que recibi la droga.

20