Académique Documents
Professionnel Documents
Culture Documents
CONCEPTO
Mtodo de razonamiento que permite interpretar un conjunto de datos cuyo carcter esencial es la variabilidad.
TIPOS
Estadstica descriptiva. Organizacin, presentacin y sntesis de los datos de una manera cientfica y lgica. Estadstica inferencial. Bases lgicas mediante las cuales se establecen conclusiones relacionadas con poblaciones, a partir de los resultados obtenidos en muestras; trabaja con los datos que le proporciona la estadstica descriptiva y es la parte de la estadstica fundamental para interpretacin clnica.
POBLACIN Y MUESTRA
La poblacin es el conjunto de todos los individuos, generalmente inaccesible, que tienen en comn alguna caracterstica observable y del que se pretende obtener una serie de conclusiones.
Se denomina muestra al conjunto menor de individuos, accesible y limitado, sobre el que se realiza el estudio con idea de obtener conclusiones generalizables a la poblacin.
POBLACIN Y MUESTRA
El proceso de seleccin de los individuos se puede realizar mediante distintas tcnicas de muestreo:
a.
Muestreo aleatorio simple. Es aquel tipo de muestreo en el que cada individuo tiene las mismas posibilidades de ser elegido para formar parte de la muestra.
b. Muestreo aleatorio estratificado. Con este tipo de muestreo aseguras que la muestra tenga la misma proporcin de una(s) variable(s) que la poblacin de la que procede.
POBLACIN Y MUESTRA
El proceso de seleccin de los individuos se puede realizar mediante distintas tcnicas de muestreo:
c. Muestreo sistemtico. El proceso de seleccin se basa en alguna regla sistemtica simple, por ejemplo, elegir uno de cada n individuos. d. Muestreo por etapas o polietpico. La seleccin se realiza en dos o ms etapas sucesivas y dependientes.
POBLACIN Y MUESTRA
Por ltimo, individuo ser cada uno de los componentes de la poblacin y de la muestra. Al nmero de individuos que forman la muestra se llama tamao muestral (n).
VARIABLES
Una variable es una caracterstica observable que se desea estudiar en una muestra de individuos, pudiendo tomar diferentes valores. Tipos de variables
VARIABLE VARIABLE Cualitativa SUBTIPO Nominal dicotmica Nominal no dicotmica Ordinal Cuantitativa Discreta Continua Sexo Raza Nivel socioeconmico N de episodios de asma/ semana Uricemia EJEMPLO
VARIABLES
Escalas de medicin. Son criterios usados para definir las diferentes categoras en que se pueden agrupar los valores de la variable. Las categoras de las variables deben cumplir dos condiciones:
VARIABLES
Nivel nominal. Clases o categoras en las que se est o no incluido. (Estado civil, raza).
Nivel ordinal. Las categoras se ordenan de una forma determinada (de mayor a menor, de menor a mayor). (Intensidad del dolor).
VARIABLES
Nivel de intervalo. Existe un orden numrico, la diferencia entre valores sucesivos es siempre la misma. (Temperatura).
Nivel de razn. Es la escala que proporciona ms informacin. Tiene las mismas caractersticas que la anterior, pero adems posee el cero absoluto (no tiene el rasgo que nosotros estamos midiendo). (Glucemia, talla).
ESTADSTICA DESCRIPTIVA
Se puede considerar la estadstica descriptiva como el conjunto de tcnicas que facilitan la organizacin, resumen y comunicacin de datos.
ESTADSTICA DESCRIPTIVA
Representacin grfica. La representacin grfica de los datos facilita un anlisis visual. Segn la naturaleza de las variables estudiadas se utilizan diferentes tipos de representacin.
ESTADSTICA DESCRIPTIVA
ESTADSTICA DESCRIPTIVA
Representacin grfica.
En ambos casos se debe cumplir el principio proporcionalidad de las reas a las frecuencias absolutas.
de
En los diagramas de sectores, el ngulo central es proporcional a la frecuencia absoluta correspondiente, por lo que tambin lo es su rea.
Los diagramas de rectngulos tienen una base constante y una altura proporcional a la frecuencia absoluta correspondiente (tambin su rea es proporcional a la frecuencia absoluta).
ESTADSTICA DESCRIPTIVA
Representacin grfica.
Diagrama de rectngulos
ESTADSTICA DESCRIPTIVA
Variables cuantitativas discretas. Diagrama de barras. En un diagrama, sobre el valor que puede tomar la variable, se levanta una barra cuya altura mide exactamente la frecuencia absoluta del valor. Tambin se puede representar la frecuencia relativa y/o los porcentajes.
ESTADSTICA DESCRIPTIVA
Histograma. Es un grfico que est formado por rectngulos adyacentes que tienen por base cada uno de los intervalos y por altura las frecuencias absolutas. La superficie de cada rectngulo es proporcional a la frecuencia de cada una de las clases y el rea total lo ser al nmero de individuos en la muestra. Polgono de frecuencias. Es una lnea quebrada que une los puntos medios de las barras superiores de los rectngulos del histograma.
ESTADSTICA DESCRIPTIVA
En mi casa he reunido juguetes pequeos y grandes, sin los cuales no podra vivir. El nio que no juega no es nio, pero el hombre que no juega perdi para siempre al nio que viva en l y que le har mucha falta. Pablo Neruda.
Un nio prodigio es alguien que sabe tanto de nio como de mayor. Will Rogers.
Media aritmtica
Mediana Moda
Parmetros de posicin
Media geomtrica
Las medidas de centralizacin nos indican alrededor de qu valores se agrupan los datos observados.
Media aritmtica. Es la medida de centralizacin ms comn. Se calcula sumando los valores numricos de todas las observaciones y dividiendo el total por el nmero de observaciones. La media aritmtica verifica la propiedad de equilibrar las desviaciones positivas y negativas de los datos respecto a su valor, es decir, (xi - ) = 0. Acta, por tanto, como centro geomtrico o centro de gravedad para el conjunto de puntos.
Mediana. Es el valor numrico que divide al conjunto de datos ordenados en dos partes iguales, es decir, el 50% de los datos ser menor que ella y el 50% de los datos mayor. En una distribucin simtrica, la mediana coincide con la media aritmtica, pero no en una asimtrica.
Moda. Es el valor ms corriente o el valor de la variable que se presenta con mayor frecuencia. Pueden existir distribuciones con ms de una moda.
Parmetros de posicin: cuartiles, deciles, percentiles. Valores que dividen el conjunto de las observaciones en cuatro, diez o cien partes iguales.
Por ejemplo: Q2=D5=Pc50= Mediana. El 50% de las observaciones sern inferiores al segundo cuartil, quinto decil o percentil 50.
Media geomtrica. Muy utilizada en microbiologa y serologa, cuyos datos tienen una marcada asimetra positiva (hacia la derecha). Ejemplo: ttulos de anticuerpos.
Aunque desde un punto de vista puramente descriptivo las tres medidas proporcionan informacin complementaria, sus propiedades son muy distintas: la media utiliza todos los datos y es, por tanto, preferible si los datos son homogneos; tiene el inconveniente de que es muy sensible a observaciones atpicas, y un error de datos o un valor anormal puede modificarla totalmente.
Por el contrario, la mediana utiliza menos informacin que la media, ya que slo tiene en cuenta el orden de los datos y no su magnitud, pero, en contrapartida, no se ve alterada si una observacin (o en general una pequea parte de observaciones) es extrema o contiene errores grandes de medida o de transcripcin.
En consecuencia, es siempre recomendable calcular la media y la mediana: ambas medidas diferirn mucho cuando la distribucin sea muy asimtrica, lo que sugiere heterogenicidad en los datos.
Junto a las medidas de tendencia central, completan la informacin sobre la distribucin de la variable (indican si los valores de la variable estn muy dispersos o se concentran alrededor de la medida de centralizacin).
Rango o Recorrido. Diferencia entre el valor mximo y el mnimo observado en una serie.
R = Mx. Mn.
Varianza. Se define como la media del cuadrado de las desviaciones de los elementos respecto a la media aritmtica.
Desviacin tpica o estndar. Es la raz cuadrada positiva de la varianza. Es la medida de dispersin ms usada.
La desviacin tpica es una medida complementaria de la media aritmtica; mientras que sta da una idea de la magnitud general de la distribucin, la desviacin estndar muestra cmo se distribuyen los valores alrededor de la media.
Rango intercuartlico. Es la diferencia entre el percentil 75 y el 25. Es, junto con el rango, la medida de dispersin usada para los datos asimtricos.
Coeficiente de variacin (CV). Es una medida de dispersin adimensional. Es el porcentaje que representa la desviacin estndar sobre la media. Es el mtodo de eleccin para comparar la variabilidad o dispersin relativa de variables que estn expresadas en las mismas o en diferentes unidades.
FORMAS DE MEDIDA
MEDIDA DE CENTRALIZACIN MEDIDA DE DISPERSIN
DISTRIBUCIN HOMOGNEA
MEDIA
DISTRIBUCIN ASIMTRICA
MEDIANA
Si a todos los valores de una distribucin se les suma una constante, su media queda aumentada en ese valor mientras que su varianza no se modifica.
Si a todos los valores de una distribucin se les multiplica por una constante, su media y su desviacin tpica quedan multiplicadas por la constante, mientras que su varianza queda multiplicada por el cuadrado de esa constante.
PROBABILIDAD
Supongamos una poblacin finita con N elementos, k de los cuales tienen la caracterstica A. Llamaremos probabilidad de la caracterstica A en la poblacin a: P (A) = k/N. La probabilidad se define , desde un punto de vista ptimo, en trminos de frecuencia relativa.
De esta forma,
PROBABILIDAD
Propiedades.
La probabilidad es un valor entre 0 y 1, es decir, 0 < P(A) < 1. Llamaremos suceso seguro E, al que ocurre siempre, entonces: P(E)=1. Si -A es el suceso complementario de A, que ocurre siempre que no lo hace A, entonces: P(-A ) = 1 - P(A). Dos sucesos son mutuamente excluyentes (incompatibles) cuando no pueden suceder a la vez (P.ej.: ser mujer y tener cncer de prstata).
PROBABILIDAD
Propiedades.
Dos sucesos son independientes cuando la probabilidad de aparicin de uno de ellos no depende, no se modifica por la aparicin del otro (P. ej.: efectos secundarios de un frmaco en dos pacientes).
PROBABILIDAD CONDICIONADA
La probabilidad de A condicionada a la ocurrencia de B se define considerando nicamente los casos en los que aparece B, y viendo en cuntos de estos casos ocurre el suceso A. Es la probabilidad de que suceda A, una vez que ya ha sucedido B.
REGLA DE LA MULTIPLICACIN
REGLA DE LA SUMA
Nos indica la probabilidad de que suceda A o de que suceda B. P (AB) = P(A) + P(B) - P (AB)
Si dos sucesos son mutuamente excluyentes (o bien se da A o bien se da B), entonces: P (AB) = P(A) + P(B)
REGLAS DE LA PROBABILIDAD
DISTRIBUCIONES DE PROBABILIDAD
Una vez que hemos escogido la muestra y recogido los datos, el siguiente paso es inferir las propiedades de la poblacin a partir de la muestra. El instrumento conceptual que permitir esta generalizacin es un modelo de la poblacin, es decir, una representacin simblica de su comportamiento.
DISTRIBUCIONES DE PROBABILIDAD
Encontramos tres leyes tericas que tienen la particularidad de ser seguidas por una inmensa mayora de los fenmenos biolgicos habituales:
DISTRIBUCIN BINOMIAL
Es una ley terica de aplicacin siempre que se conozca, de entrada, la probabilidad de aparicin de un fenmeno biolgico (p).
El resultado es dicotmico y puede ser evaluado como xito o fracaso. La variable de inters es el nmero de xitos alcanzados en n pruebas . Constituye siempre un diagrama de barras discontinuo se aplica a variables discretas.
DISTRIBUCIN BINOMIAL
DISTRIBUCIN DE POISSON
Constituye un caso particular de la ley binomial para aquellas situaciones en que la probabilidad de aparicin de un fenmeno es muy pequea. Es, por tanto, la ley adecuada para los sucesos raros, cuando p < 0,1 y n x p <5.
Es seguida por una inmensa cantidad de variables biolgicas cuyas medidas se agrupan alrededor de un valor central, y que presentan una frecuencia cada vez menor a medida que se alejan de dicho valor medio.
Se caracteriza por dos medidas: media y desviacin tpica. Es unimodal. Es simtrica alrededor de la media. Por tanto, media, mediana y moda coinciden. Tiene forma acampanada, sin un pico excesivo. Va desde - infinito a + infinito (asinttica al eje de abscisas). El rea bajo la curva = 1.
CARACTERSTICAS. El 50% de las observaciones se encuentran por debajo de la media aritmtica y el 50% por encima. El 68% de las observaciones se encuentran dentro del intervalo X S; el 95% dentro del intervalo X 1,96 S y el 99% dentro del intervalo X 2,57 S
DISTRIBUCIN NORMAL
TIPIFICACIN La distribucin normal viene definida por la media y la desviacin tpica; pueden existir, por tanto, infinitas curvas de este tipo, tantas como infinitos valores puedan tomar la media y la desviacin tpica. La distribucin normal tipificada tiene una media= 0 y una desviacin tpica =1 [N (0,1)] y se encuentra tabulada.
TIPIFICACIN Nosotros podemos transformar cualquier variable aleatoria que se distribuya normalmente a una normal tipificada mediante la siguiente transformacin:
ESTIMACIN DE PARMETROS
El propsito general de la inferencia estadstica es obtener conocimiento o informacin de una poblacin a travs de una muestra.
ESTIMACIN DE PARMETROS
En este caso, queremos conocer la media poblacional a partir de la media muestral. Para ello, podemos aplicar: 1. Estimacin puntual. La media muestral es un buen estimador de la media poblacional ().
ESTIMACIN DE PARMETROS
2. Estimacin por intervalos. El valor numrico de los estimadores puntuales determinados en muestras diferentes puede variar, es decir, si repitiramos los clculos con otra muestra diferente de la misma poblacin, el resultado de la media muestral podra ser diferente. Por tanto, sera mejor que, adems aportramos un intervalo que presumiblemente incluya tambin el parmetro de la poblacin.
ESTIMACIN DE PARMETROS
2. Estimacin por intervalos. Es por tanto preferible la estimacin por intervalos, ya que entonces se indican lmites de valores dentro de los cuales el parmetro poblacional tiene la probabilidad de estar.
Al intervalo alrededor del estadstico muestral se le denomina intervalo de confianza, y a sus lmites, lmites de confianza.
El clculo de los lmites de confianza comprende el empleo del error estndar de la media y los principios de la distribucin normal.
ESTIMACIN DE PARMETROS
Error estndar de la media. De una poblacin pueden extraerse infinitas muestras, cada una de ellas con su media. Este conjunto de medias se distribuyen segn una curva normal cuya media, la media de las medias, es la media poblacional () y cuya desviacin tpica se conoce como EL ERROR ESTNDAR DE LA MEDIA; es, por tanto, la dispersin de las medias muestrales con respecto a la media poblacional.
ESTIMACIN DE PARAMETROS
ESTIMACIN DE PARMETROS
Si construimos un intervalo de confianza del 95%, concluiremos que en el 95% de las ocasiones la media poblacional estar entre:
ESTIMACIN DE PARMETROS
Mientras que en un 5% de las ocasiones nos equivocaremos. Si establecemos el nivel de confianza en el 99%, la media poblacional se situar en un 99% de las ocasiones entre:
ESTIMACIN DE PARMETROS
En el caso de que se desconozca el valor del parmetro (que es lo ms habitual en la prctica) o cuando n < 30, los lmites de confianza se calcularan siguiendo:
1) Asociacin estadstica entre dos variables. El objetivo es demostrar o no la asociacin estadstica entre dos variables observadas en una muestra.
Datos apareados. En una nica muestra se estudia si existe una diferencia significativa en la variable resultado antes y despus de algn acontecimiento relevante. Variable resultado cualitativa de dos o ms categoras: test de Mc Nemar. Variable resultado cuantitativa: t de Student apareada. Variable resultado cuantitativa (varias medidas repetidas): ANOVA para medidas repetidas.
2) Test no paramtricos. Son pruebas que no dependen de la distribucin de la variable y no precisan condicin previa de normalidad. Estas pruebas no manejan los valores cuantitativos que toma la variable en cuestin sino nicamente sus rangos. Son pruebas de menor precisin que las paramtricas, por lo que solamente demostrarn como significativas diferencias mayores. generalmente se prefiere
Generalmente se prefiere utilizar pruebas paramtricas (t de Student, anlisis de la varianza, etc.) y el uso de los test no paramtricos se limita a estudios con tamaos muestrales menores de 30, en los que las poblaciones no puedan ser consideradas como normales, o bien, cuando la variable represente solamente una medida aproximada del carcter, sin una valoracin exacta.
Si las muestras son mayores de 30, no existe inconveniente en utilizar pruebas paramtricas.
3) Anlisis multivariante. Son un conjunto de test estadsticos que se aplican cuando se intenta establecer la asociacin estadstica entre tres o ms variables. Ejemplo: se desea saber si existe una relacin entre la infeccin de herida quirrgica, la administracin de profilaxis y el tipo de ciruga
Test de independencia. Se contrasta la hiptesis nula de que dos criterios de clasificacin (variables cualitativas), cuando se observan en la misma serie de individuos u objetos, son independientes.
H0. No hay asociacin entre las variables. H1. S hay asociacin entre las variables.
Test de homogeneidad. Se estudia una variable en dos o ms muestras. La pregunta es: son las muestras extradas de poblaciones, que son homogneas con respecto a alguna variable?
H0. Las muestras se extraen de la misma poblacin. H1. Las muestras provienen de distinta poblacin.
Ejemplo. Estudiamos una muestra de 500 nios para saber si existe asociacin entre el estado nutricional (pobre, bueno) y los resultados acadmicos (malos, satisfactorios). Los datos se muestran en la tabla:
POBRE BUENO TOTAL
MALOS
SATISFACTORIOS TOTAL
105
80 185
15
300 315
120
380 500
POBRE MALOS SATISFACTORIOS TOTAL 105 80 185 BUENO 15 300 315 TOTAL 120 380 500
Decisin. Rechazamos H0 si el valor de la 2 calculado es igual o mayor que el tabulado. Clculo del estadstico 2. 1) Obtencin de las frecuencias esperadas: para cada casilla, el valor de la frecuencia esperada es total filas x total columnas/total.
En este caso:
POBRE BUENO 15 300 315 TOTAL 120 380 500 POBRE BUENO TOTAL
105 80 185
MALOS
SATISFACTORIOS TOTAL
44,4
140,6 185
75,6
239,4 315
120
380 500
Rechazamos Ho , ya que el valor calculado es superior al tabulado, y concluimos que existe asociacin entre el estado nutricional y los resultados acadmicos (p<0,05).
Sirven para estudiar la relacin entre dos variables cuantitativas. Anlisis de regresin. Es til para determinar la posible forma de la relacin entre variables y, por tanto, se puede usar para hacer predicciones o estimar el valor de una variable que corresponde para un valor de la otra.
La variable X se llama variable independiente o explicativa y es controlada por el investigador. La variable Y se llama dependiente. Con el anlisis de regresin lineal obtenemos una ecuacin del tipo: Y = + X, donde y son los coeficientes de regresin. El coeficiente representa el punto en el que la lnea corta el eje vertical (valor de Y para X = 0). El coeficiente es la pendiente de la recta que muestra la cantidad que cambia Y por una unidad de cambio de X.
Anlisis de correlacin. Estudia tambin la relacin entre dos variables cuantitativas, aunque aqu no se habla de variable dependiente ni independiente. El coeficiente de correlacin de Pearson mide la intensidad de la relacin lineal entre las dos variables cuantitativas.
Vara entre -1 y + 1 -1 r +1 Para r = 1, hay una relacin perfecta entre x e y, es decir, todos los puntos (x,y) estn en una lnea recta. Un valor positivo de r indica que a medida que aumenta una variable, lo hace la otra o que a medida que disminuye una tambin lo hace la otra. Un coeficiente de correlacin negativo indica que a medida que disminuye una variable aumenta la otra o viceversa. r = 0 indica que no hay correlacin lineal.
Anlisis de correlacin. Estudia tambin la relacin entre dos variables cuantitativas, aunque aqu no se habla de variable dependiente ni independiente. El coeficiente de correlacin de Pearson mide la intensidad de la relacin lineal entre las dos variables cuantitativas.
Vara entre -1 y + 1 -1 r +1 Para r = 1, hay una relacin perfecta entre x e y, es decir, todos los puntos (x,y) estn en una lnea recta. Un valor positivo de r indica que a medida que aumenta una variable, lo hace la otra o que a medida que disminuye una tambin lo hace la otra. Un coeficiente de correlacin negativo indica que a medida que disminuye una variable aumenta la otra o viceversa. r = 0 indica que no hay correlacin lineal.