Vous êtes sur la page 1sur 10

Tipos de datos

Lo que estudiamos en cada individuo de la muestra son las variables (edad, sexo, peso, talla, tensin arterial sistlica, etctera). Los datos son los valores que toma la variable en cada caso. Lo que vamos a realizar es medir, es decir, asignar valores a las variables incluidas en el estudio. Deberemos adems concretar la escala de medida que aplicaremos a cada variable. La naturaleza de las observaciones ser de gran importancia a la hora de elegir el mtodo estadstico ms apropiado para abordar su anlisis. Con este fin, clasificaremos las variables, a grandes rasgos, en dos tipos 3-5: variables cuantitativas o variables cualitativas. a. Variables cuantitativas. Son las variables que pueden medirse, cuantificarse o expresarse numricamente. Las variables cuantitativas pueden ser de dos tipos: o Variables cuantitativas continuas, si admiten tomar cualquier valor dentro de un rango numrico determinado (edad, peso, talla). o Variables cuantitativas discretas, si no admiten todos los valores intermedios en un rango. Suelen tomar solamente valores enteros (nmero de hijos, nmero de partos, nmero de hermanos, etc).

b. Variables cualitativas. Este tipo de variables representan una cualidad o atributo que clasifica a cada caso en una de varias categoras. La situacin ms sencilla es aquella en la que se clasifica cada caso en uno de dos grupos (hombre/mujer, enfermo/sano, fumador/no fumador). Son datos dicotmicos o binarios. Como resulta obvio, en muchas ocasiones este tipo de clasificacin no es suficiente y se requiere de un mayor nmero de categoras (color de los ojos, grupo sanguneo, profesin, etctera). En el proceso de medicin de estas variables, se pueden utilizar dos escalas:
o

Escalas nominales: sta es una forma de observar o medir en la que los datos se ajustan por categoras que no mantienen una relacin de orden entre s (color de los ojos, sexo, profesin, presencia o ausencia de un factor de riesgo o enfermedad, etctera). Escalas ordinales: en las escalas utilizadas, existe un cierto orden o jerarqua entre las categoras (grados de disnea, estadiaje de un tumor, etctera).

Estadstica descriptiva Una vez que se han recogido los valores que toman las variables de nuestro estudio (datos), procederemos al anlisis descriptivo de los mismos. Para

variables categricas, como el sexo o el estadiaje, se quiere conocer el nmero de casos en cada una de las categoras, reflejando habitualmente el porcentaje que representan del total, y expresndolo en una tabla de frecuencias. Para variables numricas, en las que puede haber un gran nmero de valores observados distintos, se ha de optar por un mtodo de anlisis distinto, respondiendo a las siguientes preguntas: a. Alrededor de qu valor se agrupan los datos? b. Supuesto que se agrupan alrededor de un nmero, cmo lo hacen? muy concentrados? muy dispersos? a. Medidas de tendencia central Las medidas de centralizacin vienen a responder a la primera pregunta. La medida ms evidente que podemos calcular para describir un conjunto de observaciones numricas es su valor medio. Lamedia no es ms que la suma de todos los valores de una variable dividida entre el nmero total de datos de los que se dispone. Como ejemplo, consideremos 10 pacientes de edades 21 aos, 32, 15, 59, 60, 61, 64, 60, 71, y 80. La media de edad de estos sujetos ser de:

Ms formalmente, si denotamos por (X1, X2,...,Xn) los n datos que tenemos recogidos de la variable en cuestin, el valor medio vendr dado por:

Otra medida de tendencia central que se utiliza habitualmente es la mediana. Es la observacin equidistante de los extremos. La mediana del ejemplo anterior sera el valor que deja a la mitad de los datos por encima de dicho valor y a la otra mitad por debajo. Si ordenamos los datos de mayor a menor observamos la secuencia: 15, 21, 32, 59, 60, 60,61, 64, 71, 80. Como quiera que en este ejemplo el nmero de observaciones es par (10 individuos), los dos valores que se encuentran en el medio son 60 y 60. Si realizamos el clculo de la media de estos dos valores nos dar a su vez 60, que es el valor de la mediana.

Si la media y la mediana son iguales, la distribucin de la variable es simtrica. La media es muy sensible a la variacin de las puntuaciones. Sin embargo, la mediana es menos sensible a dichos cambios. Por ltimo, otra medida de tendencia central, no tan usual como las anteriores, es la moda, siendo ste el valor de la variable que presenta una mayor frecuencia. En el ejemplo anterior el valor que ms se repite es 60, que es la moda b. Medidas de dispersin Tal y como se adelantaba antes, otro aspecto a tener en cuenta al describir datos continuos es la dispersin de los mismos. Existen distintas formas de cuantificar esa variabilidad. De todas ellas, lavarianza (S2) de los datos es la ms utilizada. Es la media de los cuadrados de las diferencias entre cada valor de la variable y la media aritmtica de la distribucin.

Esta varianza muestral se obtiene como la suma de las de las diferencias de cuadrados y por tanto tiene como unidades de medida el cuadrado de las unidades de medida en que se mide la variable estudiada. En el ejemplo anterior la varianza sera: Sx2= La desviacin tpica (S) es la raz cuadrada de la varianza. Expresa la dispersin de la distribucin y se expresa en las mismas unidades de medida de la variable. La desviacin tpica es la medida de dispersin ms utilizada en estadstica.

Aunque esta frmula de la desviacin tpica muestral es correcta, en la prctica, la estadstica nos interesa para realizar inferencias poblacionales, por lo que en el denominador se utiliza, en lugar de n, el valor n-1. Por tanto, la medida que se utiliza es la cuasidesviacin tpica, dada por:

Aunque en muchos contextos se utiliza el trmino de desviacin tpica para referirse a ambas expresiones. En los clculos del ejercicio previo, la desviacin tpica muestral, que tiene como denominador n, el valor sera 20.678. A efectos de clculo lo haremos como n-1 y el resultado seria 21,79. El haber cambiado el denominador de n por n-1 est en relacin al hecho de que esta segunda frmula es una estimacin ms precisa de la desviacin estndar verdadera de la poblacin y posee las propiedades que necesitamos para realizar inferencias a la poblacin. Cuando se quieren sealar valores extremos en una distribucin de datos, se suele utilizar la amplitud como medida de dispersin. La amplitud es la diferencia entre el valor mayor y el menor de la distribucin. Por ejemplo, utilizando los datos del ejemplo previo tendremos 80-15 =65. Como medidas de variabilidad ms importantes, conviene destacar algunas caractersticas de la varianza y desviacin tpica:

Son ndices que describen la variabilidad o dispersin y por tanto cuando los datos estn muy alejados de la media, el numerador de sus frmulas ser grande y la varianza y la desviacin tpica lo sern. Al aumentar el tamao de la muestra, disminuye la varianza y la desviacin tpica. Para reducir a la mitad la desviacin tpica, la muestra se tiene que multiplicar por 4. Cuando todos los datos de la distribucin son iguales, la varianza y la desviacin tpica son iguales a 0. Para su clculo se utilizan todos los datos de la distribucin; por tanto, cualquier cambio de valor ser detectado.

Otra medida que se suele utilizar es el coeficiente de variacin (CV). Es una medida de dispersin relativa de los datos y se calcula dividiendo la desviacin tpica muestral por la media y multiplicando el cociente por 100. Su utilidad estriba en que nos permite comparar la dispersin o variabilidad de dos o ms grupos. As, por ejemplo, si tenemos el peso de 5 pacientes (70, 60, 56, 83 y 79 Kg) cuya media es de 69,6 kg. y su desviacin tpica (s) = 10,44 y la TAS de los mismos (150, 170, 135, 180 y 195 mmHg) cuya media es de 166 mmHg y su desviacin tpica de 21,3. La pregunta sera: qu distribucin es ms dispersa, el peso o la tensin arterial? Si comparamos las desviaciones tpicas observamos que la desviacin tpica de la tensin arterial es mucho mayor; sin embargo, no podemos comparar dos variables que tienen escalas de medidas diferentes, por lo que calculamos los coeficientes de variacin:

CV de la variable peso =

CV de la variable TAS = A la vista de los resultados, observamos que la variable peso tiene mayor dispersin. Cuando los datos se distribuyen de forma simtrica (y ya hemos dicho que esto ocurre cuando los valores de su media y mediana estn prximos), se usan para describir esa variable su media y desviacin tpica. En el caso de distribuciones asimtricas, la mediana y la amplitud son medidas ms adecuadas. En este caso, se suelen utilizar adems los cuartiles y percentiles. Los cuartiles y percentiles no son medidas de tendencia central sino medidas de posicin. El percentil es el valor de la variable que indica el porcentaje de una distribucin que es igual o menor a esa cifra. As, por ejemplo, el percentil 80 es el valor de la variable que es igual o deja por debajo de s al 80% del total de las puntuaciones. Los cuartil

RDENACIN DE DATOS

CARACTERES CUALITATIVOS

Consideremos una muestra de tamao N sacada de una poblacin estadstica de la que observamos un carcter cualitativo A que presenta las modalidades siguientes : a1, a2, a3, ..., ak , llamamos
de la modalidad ai al nmero de veces que aparece repetida dicha modalidad en el conjunto de las observaciones realizadas.

FRECUENCIA ABSOLUTA

ni

FRECUENCIA RELATIVA

de la modalidad ai al cociente entre la frecuencia absoluta y el nmero de datos (= tamao de la muestra N).

fi

Los datos de las observaciones se pueden recoger en la siguiente tabla de distribucin :

CARACTERES CUANTITATIVOS

Consideramos una variable estadstica X que, en una muestra de tamao N extrada de una poblacin estadstica, toma los valores x1 < x2 < x3 < ... < xk , definimos los siguientes conceptos :
Tamao de la muestra Llamamos tamao muestral al nmero de observaciones realizadas, es decir, al nmero total de datos.

Frecuencia Absoluta

ni

Llamamos frecuencia absoluta de un valor xi de la variable estadstica X al nmero de veces que aparece repetido dicho valor en el conjunto de las observaciones realizadas.

Frecuencia Absoluta Acumulada

Ni

Llamamos frecuencia absoluta acumulada en el valor xi a la suma de las frecuencias absolutas de los valores inferiores o iguales a l. Evidentemente, los valores xi han de estar ordenados de forma creciente, como ya se ha indicado, y la frecuencia absoluta acumulada del ltimo valor ser igual a N. Llamamos frecuencia relativa de un valor xi de la variable estadstica X al cociente entre la frecuencia absoluta y el nmero de observaciones realizadas. ; Llamamos frecuencia relativa acumulada en el punto xi al cociente entre la frecuencia absoluta acumulada y el nmero de observaciones realizadas. ;

Frecuencia Relativa

fi

Frecuencia Relativa Acumulada


ATOS

Fi

Caractersticas o nmeros que son recolectados por observacin. No son otra cosa que el producto de las observaciones efectuadas en las personas y objetos en los cuales se produce el fenmeno que queremos estudiar Los datos estadsticos pueden ser clasificados en cualitativos, cuantitativos, cronolgicos y geogrficos Datos Cualitativos: cuando los datos son cuantitativos, la diferencia entre ellos es de clase y no de cantidad. Ejemplo: Si deseamos clasificar los estudiantes que cursan la materia de estadstica I por su estado civil, observamos que pueden existir solteros, casados, divorciados, viudos. Datos cuantitativos: cuando los valores de los datos representan diferentes magnitudes, decimos que son datos cuantitativos. Ejemplo: Se clasifican los estudiantes del Ncleo San Carlos de la UNESR de acuerdo a sus notas, observamos que los valores (nota) representan diferentes magnitudes. Datos cronolgicos: cuando los valores de los datos varan en diferentes instantes o perodos de tiempo, los datos son reconocidos como cronolgicos. Ejemplo: Al registrar los promedios de notas de los Alumnos del Ncleo San Carlos de la UNESR en los diferentes semestres. Datos geogrficos: cuando los datos estn referidos a una localidad geogrfica se dicen que son datos geogrficos. Ejemplo: El nmero de estudiantes de educacin superior en las distintas regiones del pas

epresentacin grfica de datos. Se tomar el ejemplo anterior para demostrar el uso de diferentes grficas. Histograma: forma grfica de barras que emplea variables con escala de intervalos o de proporciones. Para realizarla, se toma en cuenta para el eje X, los Lmites reales, y para el eje Y, las frecuencias absolutas.

Polgono de frecuencias: Forma grfica que representa una distribucin de frecuncias en la forma de una lnea continua que traza un histograma. Para su elaboracin, se consideran las marcas de clase en el eje X y las frecuencias absolutas en el eje Y.

Grfica de barras: la grfica de barras es una forma de grfica que utiliza barras para indicar la frecuencia de ocurrencia de las observaciones. Para construirla se constituye el eje y por las frecuencias absolutas y el eje X por los lmites inferior y superior de cada clase, dejando un espacio entre barra y barra.

1.3 CALCULO DE LA MEDIA MEDIANA Y MODA Medidas de tendencia central: La tendencia central se refiere al punto medio de una distribucin. Las medidas de tendencia central se conocen como medidas de posicin. Media La media es el punto en una distribucin de medidas, alrededor del cual las desviaciones sumadas son iguales a cero. Es el valor promedio de una muestra o poblacin. La media es muy sensible a mediciones extremas que no estn balanceadas en ambos lados. Se pueden calcular diversos tipos de media, siendo las ms utilizadas:

a.

Media aritmtica: se calcula multiplicando cada valor por el nmero de veces que se repite. La suma de todos estos productos se divide por el total de datos de la muestra:

b) Media geomtrica: se eleva cada valor al nmero de veces que se ha repetido. Se multiplican todo estos resultados y al producto fiinal se le calcula la raz "n" (siendo "n" el total de datos de la muestra).

Segn el tipo de datos que se analice ser ms apropiado utilizar la media aritmtica o la media geomtrica. La media geomtrica se suele utilizar en series de datos como tipos de inters anuales, inflacin, etc., donde el valor de cada ao tiene un efecto multiplicativo sobre el de los aos anteriores. En todo caso, la media aritmtica es la medida de posicin central ms utilizada. Lo ms positivo de la media es que en su clculo se utilizan todos los valores de la serie, por lo que no se pierde ninguna informacin. Sin embargo, presenta el problema de que su valor (tanto en el caso de la media aritmtica como geomtrica) se puede ver muy influido por valores extremos, que se aparten en exceso del resto de la serie. Estos valores anmalos podran condicionar en gran medida el valor de la media, perdiendo sta representatividad. Mediana Observacin u observacin potencial en un conjunto que divide el conjunto, de modo que el mismo nmero de observaciones estn en cada uno de sus lados. Para un nmero impar de valores, es el valor de en medio; para un nmero par es el promedio de los dos medios. Para un conjunto con un nmero par de nmeros, la mediana ser el promedio aritmtico de los dos nmeros medios. Ejemplo: Calcule la mediana para los siguientes datos. La edad de una muestra de cinco estudiantes es: 21, 25, 19, 20 y 22. Al ordenar los datos de manera ascendente quedan: 19, 20, 21, 22, 25. La mediana es 21. La mediana de una muestra de datos organizados en una distribucin de frecuencias se calcula mediante la siguiente frmula: Mediana = LRI + [(n/2 - FA)/f] c donde L es el lmite inferior de la clase que contiene a la mediana, FA es la frecuencia acumulada que precede a la clase de la mediana, f es la frecuencia de clase de la mediana e i es el intervalo de clase de la mediana. MODA

La moda es el valor de la observacin que aparece con ms frecuencia. Ejemplo: las calificaciones de un examen de diez estudiantes son: 81, 93, 84, 75, 68, 87, 81, 75, 81, 87. Como la calificacin 81 es la que ms ocurre, la calificacin modal es 81 La moda de los datos agrupados se aproxima por el punto medio de la clase que contiene la frecuencia de clase mayor.

Vous aimerez peut-être aussi