Vous êtes sur la page 1sur 9

ELEMENTOS DE ESTADISTICA DESCRIPTIVA

La estadstica puede ser considerada como el conjunto de tcnicas que permite obtener,
organizar, resumir, procesar y analizar informacin. Muchas veces se la confunde con la informacin
misma; cuando se habla de las 'estadsticas del paciente' o de las 'estadsticas educativas', etc. En otras
oportunidades se la confunde con el mtodo particular utilizado para tratar la infomacin. Es necesario
entonces aclarar que llamamos datos estadsticos a la informacin, que consiste en un conjunto de
datos cuantitativos o cualitativos con alguna relacin significativa entre ellos, y mtodos estadsticos a
los procedimientos utilizados para obtener, tratar y analizar la informacin.

INFORMACION ESTADISTICA
Como dijimos es un conjunto de 'mediciones' relacionadas entre s. La explicitacin de esta
relacin define una variable estadstica. Por ejemplo la variable X: 'color de ojos de los alumnos del
curso' define al conjunto de n mediciones x1: marrn, x2: azul, x3: marrn, x4: negro, ...... , xn: gris; donde
n es el nmero de alumnos del curso.
El conjunto referencial de donde se extraen los datos puede ser finito o infinito, y se lo llama
genricamente poblacin. Cuando es infinito o finito pero de muchos elementos, se extrae un
subconjunto de la poblacin que se denomina muestra, en caso contrario se mide u observa la totalidad
de los individuos, y entonces se dice que se ha realizado un censo de la poblacin.
Al proceder al anlisis de la informacin podemos no considerar que slo disponemos de una
muestra de la poblacin tratando al conjunto de datos como si fuera la totalidad de la misma, en ese
caso se dice que estamos haciendo un anlisis puramente descriptivo de la informacin. La parte de la
estadstica que trata estos aspectos se denomina estadstica descriptiva.
Por el contrario cuando tenemos en cuenta que hemos observado slo una porcin de la
poblacin, y que por ello las conclusiones, exactas para la muestra, son slo aproximadas para la
totalidad de sujetos del universo, estamos realizando un anlisis inferencial, en donde cada conclusin
debe ir acompaada de una medida del error que estamos cometiendo al trasladar los resultados
descriptivos de la muestra al total de la poblacin. Esta parte de la estadstica se denomina estadstica
inferencial, y requiere del auxilio de la Teora de Probabilidades.

CLASIFICACION DE LAS VARIABLES ESTADISTICAS


Volviendo a la informacin estadstica, el tratamiento de la misma difiere segn que los datos
sean cuantitativos (describen cantidades) o cualitativos (representan cualidades del sujeto en estudio),
y en el primer caso segn que se trate de datos englobados en una variable continua, que toma
cualquier valor dentro de un intervalo real, o una variable discreta, qu slo puede tomar valores
numricos aislados, generalmente subconjuntos de los nmeros enteros.
Son continuas las variables asociadas a mediciones: tiempos requeridos por los alumnos para
resolver un problema, altura de los rboles del patio, ingresos de familias, etc. Los casos de variables
discretas se asocian generalmente a problemas de conteo: nmero de hermanos en un conjunto de
personas, nmero de insectos en un rea definida, nmero de vehculos que pasan por una calle en un
tiempo determinado, etc.
Las variables cualitativas, que no pueden representarse numricamente salvo codificaciones
arbitrarias, suelen llamarse tambin variables nominales o atributos. Son ejemplos: la nacionalidad de
las personas que pasan por un aeropuerto, el nivel educacional de un conjunto de personas medido por
el nivel de escolaridad completado, el sexo de los alumnos del curso, etc.

METODOS ESTADISTICOS DESCRIPTIVOS


La secuencia metodolgica a seguir en cualquier estudio estadstico exploratorio, que
generalmente precede a un anlisis inferencial aunque puede agotarse en la faz meramente descriptiva,
se puede resumir en unos pocos pasos: recopilacin de los datos, organizacin y presentacin de la
informacin, reduccin de la misma a travs de estadsticos descriptivos y anlisis e interpretacin de
resultados.
1. Recopilacin de datos:
Cuando la poblacin es pequea, la recoleccin de los datos suele ser un problema simple
desde el punto de vista estadstico. El problema se complica cuando ella es muy grande o de tamao
infinito, en cuyo caso se debe recurrir al muestreo de los sujetos. Como la muestra obtenida debe ser
representativa de la poblacin y de tamao adecuado a la medida de los errores que estamos dispuestos
a cometer al inferir los resultados a toda la poblacin, su diseo suele convertirse en un paso de
fundamental importancia que en muchos casos requiere de mtodos estadsticos de muestreo muy
sofisticados.
No siempre se le concede la significacin que tiene la necesidad de un buen diseo de
muestreo, siendo que una mala muestra no puede ser compensada con la utilizacin de tcnicas
estadsticas complejas, ya que la pobreza de los datos invalida las conclusiones alcanzadas con
cualquier anlisis realizado sobre los mismos.

2. Organizacin y presentacin de la informacin:

La organizacin y presentacin de los datos vara de acuerdo al tipo de variable analizada.


Generalmente se trata de cuadros de distribucin de frecuencias y grficos asociados a dichas frecuencias.
Para resumir grandes colecciones de datos, es til distribuirlos en clases o categoras, y
determinar el nmero de individuos que pertenecen a cada clase, llamado frecuencia absoluta (fi) de la
clase. Muchas veces, sobre todo para el caso de datos cuantitativos continuos una clase suele
constituirse como un intervalo de la variable en estudio. Una disposicin tabular de los datos por clases
junto con las correspondientes frecuencias es lo que se denomina distribucin de frecuencias. La
frecuencia relativa (hi) de una clase es su frecuencia divida por la frecuencia total de todas las clases y
se expresa generalmente como porcentaje.
En el caso de datos cuantitativos, por ser estos de tipo interval (ordenados y con definicin de
distancia entre ellos), se agregan las frecuencias acumuladas absolutas y relativas (Fi y Hi
respectivamente). Definimos a la frecuencia acumulada como la frecuencia total de todos los valores
menores que la frontera superior del intervalo de una clase dada.

hi = fi / n

Fk =

f
i =1

Hk =

i =1

Ejemplos:

X: 'nmero de hermanos de los alumnos del curso'

fi

hi

Fi

Hi

0
1
2
3
4
5

4
8
9
5
3
1
30

0.13
0.27
0.30
0.17
0.10
0.03
1.00

4
12
21
26
29
30

0.13
0.40
0.70
0.87
0.97
1.00

Histograma
Frecuencias Absolutas
10
9
8
7

fi

6
5
4
3
2
1
0
-1

X (N de hermanos)

Histograma
Frecuencias Absolutas Acumuladas
33
30
27
24
21

Fi

18
15
12
9
6
3
0
-1

X (N de hermanos)

X: 'promedios anuales en la asignatura (calificacin de 0 a 100)'

fi

hi

Fi

Hi

0 - 20
20 - 40
40 - 60
60 - 80
80 - 100

2
4
12
9
3
30

0.07
0.13
0.40
0.30
0.10
1.00

2
6
18
27
30

0.07
0.20
0.60
0.90
1.00

Histograma
Frecuencias Absolutas
13
12
11
10
9
8

fi

7
6
5
4
3
2
1
0
(0;20]

(20;40]

(40;60]

(60;80]

(80;100]

X (promedios anuales)

Histograma
Frecuencias Absolutas Acumuladas
35

30
25

Fi

20
15

10
5
0
0

20

40

60

80

100

X (promedios anuales)

3. Reduccin de la informacin:

La informacin presentada en los cuadros de distribucin de frecuencias, permite realizar


varios tipos de anlisis descriptivos de la poblacin estudiada pero es demasiado minuciosa como para
dar respuesta a otro tipo de preguntas. Por ejemplo comparar el rendimiento de dos cursos distintos de
un mismo ao, o cursos de diferentes aos.
La intencin es hallar algunas pocas medidas que representen algn aspecto particular de la
poblacin. Estas medidas que reducen la informacin se llaman estadsticos, y se obtienen a partir de
los datos originales, o bien a partir de los agrupamientos realizados en las tablas de distribucin de
frecuencias.
Los ms importantes son los estadsticos que se refieren a la 'medida central' de los datos o
'medida posicional de la distribucin', y los referidos a la 'dispersin' de los datos alrededor de la
medida de posicin. Le siguen en menor importancia los estadsticos de 'asimetra' y los de
'apuntamiento' de la distribucin.

ESTADISTICOS DE POSICION

Se encuentran aqu los promedios aritmtico, geomtrico y armnico, la mediana y la moda.


1. Media aritmtica:
n

1
n

x = ( X ) =

xi

i=1

Con las siguientes propiedades ms destacadas:


n

(x

- x) = 0

i=1

a + b .X

= a + b .X

Cuando todos los datos estn agrupados en una distribucin de frecuencias resulta:
m

1
x =
n

x .f
i

x .f
i

i= n

i=1

= x .h
i

i=1

i=1

Se dice que se trata de una media ponderada de m datos, donde el factor de ponderacin es la
6

_
frecuencia absoluta. Existen otros motivos para ponderar las medidas en el clculo de x , esto es
cuando le queremos dar a cada uno de ellos distinta importancia, por ejemplo en un promedio general
de notas de distintas asignaturas, estas tienen diferente importancia en la carrera y tal vez sera
adecuado un promedio ponderado. El divisor en estos casos es siempre la suma de las ponderaciones.
_
Notar que x es un promedio de los m datos distintos de la variable, ponderado con
la frecuencia relativa que le corresponde a cada uno. El divisor es:
fi
n
hi = n =n =1
Otra aplicacin de promedios ponderados se deriva del problema de hallar la media
general de la unin de dos submuestras de distintos tamaos, usando para ello las medias de cada una
de ellas. El factor de ponderacin es el tamao de las submuestras.

2. Media geomtrica: aplicable si los xi > 0

xg

Notar que

= M g (X) =

____
_
1
log x g = . log xi = log X
n

i =1

de donde

xi

1/ n

_
x g = antilog log X

3. Media armnica:

x g = M h (X) =

1
1
n

i=1

1
xi

4. Mediana: es un valor que deja a la izquierda y a la derecha a lo sumo el 50% de los datos. Puede
haber muchas medianas ya que no es necesariamente un valor que deba tomar la variable. Para su
clculo se ordena la serie de datos de menor a mayor, se busca el valor o los dos valores centrales segn
ella sea impar o par, la mediana ser el valor central de los datos o el promedio de los valores centrales
segn la situacin que se presente. En casos continuos se puede interpolar un valor mediano dentro del
intervalo mediano (notar que la mediana divide el rea del polgono de frecuencia en dos reas iguales).

5. Moda: es el valor o el intervalo que resulta de mayor frecuencia que un adyacente a derecha e
izquierda (son los mximos relativos de la distribucin). Puede haber ms de una moda

NOTA: cuando una distribucin es simtrica, la media aritmtica, la mediana y la moda coinciden.

Mo

Me

_
x

_
x

Mo
Me
_
x

Me Mo

ESTADISTICOS DE DISPERSION
1. Rango:

R = xmax - xmin (til en muestras muy pequeas)

2. Desvo medio:

DM =

1
n

| xi x |

i=1

Principal inconveniente para su uso, es la utilizacin de barras de mdulo, lo que dificulta un desarrollo
terico alrededor de l.
3. Variancia:

V (X) = S

1
=
n

(x
i =1

x)

n
1
xi 2
=

n i =1

2
n

xi

i =1

Propiedades: V(a+b.X) = b2. V(X)


Se utiliza en estudios tericos.

DE(X) = S = S2

4. Desvo estndar:

Se utiliza para presentar la dispersin de una variable.

5. Coeficiente de variacin: es el desvo estndar relativizado por la media. Generalmente se expresa


como porcentaje de la media.

CV = S
_
x

CV = S . 100
_
x

VARIABLES BIDIMENSIONALES

Lo tratado hasta este punto se refiere a variables unidimensionales. En muchos problemas se hace
necesario estudiar simultneamente dos variables, o lo que es lo mismo, estudiar una variable
bidimensional. La informacin consiste entonces en pares ordenados (X;Y): (x1;y1); (x2;y2); ....... ;
(xn;yn).
Un cuadro en dos dimensiones que represente las frecuencias asociadas a este caso es el siguiente:

y1

y2

...

yj

...

yk

x1
x2
.
.
.
xi
.
.
.
xm

f11
f21
.
.
.
fi1
.
.
.
fm1

f12
f22
.
.
.
fi2
.
.
.
fm2

...
...
...
...
...
...
...
...
...
...

f1j
f2j
.
.
.
fij
.
.
.
fmj

...
...
...
...
...
...
...
...
...
...

f1k
f2k
.
.
.
fik
.
.
.
fmk

f1.
f2.
.
.
.
fi.
.
.
.
fm.

f.1

f.2

...

f.j

...

f.k

f.. = n

La columna y la fila exterior al cuadro representan la distribucin univariada de X e Y


respectivamente y se llaman distribuciones marginales de la distribucin bivariada. Un cuadro similar
puede representar frecuencias relativas.

Vous aimerez peut-être aussi