Vous êtes sur la page 1sur 9

MDULO DE ESTADSTICA

1. Introduccin y conceptos generales. La estadstica es una disciplina cientfica dedicada a la realizacin de inferencias vlidas a partir de datos experimentales u observacionales. El estudio de la variabilidad, incluyendo la construccin de diseos muestrales y experimentales, y la creacin de modelos que describen la variabilidad es lo que caracteriza a las actividades de investigacin en el campo de la estadstica. Un principio bsico es que: todas las mediciones estn sujetas a variabilidad. Ms especficamente la estadstica est ligada al mtodo cientfico en la toma, organizacin, recopilacin, presentacin y anlisis de datos, tanto para la deduccin de conclusiones como para la toma de decisiones razonables de acuerdo con tales anlisis. Se llama poblacin al conjunto de mediciones posibles de obtener de una caracterstica del conjunto de individuos o elementos bajo estudio o experimentacin. El proceso de medir una o ms caractersticas de todos los componentes de la poblacin claramente definida recibe el nombre de censo. Las caractersticas globales de una poblacin (generalmente desconocida o no observable), reciben el nombre de parmetros. Una muestra corresponde a los datos que realmente son recolectados en el transcurso de una investigacin, es un subconjunto de las observaciones que componen la poblacin. Parte de la informacin que contiene la muestra respecto de los parmetros se expresa mediante valores numricos calculados a partir de sta, llamados estadgrafos o estadsticos. Cuando cada elemento de la poblacin tiene la misma posibilidad de ser elegido en la muestra, o ms precisamente, cuando todas las muestras posibles de tamao n sean igualmente probables de ser elegidas, hablaremos de muestras aleatorias simples o de muestreo al azar. El estudio de los mtodos de muestreo junto con la formulacin de esquemas o modelos matemticos para un experimento, y los problemas que tales mtodos implican, estn comprendidos en la rama de la estadstica llamada Diseo Muestral y Experimental. Si una muestra es representativa de una poblacin, se pueden deducir importantes conclusiones acerca de la poblacin a partir del anlisis de la muestra, pero al no poder estar absolutamente seguro de la veracidad de tales generalizaciones, se debe utilizar ciertos niveles de confianza o posibilidades de error, expresados en porcentajes o en trmino de probabilidades. La parte de la estadstica que trata de las condiciones bajo las cuales tales inferencias son vlidas se llama Estadstica Inductiva o Estadstica Inferencial. Pg. 1

2. Estadstica Descriptiva. La parte de la Estadstica que trata solamente de describir y analizar un grupo de datos, sin sacar conclusiones o inferencias de un grupo mayor, se llama Estadstica Descriptiva o Estadstica Deductiva, por ende la Estadstica Descriptiva incluye las tcnicas que se relacionan con el resumen, la descripcin y presentacin de datos. Los aspectos principales que es necesarios tener en cuenta en la descripcin de un conjunto de datos son: a) El resumen y descripcin del patrn global de los datos mediante la presentacin de tablas y grficos; el examen de la forma global de los datos graficados, para visualizar caractersticas importantes como simetras o divergencias y buscar en el grfico observaciones inusuales o atpicas. b) El clculo de algunas caractersticas numricas (estadsticos) como por ejemplo un valor representativo o tpico que indique el centro de los datos, la cantidad de variacin o dispersin presente en los datos, grado de asimetra, etctera. Las caractersticas medidas a cada elemento de una muestra son representadas a travs de smbolos (generalmente una letra), los cuales reciben el nombre de variables o variables aleatorias. Una variable cuantitativa es aquella que puede tomar un valor cualquiera en un cierto conjunto numrico llamado codominio de la variable. Una variable cuantitativa que tericamente puede asumir cualquier valor en un intervalo de nmeros reales se llama variable continua, en caso contrario, si la variable puede asumir algunos valores, generalmente slo valores enteros, se llama variable discreta. Las observaciones o datos que son representados por una variable discreta o continua se llaman datos discretos o continuos respectivamente. En general las mediciones dan origen a datos continuos, mientras que las enumeraciones o conteos originan datos discretos. En los datos continuos siempre existe la llamada unidad de precisin del instrumento utilizado, y se debe tener en cuenta que el ltimo decimal de los datos se encuentra aproximado, as por ejemplo, si se registra una altura de un rbol como 5.4 metros significa que la altura verdadera se encuentra entre 5.35 y 5.45 metros. Consecuente con esto, debe siempre aplicarse en los clculos la regla clsica de aproximacin. Tambin existen las llamadas variables cualitativas (ordinales y nominales) que son aquellas que asumen valores no numricos, permitiendo clasificar a los elementos observados. Generalmente es posible sustituir tales variables por una Pg. 2

cuantitativa discreta codificando los valores no numricos, pero se debe tener presente que no tiene la misma interpretacin que una variable de este tipo.

Variables
Cualitativas
Nominales Ordinales

Cuantitativas
Discretas Continuas

3. Distribucin de frecuencias. Cuando tenemos un registro de datos tal cual fueron obtenidos, sin ninguna ordenacin o clasificacin, diremos que se tiene datos no agrupados. Cuando se dispone de un gran nmero n de datos, es til distribuirlos en clases o categoras, que se definen subdividiendo excluyentemente el recorrido de la variable, y determinar el nmero de observaciones perteneciente a cada clase, es decir, determinar la llamada frecuencia absoluta de cada clase. Una ordenacin tabular de este tipo se conoce con el nombre de tabla de distribucin de frecuencias, y por lo tanto, en tal caso, diremos que se tienen datos agrupados. Esta tabulacin permite conocer como estn distribuidos los datos, es decir, como vara la concentracin o densidad de los datos en el recorrido de la variable, teniendo con ello un conocimiento del comportamiento de la variable bajo estudio. En una tabla de frecuencia se distinguen los intervalos de clase, caracterizados por su lmite inferior (Ii) y el lmite superior (Si) que definen una cierta categora o clase. Cuando se trabaja con variables continuas, es posible distinguir adems los llamados lmites reales o fronteras de clases (Li), que corresponden a los lmites (aparentes) inferiores y superiores menos o ms media unidad de precisin u, respectivamente. Adems de la frecuencia absoluta (ni) se puede determinar la llamada frecuencia relativa (fi = ni/n), frecuencia porcentual (fi% = 100fi), frecuencia acumulada absoluta (Ni = Ni-1 + ni, N0 = 0), acumulada relativa (Fi = Ni/n) y acumulada porcentual (Fi% = 100Fi).

Pg. 3

Intervalos

Marca de Clase

Frecuencia Absoluta

Frecuencia Relativa

Frecuencia Porcentual

Frecuencia Acumulada Absoluta

Frecuencia Acumulada Relativa

L0, L1 ... Li-1, Li ... Lk-1, Lk

X1 ... Xi ... Xk

n1 ... ni ... nk

f1 = n1/n ... fi = ni/n ... fk = nk/n

f1% = f1*100 ... fi% = fi*100 ... fk% = fk*100

N1 = n1 ... Ni = n1 +...+ ni ... Nk = n1 +...+ nk

F1 = N1/n ... Fi = Ni/n ... Fk = Nk/n

Una metodologa que es posible aplicar en la construccin de una tabla de distribucin de frecuencia, para una variable continua, a partir de datos no agrupados incluye los siguientes pasos: 1.- Encontrar el valor mnimo xmin y el valor mximo xmx y calcular el rango R = xmx xmin. Y establecer la unidad de precisin u de los datos registrados. 2.- Elegir el nmero k de intervalos de clases de igual longitud que cubre el recorrido de los datos. El nmero de intervalos de clase debe verificar que 5 k 15. Tambin se puede determinar a partir del tamao de la muestra utilizando la regla k = 1 + 3.3*log(n). 3.- Determinar la amplitud a = R/k de las clases, que debe tener la misma precisin de los datos, es decir, la misma cantidad de decimales que los datos. 4.- Verificar que efectivamente se cubre el recorrido de todas las observaciones calculando el excedente E = k*a - R - u. El excedente debe ser no negativo, en caso contrario, la amplitud debe ser aumentada en una unidad de precisin y recalculado el excedente. (Estos ltimos valores corregidos son los que se utilizan en los clculos posteriores). 5.- Calcular el primer lmite inferior I1 = xmin - E/2, el cual debe tener la misma precisin de los datos. 6.- Calcular los lmites inferiores siguientes, sumndole la amplitud al lmite inferior anterior, (Ii = Ii-1 + a). Pg. 4

7.- Calcular el primer lmite superior restando una unidad de precisin al lmite inferior de la clase siguiente (S1 = I2 - u) 8.- Calcular los lmites superiores siguientes sumndole la amplitud al lmite superior anterior, (Si = Si-1 + a). 9.- Contar el nmero de observaciones en los datos que pertenecen a cada intervalos de clase, para obtener la frecuencia absoluta de cada clase (ni). 10.- Determinar los otros tipos de frecuencias, los lmites reales o fronteras de clase (Li-1 = Ii - u/2 Li = Si + u/2) y las marcas de clase (xi = (Li-1 + Li)/2), si se necesitan.

Ejemplo:

Puntaje Lenguaje
Simce 2005 - 4 Bsico - Los ngeles

Puntajes
175 185 195 205 215 225 235 245 255 265 275 285 295 305 184 194 204 214 224 234 244 254 264 274 284 294 304 314

Establecimientos Porcentaje
2 2 5 8 5 12 9 10 7 5 5 3 2 1 2,6% 2,6% 6,6% 10,5% 6,6% 15,8% 11,8% 13,2% 9,2% 6,6% 6,6% 3,9% 2,6% 1,3%

Porcentaje Acumulado
2,6% 5,3% 11,8% 22,4% 28,9% 44,7% 56,6% 69,7% 78,9% 85,5% 92,1% 96,1% 98,7% 100,0%

Las frecuencias (no acumuladas) pueden ser representada grficamente mediante un histograma (grfico de barra) o un polgono de frecuencia y las frecuencias acumuladas mediante una ojiva. Tambin es posible utilizar esta tabla de distribucin de frecuencias para calcular los estadsticos que sean de inters.

Pg. 5

El histograma es un grfico de columnas, donde cada barra representa la frecuencia de cada clase, cuyas bases estn definidas por las fronteras o lmites reales de las clases y su altura est dada por la correspondiente frecuencia (absoluta, relativa o porcentual).

Ejemplo:

Simce 2005 - 4 Bsico - Los ngeles


Lenguaje
14 12 10 8 6 4 2 0 180,0 200,0 220,0 240,0 260,0 280,0 300,0 310,0 190,0 210,0 230,0 250,0 270,0 290,0 Desv. tp. = 29,64 Media = 239,9 N = 76,00

Frecuencia

Lenguaje

El polgono de frecuencias es un grfico de lneas, donde se unen mediante un segmento rectilneo cada uno de los puntos adyacentes definidos por las marcas de clases y su correspondiente frecuencia, en cualquiera de las escalas (absoluta, relativa o porcentual). El grfico se completa considerando marcas de clases adicionales en los extremos con frecuencia nula. Es til para comparar datos provenientes de dos o ms poblaciones.

Ejemplo: Pg. 6

Simce 2005 - 4 Bsico - Los ngeles


25 20 15 10 5 0
165 185 205 225 245 265 285 305 325 345

N m ero de E stablecim ientos

Puntaje Lenguaje Matemtica Comprensin

La ojiva es un grfico de lneas donde cada uno de los puntos adyacentes que se unen mediante un segmento rectilneo, estn definidos por las fronteras superiores y su correspondiente frecuencia acumulada en cualquiera de las escalas. El grfico se completa considerando la primera frontera inferior con frecuencia acumulada nula. La ojiva permite estimar grficamente los distintos percentiles de una distribucin de datos continuos. Ejemplo:

Simce 2005 - 4 Bsico - Los ngeles


100,0%

Porcentaje Acumulado

80,0%

60,0%

40,0%

20,0%

0,0%
175 185 195 205 215 225 235 245 255 265 275 285 295 305 315

Puntaje en Lenguaje

Pg. 7

Otra forma de tabular u ordenar los datos no agrupados es mediante un diagrama de tallo y hoja en el cual se definen categoras, denominados tallos, considerando el o los primeros dgitos de los datos y luego se utiliza el siguiente dgito, las hojas, para clasificar cada dato en su correspondiente tallo. Se recomienda que el nmero de tallos est entre 5 y 15, si es necesario se pueden dividir un tallo en dos, clasificando en la primera mitad las hojas 0, 1, 2, 3, 4 y en la siguiente mitad las hojas 5, 6, 7, 8 y 9. Tambin es posible fusionar dos tallos adyacentes a objeto de reducir el nmero total de tallos. Para la construccin de este tipo de diagrama las hojas se ordenan ascendentemente dentro de cada tallo y finalmente se calcula la profundidad de cada tallo, que corresponde a la frecuencia acumulada absoluta ascendente en la primera mitad y a la frecuencia acumulada absoluta descendente en la segunda mitad. Si existe una nica clase central la profundidad de sta corresponde a su frecuencia absoluta.

Ejemplo:

Nmero Simce de alumnos por establecimiento 2005 4 Bsico Los ngeles


Frecuencia Tallo&Hoja . . . . . . 00000000000000000001111111111111 2222222222333333333 44444445555 666666677777 889 0011 (>=177) 100 1 case(s)

32 0 19 0 11 0 12 0 3 0 4 1 1 Extremes Stem width: Each leaf:

Tambin dentro de otras forma de representacin grfica se utiliza el llamado box-plot o grfico de caja, que es un grfico que se construye a escala que indica mediante un rectngulo el cincuenta por ciento central de los datos, es decir, este rectngulo queda limitado por el primer y tercer cuartil de los datos. La caja o rectngulo se subdivide en la localizacin de la mediana y se agregan segmentos rectilneos en los extremos, llamados bigotes, que se extienden hasta L1 = mx{xmin, Q1 1.5RQ} en el lmite inferior, y hasta L2 = min{xmx, Q3 + 1.5RQ} en el lmite superior. Si existen datos inferiores a L1 o mayores a L2 se indican mediante puntos y se consideran datos atpicos o anmalos. Tambin se puede indicar mediante un asterisco la Pg. 8

ubicacin del valor del promedio. Este tipo de grfico permite adems detectar niveles de dispersin y asimetra, y son de gran utilidad para comparar grficamente grupo de datos provenientes de distintas poblaciones. Ejemplo:

Simce 2005 4 Bsico Los ngeles


340 320 300 280 260 240 220

Matemtica

200 180 160


N= 23 6 6 13 1 16 1 7 3 40

Ruralidad
R U A B C D E

Grupo

Pg. 9