Vous êtes sur la page 1sur 30

USO DE LA ESTADSTICA EN PROBLEMAS DE LA REALIDAD A PARTIR DE FENMENOS SOCIALES O NATURALES Una de las ramas de la Estadstica ms accesible a la mayora de la poblacin

es la Descriptiva. Esta parte de la Estadstica se dedica nica y exclusivamente a la organizacin y tratamiento de la informacin para su presentacin por medio de tablas y de representaciones grficas, as como de la obtencin de algunos parmetros tiles para la interpretacin y explicacin de la informacin. La Estadstica Descriptiva es la parte que conocemos desde los cursos de educacin primaria, que se ensea en los siguientes niveles y que, por lo general, no pasa a ser un anlisis ms profundo de la informacin. Es un primer acercamiento a la informacin y, por esa misma razn, es la manera de presentar la informacin ante cualquier lector, ya sea especialista o no. Sin embargo, lo anterior no quiere decir que carezca de metodologa o algo similar, sino que, al contrario, por ser un medio accesible a la mayora de la poblacin humana, resulta de suma importancia considerar su estudio para as evitar malentendidos, tergiversaciones o errores. ORGANIZAR Y ANALIZAR DATOS DE FORMA SISTEMTICA Algo importante que hay que mencionar es que no siempre se trabaja con todos los datos. Esto por diversas razones, que pueden ser desde prcticas hasta por economa. Por ejemplo, resultara muy costoso obtener los datos de todos los seres humanos, o imprctico (y a la vez destructivo) obtener como datos el tiempo en el que se funden las bombillas producidas por una cierta marca realizando la medicin de toda la produccin. El estudio conducira a la empresa a la ruina, pues la produccin entera desaparecera. Por esta razn se considera un subconjunto del total de los casos, sujetos u objetos que se estudian y que se les obtienen los datos. La poblacin, entonces, es el total hipottico de los datos que se estudian o recopilan. Ante la imposibilidad ocasional de conseguir a la poblacin, entonces se recurre a la muestra, que viene siendo un subconjunto de los datos de la poblacin, pero tal subconjunto tiene que contener datos que pueden servir para posteriores generalizaciones de las conclusiones. Evidentemente las generalizaciones se pueden hacer en la medida que las muestras cumplan con ciertos requisitos de representatividad, que no estudiaremos ahora por cuestiones de espacio. En este apartado se examinarn la descripcin, resumen, presentacin, anlisis e interpretacin de datos. Los objetivos de este apartado son: 1. desarrollar la forma en que se comprendan las propiedades de los datos y las diversas mediciones que se pueden obtener de ellos. 2. ser capaz de usar de manera apropiada dichas mediciones. Supongamos que el analista financiero de una importante empresa de valores esta interesado en comparar diferentes empresas, de diversas ramas industriales, con el objeto de establecer una cartera til para invertir en acciones. En particular, supongamos que el analista selecciona una muestra aleatoria de seis compaas entre una lista de 24 de la rama industrial . Compaa de recursos naturales A B C D E F Razn de precio a utilidad 25 12 23 28 17 15

Observe que las seis compaas (anotadas en el orden en que fueron seleccionadas) estn presentadas con su correspondiente relacin de precio a utilidad (es decir, su razn de PU). La razn de PU definida como el precio de la accin cotizada en bolsa dividida entre su utilidad anual por accin, permite hacer una comparacin entre el valor de mercado de la compaa y su desempeo anual mas reciente. Qu se puede aprender con esos datos de modo que ayuden al anlisis financiero a realizar su evaluacin? EXPLORACION DE LOS DATOS Segn se muestra, se observan los cuatro puntos siguientes: 1. Los datos se encuentran en su forma original. Es decir, aparecen en un orden aleatorio, sin ningn patrn sobre como se enumeran las observaciones individuales. 2. Cada una de las razones de PU ocurre solo una vez, o sea que ninguna se observa con mayor frecuencia que otra. 3. La dispersin en las razones de PU va de 12 a 28. 4. No parece haber ninguna razn de PU extraordinaria o anormal en esta muestra. En un orden numrico, las razones de PU son 12, 15, 17, 23, 25 y 28. (Si hubieran sido 12, 15, 17, 23, 25 y 61, entonces el 61 hubiera sido una observacin extrema o anormal). Si el analista pidiera examinar los datos y presentar un breve resumen de lo descubierto, lo menos que se podra esperar de una persona sin capacitacin estadstica formal seran comentarios similares a los cuatro anteriores. Sin embargo, ya se ha analizado e interpretado la posible informacin contenida en los datos. Un anlisis es objetivo; debe haber un acuerdo comn con esas afirmaciones. Por otro lado, si una interpretacin es subjetiva, se podran asumir conclusiones distintas al interpretar los resultados analticos. De lo anterior, los puntos 2 a 4 se basan en anlisis, en tanto que el punto 1 es producto de una interpretacin. Con respecto a este ultimo, no se hizo prueba alguna analtica formal, es simplemente una afirmacin de que no hay ningn patrn en la secuencia de los datos recopilados. Adems, esa conjetura parecera apropiada si la muestra de seis compaas se tomara en forma aleatoria e independiente de la lista de la poblacin Ese fue el caso. Se ver ahora cmo se podra mejorar la comprensin de lo aportado por los datos, examinando de manera ms formal tres propiedades de los datos cuantitativos. PROPIEDADES DE LOS DATOS CUANTITATIVOS Las tres propiedades principales que describen un conjunto de datos numricos son: 1. Tendencia normal 2. Dispersin 3. Forma En todo anlisis y/o interpretacin se pueden utilizar diversas medidas descriptivas que representan las propiedades de tendencia central, dispersin y forma para extraer y resumir las principales caractersticas de los datos. Si se calculan a partir de una muestra de datos, se les denomina estadsticos; si se les calcula a partir de una poblacin completa de datos se les denomina parmetros. Como los especialistas en estadstica suelen tomar muestras en vez de poblaciones enteras, el nfasis de esta obra esta mas orientada hacia los estadsticos que a los parmetros.

Parmetros y estadsticos Existen medidas para realizar descripciones cuantitativas de los conjuntos de datos, o poblaciones, y de sus muestras, diferencindose entre ellas las que se refieren a las mismas poblaciones y a las muestras. Para el caso de las poblaciones, las medidas que las describen se denominan parmetros, y suelen estar representadas con letras griegas . Por otro lado, para el caso de aquellas medidas que describen a una muestra se les llama estadsticos o estimadores, y son representados por letras de nuestro alfabeto (por ejemplo, x o s). Tales medidas cuantitativas que describen a las poblaciones y a las muestras se comentarn enseguida. MEDIDAS DE TENDENCIA CENTRAL La mayor parte de los conjuntos de datos muestran un tendencia a agruparse alrededor de un punto central y por lo general es posible elegir algn valor promedio que describa todo un conjunto de datos. Un valor tpico descriptivo como ese es una medida de tendencia central o posicin. Con frecuencia se utilizan cuatro tipos de promedios como medidas de tendencia central, que son: media aritmtica, mediana, moda y rango medio. La media aritmtica La media aritmtica (tambin denominada media) es el promedio o medida de tendencia central que se utiliza con mayor frecuencia1. Se calcula sumando todas las observaciones de un conjunto de datos, dividiendo despus ese total entre el numero total de elementos involucrados. introduccin de notacin algebraica As, para una muestra que contenga un conjunto de n observaciones X1,X2,...,Xn, se puede describir la media aritmtica (con el smbolo X, que se lee X testada), de la manera siguiente:

X =

+ X

+ ..., X

Para especificar la notacin, por conveniencia, se usa el termino

i =1

(que significa la sumatoria de todos los valores Xi) se utiliza de manera convencional cuando se desea sumar un conjunto e observaciones. Es decir,

i =1

= X1 + X

+ ... + X

utilizando esta notacin de sumatoria, se puede expresar en forma ms simple la media aritmtica de la muestra, de la manera siguiente:

Aunque la palabra promedio se refiere a cualquier medida de resumen de tendencia central, se le utiliza con mayor frecuencia como sinnimo de media.

X =
donde

X
i =1

X n
Xi

= = =
X
i

media aritmtica de la muestra tamao de la muestra i-sima observacin de la variable aleatoria X

=sumatoria de todos los valores Xi de la muestra (vase el apndice B)

i =1

Para la muestra del anlisis financiero, X1=25 razn de PU reportada para A X2 =12 razn de PU reportada para B X3=23 razn de PU reportada para C X4=28 razn de PU reportada para D X5 =17 razn de PU reportada para E X6=15 razn de PU reportada para F El calculo de la media aritmtica para esta muestra es

X =

X
i =1

25 + 12 + 23 + 28 + 17 + 15 = 20 .0 6

Ntese que la media calculada es 20, aun cuando ninguna de las compaas especificas de la muestra tiene una razn de PU de 20. en la escala de puntos de la figura, se observa que este conjunto de datos, tres observaciones son menores que la media y tres son mayores. La media acta como punto de equilibrio, de manera que las observaciones menores equilibran a las mayores. Ntese que el calculo de la media se basa en todas las observaciones (X1,X2,...,Xn), del conjunto de datos. Ninguna otra medida de tendencia central posee esta caracterstica. Como su calculo se basa en todas las observaciones, la media aritmtica resulta muy afectada por valores extremos. En tales casos la media aritmtica representa una imagen distorsionada de la informacin que contiene los datos; por ello, la media no sera el mejor promedio para describir o resumir un conjunto de datos como ese.

10

15

20 X =520.00

25

30

Para ilustrar de mejor manera las caractersticas de la media, supngase que el analista financiero toma una muestra aleatoria de n=6 compaas de ventas al menudeo entre una lista de 45 y otra muestra aleatoria de n=6 compaas procesadoras de alimentos de una lista de 33. Las razones de PU reportadas son:

Compaa de ventas al menudeo E1 E2 E3 E4 E5 E6

Razn de precio a utilidad 14 42 13 14 16 21

Compaa procesadora de alimentos F1 F2 F3 F4 F5 F6

Razn de precio a utilidad 20 22 17 20 23 18

En las figuras siguientes se ilustran las respectivas escalas de puntos. Se observa que el promedio de las razones de PU para esas dos muestras tambin es de 20. no obstante, tal como se observa en las figuras , las dos muestras extradas aqu tienen caractersticas muy distintas, tanto entre s como con respecto a la muestra de las seis compaas de recursos naturales que se dibujaron en la figura anterior. Para esta muestra, la media aritmtica es una representacin distorsionada, de la informacin que contienen los datos y no es el mejor promedio que se puede utilizar. Por otro lado, para las muestras de las compaas procesadoras de alimentos y de recursos naturales, la media es la medida descriptiva apropiada para resumir y caracterizar los conjuntos respectivos de datos, porque no se dan observaciones muy diferentes. De hecho, los datos de las compaas de procesamiento de alimentos son bastante homogneos. Dos de las seis compaas de esta muestra tienen razones de PU equivalentes a la media, como se observa en las 3 figuras, resulta evidente que las razones de PU de estas seis compaas contienen la menor cantidad de dispersin o variabilidad entre las tres muestras. Adems, tambin se observa que los datos de razones de PU en cada una de las muestras de recursos naturales y de procesamiento de alimentos poseen la propiedad de simetra, en tanto que los datos para la muestra de compaas de ventas al menudeo no son simtricos.

10

15

20

25

30

35

40

45

X =520.00

15

20 X =520.00

25

La mediana La mediana es el valor que se encuentra en el centro de una secuencia ordenada de datos. Si no hay empates, la mitad de las observaciones sern menores y la mitad sern mayores. La mediana no se ve afectada por observaciones extremas en un conjunto de datos. Por ello, cuando se presenta alguna observacin extrema, resulta apropiado utilizar la mediana, y no la media, para describir el conjunto de datos. Para calcular la mediana a partir de un conjunto de datos recolectados en su forma natural, primero se deben ordenar. A este conjunto se le denomina un arreglo ordenado. Despus se utiliza la formula de posicionamiento de punto
n + 1 2

Para localizar el lugar que ocupa el valor de la mediana en el arreglo ordenado.

Regla1

Si el tamao de la muestra es un numero impar, la mediana esta representada por el valor numrico correspondiente a la posicin (n+1)/2 de las observaciones ordenadas. Si el tamao de la muestra es un numero par, entonces la posicin de la mediana estar entre las dos observaciones intermedias. Por ello, la mediana es el promedio de los valores numericos correspondientes a estas dos observaciones centrales.

Regla2

Muestra con numero par de elementos Para el ejemplo del analista financiero sobre seis compaas de recursos naturales, se contaba con los datos siguientes: 25 12 23 28 17 15

El arreglo ordenado es: 12 Observacin ordenada Mediana =20.0 1 15 2 17 3 4 23 5 25 6 28

Para estos datos, la posicin de la mediana es: (n+1)/2 = (6+1)/2=3.5. Por lo tanto, la mediana se obtiene promediando las observaciones ordenadas que ocupan los lugares tercero y cuarto:

17 + 23 = 20 . 0 2

Como se puede observar en el arreglo ordenado, las observaciones extremas no afectan la mediana. Sin importar si la razn de PU ms grande es 28, 38 o 68, la mediana sigue siendo 20.0. Muestra con numero impar de elementos Si la muestra hubiera tenido un numero impar de elementos. La mediana simplemente habria sido representada por el valor numerico de la observacin que ocupa la poblacin (n+1)/2 en el arreglo ordenado. Por ello, en e siguiente arreglo ordenado de n=5 calificaciones de estudiantes, la medina es el valor de la tercera de ellas [es decir, (5+1)/2], o sea 590:

500 Mediana Observacin ordenada 1

570

590

600

690

Empates en los datos Cuando se calcula la mediana se ignora el hecho de que puede haber valores iguales en los datos. Supngase por ejemplo, que el siguiente conjunto de datos representa los salarios iniciales (en miles de dlares) para una muestra de n=7 pasantes de contabilidad recin graduados: 23.1 El arreglo ordenado es: 19.8 Mediana Observacin ordenada 1 2 3 4 5 6 7 20.5 21.6 21.6 22.7 23.1 25.0 21.6 25.0 19.8 20.5 22.7 21.6

Para esta muestra con un nmero impar de elementos, la posicin de la mediana es la que ocupa el (n+1)/2 =4 cuarto lugar. Por ello, la mediana es 21.6 miles de dolares, valor central de la secuencia ordenada, aun cuando la tercera observacin ordenada es tambin 21.6 miles de dolares. Caractersticas de la mediana En resumen, el clculo del valor de la mediana se afecta por la cantidad de observaciones y no por la magnitud de ningn valor extremo. Adems, es igualmente probable que cualquier observacin elegida al azar exceda la mediana, o que sta exceda a aqulla.

La moda En ocasiones, cuando se describe o se resume un conjunto de datos, se utiliza la moda como medida de tendencia central. La moda es el valor de un conjunto de datos que aparece con mayor frecuencia. Se le obtiene fcilmente a partir de un arreglo ordenado. A diferencia de la media aritmtica, la moda no se afecta ante la ocurrencia de valores extremos. Sin embargo, solo se utiliza la moda para propsitos descriptivos porque es ms variable, para distintas muestras, que las medidas de tendencia central. Utilizando el arreglo ordenado de razones de PU que se obtuvieron de la muestra del anlisis financiero de seis compaa s de recursos naturales: 12 15 17 23 25 28

se observa que no hay moda. Ninguna de las razones de PU result ser ms representativa. Obsrvese la diferencia entre no existe moda y una moda cero, como se ilustra en el arreglo siguiente ordenado de temperaturas del medioda (en grados Fahrenheit) en Iquitos, durante la primera semana de enero: Arreglo ordenado (Cerro de Pasco)

-4

-2

-1

-1

Moda = 0

Adems, un conjunto de datos puede tener ms de una moda, como se ilustra en el arreglo siguiente ordenado de temperaturas del medioda (en grados Fahrenheit) en Piura durante la primera semana de enero: Arreglo ordenado (Piura) 21

28

28

35

41

43

43

Ntese que en Piura hay dos modas 28 y 43. Estos datos se describen como bimodales.

3.4.4 El rango medio El rango medio es el promedio de las observaciones mayor y menor de un conjunto de datos. Se puede expresar de la manera siguiente:

RangoMedio=

X menor + X mayor 2

Utilizando el arreglo ordenado de razones de PU provenientes de la muestra de seis compaas de recursos naturales que estudia el analista financiero: 12 15 17 23 25 28

el rango medio se calcula de la ecuacin (3.2) como

RangoMedio =

X menor + X mayor 2

12 + 28 = 20.0 2

A pesar de su sencillez, el rango medio se debe utilizar con cautela, ya que solo implica las observaciones mayor y menor de un conjunto de datos, si hay observaciones extremas se distorsiona como medida de tendencia central. No obstante, con frecuencia se utiliza en forma exitosa el rango medio como parmetro de medicin tanto para anlisis financieros como para informes sobre el clima, puesto que ofrece un valor adecuado rpido y sencillo para resumir todo un conjunto de datos, ya sea una serie de precios diarios de cierre de una accin para todo un ao, o un conjunto de lecturas de temperaturas registradas cada hora durante todo un da. En tales situaciones, no es probable que ocurra un valor extremo. MEDIDAS DE DISPERSIN Una segunda propiedad importante que describe a un conjunto de datos es la dispersin. Dispersin es el grado de variacin o diseminacin de los datos. Dos conjuntos de datos pueden diferir tanto en tendencia central como en dispersin; o, como se muestra en las figuras, dos conjuntos de datos pueden tener las mismas medidas de tendencia central, pero diferir mucho en trminos de dispersin. El conjunto de datos que se ilustra en la primera figura es mucho menos variable que el que se ilustra en la otra. Cuatro medidas de dispersin son el rango, la varianza, la desviacin estndar y el coeficiente de variacin. 3.5.1 El rango El rango es la diferencia entre las observaciones mayor y menor de un conjunto de datos. Es decir,

Rango = X mayor X menor

Utilizando el arreglo ordenado de los datos de razones PU de la muestra de 6 compaa s de recursos naturales: 12 15 17 23 25 28

el rango es 28 12 =16.0. El rango mide la dispersin total del conjunto de datos. Aunque el rango es una medida de la dispersin simple y que se calcula con facilidad, su debilidad preponderante es que no toma en consideracin la forma en que se distribuyen los datos entre los valores ms pequeos y los ms grandes. Esto se puede observar en la figura siguiente. As, como se comprueba en la escala C, no seria apropiado utilizar el rango

7 Escala A

10

11

12

7 Escala B

10

11

12

13

7 Escala C

10

11

12

13

Como medida de dispersin cuando uno o ambos de sus componentes son observaciones extremas. 3.5.2 La varianza y la desviacin estndar Dos medidas de dispersin que se utilizan con frecuencia y que si toman en consideracin la forma en que se distribuyen todos los valores son la varianza y su raz cuadrada, la desviacin estndar. Estas medidas establecen la forma en que los valores fluctan con respecto a la media. Definicin de varianza muestral La varianza muestral es casi el promedio de los cuadrados de las diferencias entre cada una de las observaciones de un conjunto de datos y la media. As, para una muestra que contiene n observaciones X1,X2,...,Xn, la varianza muestral (representada por el smbolo S2) se escribe de la siguiente manera:

( X 1 X ) 2 ( X 2 X ) 2 + ... + ( X n X ) = n 1

Utilizando la notacin de sumatoria, se puede expresar en forma mas simple el planteamiento anterior, como:

(X

i =1

X )2

n 1

Donde:

X
n

= media aritmtica de la muestra = tamao de la muestra = i-esimo valor de la variable aleatoria X

Xi

(X
i 1

X )2
= sumatoria de total las diferencias al cuadrado entre los valores de yX

Xi

Definicin de desviacin estndar muestral La desviacin estndar muestral (cuya notacin es el smbolo S) es simplemente la raiz cuadrada de la varianza muestral. Es decir:

S = S2 =

(X
i =1

X )2

n 1

Calculo de S2 y S Para calcular la varianza: 1. 2. 3. 4. Calcule la diferencia entre cada una de las observaciones y la media. eleve al cuadrado cada una de las diferencias. Sume esas diferencias elevadas al cuadrado. Divida esa suma entre n-1.

Para obtener la desviacin estndar, simplemente se obtiene la raz cuadrada de la varianza. Para la muestra que tomo el analista financiero de 6 compaas de recursos naturales, los datos originales (razones de PU) fueron: 25 12 23 28 17 15

y X = 20. la varianza muestral se calcula de la siguiente manera:

(X

i =1

X )2

n 1

( 25 20 ) 2 + (12 20 ) 2 + ... + (15 20 ) 2 = 6 1

196 5

= 39 . 2 (en unidades al cuadrado)


y la desviacin estndar muestral se calcula como

S = S2 =

(X
i =1

X )2 = 39.2 = 6.26

n 1

Como en los clculos anteriores las diferencias se elevan al cuadrado, ni la varianza ni la desviacin estndar pueden ser nunca negativas. El nico caso en que S2 y S pudieran ser cero es cuando no hay variacin en los datos , si todas las observaciones de la muestra tuvieran exactamente el mismo valor. En ese caso, muy poco comn, el rango tambin seria cero. Sin embargo, los datos son variables por naturaleza, no constantes. Cualquier fenmeno aleatorio de inters que se pudiera pensar asume diversos valores. Por ejemplo, las compaas tienen razones de PU diferentes, de la misma manera que las personas tienen diferente coeficiente intelectual, ingreso, peso, estatura, edad, pulso, etc. Debido a que los datos son inherentemente variables, es tan importante estudiar no solo medidas (de tendencia central) que resuman los datos, sino tambin medidas (de dispersin) que reflejen la forma en que varan los datos. Qu indican la varianza y la desviacin estandar La varianza y la desviacin estndar miden la dispersin promedio en torno a la media; es decir, como fluctan las observaciones mayores por encima de la media y como se distribuyen las observaciones menores por debajo de ella. La varianza tiene ciertas propiedades matemticas tiles. Sin embargo, al calcular se obtienen unidades al cuadrado: dlares al cuadrado, pulgadas al cuadrado, etc. Por ello, en la practica la principal medida de dispersin que se utiliza es la desviacin estndar, cuyo valor est dado en las unidades originales de los datos: dlares, pulgadas, etc. En los datos anteriores sobre las razones de PU, la desviacin estndar es 6.26. Esto indica que la mayor parte de las razones de esa muestra se agrupan dentro de 6.26 unidades por encima y por debajo de la media (es decir, entre 13.74 y 26.26). Por qu se elevan las desviaciones al cuadrado Las frmulas para la varianza y las desviacin estndar no podran utilizar tan solo

(X
i =1

X)

Como numerador, porque se debe recordar que la media acta como punto de equilibrio para las observaciones que son mayores y menores que ella. Por lo tanto, la suma de las desviaciones con respecto a la media siempre es igual a cero. Es decir,

(X
i =1

X) = 0

Para demostrar esto, se utilizan de nuevo los datos de razones de PU: 25 por lo tanto, 12 23 28 17 15

(X
i =1

X ) = (25 20) + (12 20) + (23 20) + (28 20) + (17 20) + (15 20) = 0

esto se ilustra en el diagrama de puntos de la figura que se muestra

Razones de PU para seis compaas de recursos naturales 10 15 20 25 30

X =20

como ya se mencion antes, tres de las observaciones son menores que la media y tres son mayores. Aunque la suma de las seis desviaciones (5, -8, 3, 8, -3 y 5) es 0, la suma de las desviaciones al cuadrado permite estudiar la dispersin de los datos. Por ello se utiliza:

(X
i =1

2 i

X)

cuando se calculan la varianza y la desviacin estndar. En el proceso de elevar al cuadrado, las observaciones que se encuentran ms alejadas de la media reciben ms peso que las observaciones que estn ms cerca. Las desviaciones al cuadrado correspondientes a los datos anteriores de las razones de PU son: 25 64 9 64 9 25

Ntese que la cuarta observacin (X4=28) es 8 unidades mayor que la media, en tanto que la segunda observacin (X2=12) es 8 unidades menor. Al elevar al cuadrado ambos valores contribuyen substancialmente ms calculo de S2 y S que las otras observaciones de la muestra, las cuales estn ms prximas a la media. Por lo tanto, se pueden hacer las siguientes generalizaciones: 1. Cuando ms separados o dispersos estn los datos, tanto mayores sern el rango, la varianza y la desviacin estndar. 2. Si los datos estn mas concentrados o son homogneos, menores sern el rango, la varianza y la desviacin estndar. 3. Si todos las observaciones son iguales ( de manera que no haya variaciones en los datos), el rango, la varianza y la desviacin estndar sern iguales a cero. Calculo de S2 y S: formulas abreviadas

Las formulas de la varianza y la desviacin estndar, son frmulas de definicin, pero su uso no suele ser practico aun cuando se disponga de una calculadora. Para los datos de razones de PU la media es un entero, 20. Para situaciones mas realistas en las que es poco probable que las observaciones y la media sean enteros, se puede utilizar las siguientes formulas abreviadas para la varianza y la desviacin estndar, cuyo uso es ms prctico:

i =1

2 i

( X i ) 2
i =1

n 1

S =
Donde

i=1

2 i

( X i )2
i=1

n 1

X
i =1 n i =1

2 i

= sumatoria de los cuadrados de cada observacin

( X i ) 2

= cuadrado de la sumatoria total

Las frmulas abreviadas, , son idnticas a las frmulas de definicin. Como los denominadores son iguales, es fcil demostrar, desarrollando las expresiones y utilizando las reglas de la sumatoria, que

(X
i =1

X ) 2 = X i2
i =1

( X i ) 2
i =1

Adems como S2 (y S) nunca pueden ser negativas

X
i =1

2 i

La sumatoria de los cuadrados siempre debe ser igual o exceder de

( X i ) 2
i =1

n
El cuadrado de la suma total dividido entre n Volviendo a los datos de las razones de PU, se vuelven a calcular la varianza y la desviacin estndar de la siguiente manera:

S
2

=
2

i =1

2 i

( X i ) 2
i =1

n 1
2

( 25 + 12 + ... + 15 ) 2 ( 25 + 12 + ... + 15 ) 6 = 6 1
( 120 ) 2 ( 625 + 144 + ... + 225 ) 6 = 5
= =
y

2596

2400 5

196 5

= 39 . 2 (en unidades al cuadrado)

S =
FORMA

39 . 2 = 6 . 26

Una tercera propiedad importante de un conjunto de datos es su forma; la manera en que se distribuyen los datos. Una distribucin de datos puede ser simtrica o no. Si la distribucin de datos no es simtrica, se le denomina asimtrica o sesgada. Todo lo que se requiere para describir la forma es comparar la media y la mediana. Si estas dos medidas son iguales, por lo general se considera que los datos son simtricos (o con sesgo cero). Por otro lado, si la media es superior a la mediana, por lo general se dice que los datos tienen sesgo positivo o hacia la derecha. Si es la mediana la que es mayor que la media, se dice que los datos tienen un sesgo negativo o hacia la izquierda. Es decir,

Media > mediana: sesgo positivo o hacia la derecha Media = mediana: simetra o sesgo cero Media < mediana: sesgo negativo o hacia la izquierda. El sesgo positivo se presenta cuando la media se ve aumentada por algunos valores extraordinariamente grandes; el sesgo negativo ocurre cuando la media se ve reducida por algunos valores extremadamente bajos. Los datos son simtricos cuando no hay valores extremos en direccin alguna de manera que los valores bajos y altos se compensan entre s.

Representaciones grficas Gran parte de la utilidad que tiene la Estadstica Descriptiva es la de proporcionar un medio para informar basado en los datos recopilados. La eficacia con que se pueda realizar tal proceso de informacin depender de la presentacin de los datos, siendo la forma grfica uno de los ms rpidos y eficientes, aunque tambin uno de los que ms pueden ser manipulados o ser malinterpretados si no se tienen algunas precauciones bsicas al realizar las grficas. Existen tambin varios tipos de grficas, o representaciones grficas, utilizndose cada uno de ellos de acuerdo al tipo de informacin que se est usando y los objetivos que se persiguen al presentar la informacin. Entonces, mencionaremos algunas consideraciones que conviene tomar en cuenta al momento de realizar cualquier grfica a fin de que la informacin sea transmitida de la manera ms eficaz posible y sin distorsiones: 1. El eje que represente a las frecuencias de las observaciones (comnmente el vertical o de las ordenadas) debe comenzar en cero (0), de otra manera podra dar impresiones errneas al comparar la altura, longitud o posicin de las columnas, barras o lneas que representan las frecuencias. 2. La longitud de los espacios que representan a cada dato o intervalo (clase) en la grfica deben ser iguales. 3. El tipo de grfico debe coincidir por sus caractersticas con el tipo de informacin o el objetivo que se persigue al representarla, de otra manera la representacin grfica se convierte en un instrumento ineficaz, que produce ms confusin que otra cosa, innecesario o productor de malinterpretaciones. Por ejemplo, si se desea representar la proporcin de poblacin masculina en un pas conviene ms usar una grfica de pastel o circular que una grfica de barras al compararla contra la poblacin femenina; por un lado se puede apreciar dicha proporcin, por el otro se aprecia cul de las dos poblaciones es mayor. Hay un punto que conviene remarcar: existe software que permite la construccin rpida y eficiente de grficas a partir de bases de datos o hojas de clculos, pero no importa cun bonita, bien delineada, bien coloreada o bien presentada est una grfica, si no se han tomado en cuenta consideraciones de este tipo que tienen que ver ms sobre el objetivo de estas herramientas y la Estadstica: la transmisin eficiente de la informacin. Tipos de grficos Para las distribuciones de frecuencias la representacin grfica ms comn es el histograma. Un ejemplo es el que se presenta a continuacin y que representa el nmero de "visitas" que ha tenido un centro mdico de acuerdo a la hora de la visita.

En el eje horizontal (o de las abscisas) se representan los intervalos de los datos, marcndose de manera continua las fronteras entre cada uno de los stos. De esta manera, el histograma est compuesto rectngulos, cuyo nmero coincide con la cantidad de intervalos considerados, el ancho de la base de cada uno de esos rectngulos es la misma siempre y coincide con las fronteras de los intervalos, y la altura corresponde a la frecuencia de cada intervalo. Es importante observar que resulta difcil utilizar este tipo de representacin cuando existen intervalos abiertos o cuando los intervalos no son iguales entre s. El programa Excel no permite crear de manera automtica histogramas, pues proporciona el ancho de las columnas de tal manera que quedan separadas. Un tipo de grfico muy parecido al histograma es la grfica de columnas. Para este tipo de grfica, elaboradas con rectngulos tambin, se pide que sus bases sean del mismo ancho y sus alturas equivalentes con las frecuencias. Para este tipo, a diferencia del histograma, no es necesario tener una escala horizontal continua, por lo que los rectngulos (o barras) no tienen que aparecer juntas entre s. Otra observacin pertinente es que se pueden representar en la misma grfica, utilizando las mismas escalas horizontales y verticales, varios datos correspondientes a las mismas variables producto de varias observaciones. Esto produce una grfica con varias series, correspondiendo cada una de ellas a cada observacin de la muestra (o poblacin), y tenindose una grfica compuesta. Es conveniente que cada serie de datos (u observaciones) sean ilustradas o iluminadas de igual manera entre s, pero distinta de las dems.

El ejemplo que sigue pertenece al comportamiento de las calificaciones parciales de tres alumnos de primer grado de sec. Las series (cada una de las calificaciones parciales) estn coloreadas con diferente color para mostrar el comportamiento tanto individual, como de cada uno de los alumnos con respecto a los dems. Es interesante observar que la escala horizontal no es continua (es nominal).

Existe la posibilidad, y si los recursos lo permiten, de representar grficos compuestos de una manera "tridimensional", es decir, con grficos que posean no slo dos ejes, sino tres; y en los que los rectngulos son sustitudos por prismas de base rectangular. Un ejemplo es el siguiente:

donde se representa el porcentaje del PBI gastado en docencia e investigacin por cinco pases en el lapso de 1988 a 1999. Es importante considerar que este tipo de grficos puede complicarse mucho, haciendo que la informacin sea menos legible.

Tambin es posible realizar grficas de barras horizontales, los cuales se parecen mucho a las grficas de columnas, con la salvedad importante de que la funcin de los ejes se intercambian y el eje horizontal queda destinado a las frecuencias y el eje vertical a las clases. Es muy comn que este tipo de grficos se utilicen para ilustrar el tamao de una poblacin dividida en estratos como, por ejemplo, son sus edades. El ejemplo que se presenta es la poblacin de un pas ficticio :

A este tipo de grficos en particular se le llama pirmide de edades por su forma. Incluso, cuando se compara la poblacin masculina y femenina por estratos de edades, se estila utiliza el lado izquierdo para la poblacin de un sexo y el lado derecho para el otro, el resultado es una "pirmide" casi simtrica (depender de la poblacin en particular). Cuando los datos se relacionan entre s, es decir, cuando podemos decir que existe cierta continuidad entre las observaciones (como por ejemplo el crecimiento poblacional, la evolucin del peso o estatura de una persona a travs del tiempo, el desempeo acadmico de un estudiante a lo largo de sus estudios escolares, las variaciones presentadas en la medicin realizada en algn experimento cada segundo o minuto) se pueden utilizar las grficas de lneas, que consisten en una serie de puntos trazados en las intersecciones de las marcas de clase y las frecuencias de cada una, unindose consecutivamente con lneas:

Este ejemplo muestra el comportamiento del peso corporal (en kilogramos) de dos individuos a lo largo de cinco observaciones anuales. Al igual que en el caso de las grficas de columnas (y de otras ms) es posible presentar varias series de observaciones (en este caso cada serie de observaciones son los pesos de un individuo).

Otra forma de representacin de un uso menos comn, y muy parecida a las grficas de lneas, es el polgono de frecuencias. La diferencia fundamental entre ambas es que en el polgono de frecuencias se aaden dos clases con frecuencias cero: una antes de la primera clase con datos y otra despus de la ltima. El resultado es que se "sujeta" la lnea por ambos extremos al eje horizontal y lo que podra ser una lnea separada del eje se convierte, junto con ste, en un polgono.

El siguiente ejemplo corresponde al porcentaje del PBI gastado en docencia e investigacin durante el ao de 1990 en cinco pases

El Excel no crea automticamente polgonos de frecuencias, sino que produce grficas de lneas. Una grfica similar al polgono de frecuencias es la ojiva, pero sta se obtiene de aplicar parcialmente la misma tcnica a una distribucin acumulativa y de igual manera que stas, existen las ojivas mayor que y las ojivas menor que. Existen dos diferencias fundamentales entre las ojivas y los polgonos de frecuencias (y por sto la aplicacin de la tcnica es parcial): 1. Un extremo de la ojiva no se "amarra" al eje horizontal, para la ojiva mayor que sucede con el extremo izquierdo; para la ojiva menor que, con el derecho. 2. En el eje horizontal en lugar de colocar las marcas de clase se colocan las fronteras de clase. Para el caso de la ojiva mayor que es la frontera menor; para la ojiva menor que, la mayor. Las siguientes son ejemplos de ojivas, a la izquierda la mayor que, a la derecha la menor que, utilizando los datos que se usaron para ejemplificar el histograma:

La ojiva mayor que (izquierda) se le denomina de esta manera porque viendo el punto que est sobre la frontera de clase "4:00" se ven las visitas que se realizaron en una hora mayor que las 4:00 horas (en cuestiones temporales se dira: despus de las 4:00 horas). De forma anloga, en la ojiva menor que la frecuencia que se representa en cada frontera de clase son el nmero de observaciones menores que la frontera sealada (en caso de tiempos sera el nmero de observaciones antes de la hora que seala la frontera).

Si se utiliza una distribucin porcentual acumulativa entonces se obtiene una ojiva (mayor que o menor que segn sea el caso) cuyo eje vertical tiene una escala que va del 0% al 100%. El siguiente ejemplo es la misma ojiva menor que, que se acaba de usar, pero con una distribucin porcentual: En ocasiones, al comparar dos series de observaciones (o de datos) se utiliza una

llamada grfica de reas, la cual consiste en rellenas el rea que se encuentre debajo de las lneas que resultan de una grfica de lneas. El ejemplo que se presenta es la comparacin del total de las especies de las familias del orden Carnvora y las que estn amenazadas, en Per,

Cuando lo que se desea es resaltar las proporciones que representan algunos

subconjuntos con respecto al total, es decir, cuando se est usando una escala categrica, conviene utilizar una grfica llamada de pastel o circular. Por ejemplo, para ilustrar la matrcula en licenciatura en una universidad ficticia por reas de conocimiento en el ao de 1992 se puede usar algo as como sigue

De hecho, si se desea resaltar una de las categoras que se presentan, es vlido tomar esa "rebanada" de la grfica y separarla de las dems:

Hay que tomar algunas precauciones al utilizar este tipo de grficos. Por un lado, comparar dos grficos circulares (por ejemplo, si se quisieran comparar las proporciones de matrculas en licenciatura por reas de conocimiento en licenciatura para dos aos distintos) resulta muy difcil y, por tanto, no es muy aconsejable.

Por otro lado, en ocasiones existen categoras con pocas frecuencias (por ejemplo, dos o tres con frecuencias relativas menores al 1% cada una), haciendo que la grfica resulte "pesada" y las etiquetas se encimen. Una posible solucin es juntarlas en una sola categora (por ejemplo, la tpica "otras" o "varias"), pero entonces habra que ponderar si se hace una grfica extra con dichas observaciones nicamente, haciendo la anotacin pertinente, o simplemente se ignoran por no resultar significativas. Actualmente, y mucho en los medios masivos de comunicacin, se utilizan grficos para ilustrar los datos o los resultados de alguna investigacin. Regularmente se utilizan dibujos para representar dicha informacin, y el tamao o el nmero de estos dibujos dentro de una grfica queda determinado por la frecuencia correspondiente. A este tipo de grfica se le llama pictograma y stos son dos ejemplos:

El de la izquierda representa la poblacin de los Estados Unidos (cada hombrecillo representa a dos millones de habitantes), el de la derecha representa la masa de tres planetas de nuestro sistema solar tomando como unidad a la masa de la Tierra (cada representa la masa de nuestro planeta: Venus tiene masa menor y Neptuno tiene ms 17 veces ms masa que la Tierra). Cuando se pretende ilustrar la dispersin de las observaciones realizadas, y as trabajar algunas cosas como correlaciones se puede utilizar una grfica de dispersin. Por ejemplo, el ejemplo de la izquierda es la dispersin que se presenta al comparar el nmero de tesis doctorales en ciencias exactas contra el nmero de total de tesis doctorales (todo en Mxico) en otras reas entre 1984 y 1990

La grfica de la derecha es resultado de comparar el dimetro (en miles de kilmetros) de los planetas interiores de nuestro sistema solar contra sus densidades (en gramos por centmetro cbico). Es interesante observar que los puntos parecen "seguir" una lnea imaginaria que se asemeja a una recta, con excepcin de un caso atpico: Mercurio. Uno de los usos de este tipo de grficas es precisamente encontrar si las observaciones siguen algn patrn lineal (una lnea de tendencia) o si existen valores atpicos. Para el caso del Excel, el programa es capaz de graficar las lneas de tendencias que siguen un conjunto de datos Adems existen otros tipos de grficos, cada uno con caractersticas particulares que les proporcionan cierta intencionalidad para su uso, como son las grficas de radar y las grficas polares. DIAGRAMA DE TALLOS Y HOJAS Un diagrama de tallos y hojas divide las observaciones de los datos en dgitos primarios y dgitos derivados. Por ejemplo, si las observaciones del conjunto de datos tuvieran a lo sumo dos dgitos, entonces la columna de las decenas seria el dgito primario y la columna restante seria el dgito derivado. Por ello, una observacin de 25 tiene un dgito primario de dos y un dgito derivado de cinco, en tanto que una observacin de 8 tiene un dgito primario de cero y un dgito derivado de ocho. A continuacin se ilustra el diagrama de tallos y hojas de las razones de PU para 24 compaas del ramo industrial de recursos naturales. La columna de nmeros a la

izquierda de la lnea vertical se denomina tallo. Esos nmeros corresponden a los dgitos primarios de los datos. En cada rengln, las hojas se separan hacia la derecha de la lnea vertical y esas anotaciones corresponden a los dgitos derivados.

0 1 2 3 4 5 6

89 2517304407 23 50380 83 8 0 1 N=24

Construccin del diagrama de tallos y hojas Resulta fcil construir el diagrama de tallos y hojas. Ntese que la primera compaa, A, inform de una razn de PU de 25. Por ello, el dgito derivado de cinco se ubica como el primer valor de hoja, junto al valor de tallo 2 (el dgito primario). En tanto que la segunda compaa, B, tiene una razn reportada de 12. Aqu, el dgito derivado de dos se considera el primer valor de hoja junto al valor de tallo de uno. Siguiendo este proceso, la razn de la tercera compaa, era de 20, por lo que el dgito derivado de cero se considera segundo valor de hoja, junto al valor de tallo de dos. En este punto el diagrama de tallos y hojas tiene la siguiente construccin:

0 1 2 3 4 5 6

2 50

Ntese que dos de las tres compaas tienen el mismo tallo. Al incluirse cada vez ms compaas, se observaran las que tienen los mismos tallos y, quiz, las que tienen tambin las mismas hojas dentro de los tallos,(es decir , las que tienen las mismas razones de PU). Esos valores de hojas se registran junto con las hojas registradas previamente, frente al tallo correspondiente, dando como resultado la figura 3.9.

Para examinar de mejor manera los datos, se podra acomodar de otro modo las hojas en cada uno de los tallos, colocando los dgitos en orden ascendente, rengln por rengln. Otra distribucin tambin resulta til. Si el investigador desea alterar el tamao del diagrama de tallos y hojas, ests es lo suficientemente flexible para adaptarse a tal ajuste. Supngase, por ejemplo, que se desea aumentar el nmero de tallos para

0 1 2 3 4 5 6

89 0012233445 77 00358 38 8 0 1 N=24

Lograr una menor concentracin de las hojas en los tallos restantes.

0H 1L 1H 2L 2H 3L 3H 4L 4H 5L 5H 6L

89 00122334 4 577 003 58 3 8 8 0 1 N=24

Note que cada uno de los tallos ha quedado dividido en dos nuevos tallos: uno para los dgitos unitarios inferiores 0,1,2,3 o 4 y el otro para los digitos superiores 5,6,7,8 o 9. Esto se representan mediante L y H, repectivamente, segn como se indica. El diagrama de tallos y hojas (modificado) es, quiz, la tcnica ms verstil estadstica descriptiva. Permite organizar simultneamente los datos para ulteriores anlisis descriptivos y, como se vera en el capitulo 4, presenta los datos tanto en forma grafica como tabular. CUANTILES Adems de la medidas de tendencia central, dispersin y forma, tambin hay algunas medidas tiles de posicin no central que suelen utilizarse al resumir o descubrir

propiedades de grades conjuntos de datos cuantitativos. A denomina cuantiles. Algunos delos cuantiles mas utilizados son los datos ordenados en decimos) y los percentiles (los que los Para mayores informacin sobre estas medidas, vanse las embargo, aqu se revisaran los cuartiles.

estas medidas se les los deciles (que dividen dividen en centsimos). referencias 1 y 2. Sin

En tanto que la mediana es un valor que divide el arreglo ordenado a la mitad (50% de las observaciones son menores y 50% de las observaciones son mayores), los cuartiles son medidas descriptivas que dividen los datos ordenados en cuatro cuartos. El primer cuartil Q1, es un valor por el que el 25% de las observaciones son menores que l y el 75% son mayores. El segundo cuartil, Q2, es la mediana: el 50% de las observaciones son menores y el 50% mayores. El tercer cuartil, Q3, es el valor segn el cual el 75% de las observaciones son menores y el 25% son mayores. Para aproximar los cuartiles de una poblacin que contiene N observaciones se utilizan las siguientes frmulas de posicionamiento.

Q1 = valor correspondiente a la

N +1 4

observacin ordenada

Q2= mediana, el valor correspondiente a la Q3= valor correspondiente a la

3( N + 1) 4

2( N + 1) N + 1 = 4 2

observacin ordenada

observacin ordenada

Las siguientes reglas se usan para obtener los valores de los cuartiles: 1. Si la posicin resultante es un entero, la observacin numrica correspondiente a esa posicin es la que constituye el cuartil. 2. Si la posicin resultante se encuentra a mitad entre dos valores enteros, se elige el promedio de los dos valores correspondientes. 3. Si la posicin que se obtiene no es ni un entero, ni un valor intermedio entre dos valores enteros, se sigue una regla sencilla para aproximar el cuartil especifico, la cual consiste en redondear a la posicin entera mas cercana y elegir el valor numerico de la observacin correspondiente. As, por ejemplo, del diagrama de tallos y hojas de la figura 3.11 correspondiente a las razones de PU de las 24 compaas de recursos naturales, se tiene

Q1 =

N +1 observacin ordenada 4 24 + 1 = = 6.25 6. Observacin ordenada 4

Por lo tanto Q1=12.0.

Mediana = =

N +1 2

observacin ordenada

24 + 1 = 12.5a 2

observacin ordenada

Por lo tanto, la mediana = 16.0

Q3 = =

3( N + 1) 4

observacin ordenada

3(24 + 1) = 18.75 4

19 observacin ordenada

Por lo tanto Q3 = 28.0


Ntese lo siguiente:

1. Para obtener Q1 simplemente se cuenta (de izquierda a derecha, rengln por rengln) hasta la observacin que ocupa la posicin 6. en esos datos, la hoja es 2, por lo que el resultado es 12. 2. Para obtener la mediana, se debe determinar el promedio de las observaciones que ocupan las posiciones 12 y 13. en los datos, las hojas respectivas son 5 y 7, que corresponden a razones de PU de 15 y 17, por lo que la mediana resultante es 16. Para obtener Q3, simplemente se cuenta hacia abajo (de izquierda a derecha, rengln por rengln) hasta la observacin que ocupa la posicin 19, o se cuenta hacia arriba (de derecha a izquierda, rengln por rengln) hasta la observacin que ocupa el sexto lugar. En los datos que se manejan aqu, la hoja es 8, por lo que el resultado es 28.

Vous aimerez peut-être aussi