Vous êtes sur la page 1sur 75

CAPITULO I

ESTADISTICA DESCRIPTIVA
1.1. LA ESTADISTICA Y LA VARIABILIDAD .
La Estadstica se ocupa de la recoleccin y anlisis de datos que corresponden a fenmenos o situaciones en donde est presente la variabilidad. La finalidad del anlisis es explicar tal variabilidad. Si con suficiente resolucin, se realizan mediciones del peso de un artculo, se encontrar que stas varan. Esta variabilidad puede deberse a diversas razones: al instrumento de medicin, a la persona que realiza las mediciones, a las condiciones en que se realiza la medicin, etc. Si se eligen 10 personas al azar y se mide su estatura se podr observar nuevamente el fenmeno de la variabilidad y ella puede deberse: al instrumento de medida, a factores de herencia, al tipo de alimentacin, etc. Para cruzar un ro no es suficiente saber que en promedio la profundidad del agua es 0.50 m; Es necesario conocer como vara la profundidad.

El estudio de la variabilidad se realiza a partir de la Probabilidad. En el segundo y tercer captulos se introducen los conceptos bsicos de esta teora. Se indica en estos captulos los modelos probabilsticos principales que servirn para representar situaciones en donde est presente la variabilidad. En este primer captulo se desarrollan mtodos esenciales de la Estadstica Descriptiva, mtodos que tienen que ver con la codificacin, tabulacin, representacin grfica y la sntesis numrica de datos que presentan variabilidad. Se estudian las tcnicas bsicas para organizar y presentar los datos antes de pretender cualquier interpretacin. A partir de la Estadstica Descriptiva, mediante grficos y diagramas, se identifican los modelos probabilsticos que servirn para llevar a cabo la inferencia de las caractersticas de toda una poblacin sobre la base de los datos recolectados

.V

A partir del conocimiento de la variabilidad se podr realizar inferencias, predecir, y muchas veces, controlar resultados.

iz

La variabilidad aparece en muchos procesos. La finalidad de la Estadstica es explicarla.

2. Estadstica Descriptiva.

Carlos Vliz Capuay

1.2. POBLACION. UNIDAD DE ANALISIS. VARIABLE.


Poblacin, unidad de anlisis y variable son conceptos sobre los que se basan las tcnicas estadsticas para analizar los datos. Si se estudia la opinin que tienen los peruanos respecto de una ley recin promulgada, la poblacin ser el Per, cada una de los pobladores es una unidad de anlisis y la variable est relacionada a la opinin acerca de la ley. Si se desea estudiar la variacin de la edad de los habitantes de la regin Sur, habr que referirse a la poblacin formada a los habitantes de la regin Sur, a las unidades de anlisis (cada uno de los pobladores de la regin) y a la variable edad. Si se estudia el grado de conservacin de los monumentos histricos de una ciudad, la poblacin estar formada por los monumentos histricos de la ciudad, la unidad de anlisis es cada uno de los monumentos histricos y la variable es el grado de conservacin. Si para esta misma poblacin y para estas mismas unidades de anlisis se estudia la antigedad que stos tienen, la variable es el tiempo que tiene cada uno de los monumentos. Lo anterior indica que una poblacin no necesariamente estar formada por personas y que en ella pueden definirse una o ms variables.

Poblacin.
Cualquier conjunto A es una poblacin y cada uno de sus elementos es una unidad de anlisis. A cada unidad de anlisis tambin se le llama unidad estadstica o unidad experimental.
1.1. Ejemplo.

El conjunto formado por todos los artculos producidos por una fbrica es una poblacin. Cada uno de los artculos es una unidad estadstica o unidad experimental. Cualquier subconjunto de una poblacin se llama muestra.
1.2. Ejemplo.

Interesaba conocer si el programa de TV 0007, que se propaga entre las 8 p.m. y las 9 p.m., tiene o no aceptacin entre los televidentes del pas. Para ello se propuso estimar la proporcin de las personas que ven el programa entre todos los televidentes que tienen encendido su televisor en dicho horario. La estimacin se realiz escogiendo slo 165 familias entre todas las que acostumbran encender su televisor en el horario indicado. La poblacin la constituyen todas las familias del pas que encienden su televisor entre las 8 p.m. y las 9 p.m. Las 165 familias escogidas forman una muestra.

El conjunto formado por todos los trabajadores que laboran actualmente en la industria textil de un pas es una poblacin. Cada trabajador es una unidad estadstica o de anlisis.

.V

iz

Carlos Vliz Capuay

Estadstica Descriptiva. 3

En Estadstica interesan las poblaciones cuyos elementos tienen caractersticas comunes y que pueden traducirse en nmeros. Esta idea tiene que ver con el concepto de variable.

Variable o carcter.
Para referirnos a una caracterstica de los elementos de una poblacin, por ejemplo la edad, el lugar de procedencia, el coeficiente de inteligencia de un grupo de personas, o el peso de los artculos que produce una fbrica, se usa el concepto de variable o carcter. Una variable es susceptible de adoptar distintos valores. As, la variable edad definida en la poblacin Regin Sur puede tomar los valores: 10, 50, 65, etc., aos; la variable opinin, establecida para estudiar si los ciudadanos de una pas estn de acuerdo o no con una determinada ley, puede tomar el valor 1, si el poblador est de acuerdo, el valor 2, si no est de acuerdo y el valor 3, si su posicin es indiferente. El establecimiento de una variable es una de las etapas ms importante de toda tarea estadstica. Mediante una variable el investigador cuantifica, transforma en cifras las caractersticas de una cualidad de los elementos de la poblacin. Para estudiar una caracterstica de una poblacin, se hace corresponder a cada unidad de anlisis un nmero real. De ah que se define una variable, como una funcin X que a cada elemento de una poblacin le hace corresponder un nmero real.

1.3. Ejemplo.

En la poblacin determinada por todos los trabajadores de la industria del automvil se puede definir la variable X, que a cada trabajador le asigna su edad correspondiente. En la misma poblacin tambin se puede definir la variable Y, que a cada trabajador le asigna el nmero 0 si es soltero, el nmero 1 si es casado y el nmero 3 si es viudo o divorciado. La asociacin de nmeros en lugar de palabras que indican el estado civil del trabajador ser muy til en general, pues as se evita escribir las frases: soltero, casado, etc., ahorrando tiempo y espacio al escribir.
1.4. Ejemplo.

En la poblacin formada por los artculos producidos en una fabrica, se puede definir la variable que a cada artculo le hace corresponder el nmero de defectos que tiene.

.V

iz

A una variable, tambin se le llama carcter.

4. Estadstica Descriptiva.

Carlos Vliz Capuay

Variables y encuestas
A menudo se realizan encuestas, a travs de cuestionarios, para recoger informacin de una poblacin. Cada pregunta puede relacionarse con una variable, como en el caso siguiente: Est usted de acuerdo con la ley antitabaco?. Las respuestas pueden ser: si, no, no sabe / no contesta. El entrevistado debe dar slo una respuesta. Esta respuesta puede ser codificada, respectivamente, con los valores 1, 2 y 3, correspondiendo estos valores a una variable que puede llamarse ley antitabaco. Otras veces, a una pregunta de un cuestionario estn ligadas varias variables como en el siguiente ejemplo. Cules de estos medios de transporte pblico usa para trasladarse a su centro de labores y con qu frecuencia?. Esta pregunta puede ser relacionada con dos variables: una de stas puede llamarse bus, la cual puede tomar los valores: 1, si viaja en bus y con gran frecuencia; 2, si viaja en bus y con poca frecuencia y 3, si no viaja en bus y la otra, que puede nombrarse con taxi y que se define de manera anloga a la anterior.
Si con gran frecuencia 1 1 Si con poca frecuencia 2 2

iz

Bus Taxi

Matrices de datos.

Los datos que se recogen de una poblacin pueden escribirse en tablas formndose cuadros llamados matrices de datos.
1.5. Ejemplo.

En la siguiente tabla se presenta una serie de variables definidas en el conjunto formado por los pases: Per, Colombia, Chile, Bolivia, Argentina, Venezuela, Brasil y Japn. En la tabla se indican las siguientes variables : nmero de habitantes en 1992 en millones (V1), superficie en miles de kilmetros cuadrados (V2), producto nacional bruto promedio por habitante (PNB) en dlares y para 1992 (V3), tasa media de inflacin anual en porcentaje para 1980 - 1990 (V4), y esperanza de vida al nacer en aos (V5). Como referencia se indica los valores de cada una de las variables para toda la poblacin mundial.

.V

No 3 3

Carlos Vliz Capuay

Estadstica Descriptiva. 5

Se han indicado algunos elementos que son esenciales para su interpretacin. Estos elementos son: - el ttulo de la tabla: INDICADORES BASICOS - la fuente de la cual se ha extrado la informacin: Banco Mundial. - signos empleados: el smbolo < indica "menor que". - las unidades que se usan para representar las cifras: dlares, porcentajes, etc.

INDICADORES BASICOS N.Habit. Pas (milln) V1 Per Colombia Chile Bolivia Argentina Venezuela Brasil Japn Poblacin mundial 22 32 13 7 32 20 150 124 5284 Superficie. (en miles de km ) V2 1285 1139 757 1099 2767 912 8512 378 133342
2

PNB (en $) V3 1160 1260 1940 630 2370 2560 2680

Tasa inf. (en %) V4 233.9 24.8 20.5 317.9 395.2 19.3 284.3 <5

Esper. vida (en aos) V5 63 69 72 60 71 70 66 79 66

l
4200

25430

En lo que sigue y cuando sea necesario, se tratar de que aparezcan los principales elementos que describen la tabla.
1.6. Ejemplo.

En la siguiente tabla se presentan los valores de la variable X que a cada uno de los nueve pases indicados le hace corresponder la "inflacin" en el mes de Octubre de 1993; esto es, la variacin del promedio de los precios de los principales bienes con respecto al mes anterior. Tambin se presentan los valores de la variable Y que a cada uno de los pases que aparecen en la tabla les hace corresponder la "inflacin anual acumulada" durante el ao 1993. (Los conceptos sobre inflacin se explican ms adelante).

Fuente: Banco Mundial. Informe sobre el desarrollo mundial 1992. < 5 indica "menor que 5, "

.V

iz

14.7

6. Estadstica Descriptiva.

Carlos Vliz Capuay

INFLACION (Variacin porcentual) X: Inflacin Octubre 1993 34.12 5.00 5.13 2.60 2.18 1.50 1.06 0.60 0.51 Fuente: INEI Y: Inflacin anual 1993 2567.46 44.1 32.3 12.1 52.3 39.5 22.4 7.7 8.8

PAISES Brasil Venezuela Ecuador Chile Uruguay Per Colombia Argentina Bolivia

1.3. ESCALAS DE MEDIDA. Tipos de escala.


La asignacin de nmeros a los elementos de una poblacin se hace siguiendo determinadas reglas y teniendo en cuenta los diferentes niveles de medida de la variable en estudio. As, a cada persona se le asigna su coeficiente de inteligencia, calculando previamente un nmero que corresponde a respuestas ante determinadas situaciones tpicas. En general, cuando tal procedimiento se realiza se dice que se ha establecido una escala de medida. El conocimiento de los diferentes tipos de escalas de medida permite una mejor aplicacin de los mtodos estadsticos, de ah que sea importante su estudio. La tradicional clasificacin en cuatro escalas fundamentales: nominales, ordinales, intervalares y de razn o cociente, fue realizada por S.S. Stevens (1946).

Escala nominal.

Se tiene una escala nominal si a todos las unidades estadsticas equivalentes respecto de la propiedad o atributo en estudio se les hace corresponder un mismo nmero real, que funciona slo como "etiqueta". Las operaciones que se puedan realizar con los nmeros asignados a las unidades estadsticas, as como el orden que entre ellos se puedan establecer, no tienen significado en relacin con el atributo que se mide. Con una escala de este tipo se consigue la agrupacin de las unidades estadsticas en clases equivalentes llamadas modalidades o categoras. La escala nominal es el tipo de escala ms sencillo. Con ella se logra una notacin abreviada, por lo que su uso se ha incrementado con la aparicin de la computadora.
1.7. Ejemplo.

Consideremos la poblacin formada por todos los estudiantes de la universidad AA y en sta, la variable sexo. Asignemos a los de sexo masculino el nmero 1 y a los de sexo femenino, el nmero 0. Se tiene as una escala nominal con las modalidades o

.V

iz

Carlos Vliz Capuay

Estadstica Descriptiva. 7

categoras: "masculino" y "femenino". Los elementos que forman la poblacin han quedado agrupados en dos clases: los de sexo masculino y los de sexo femenino. Es cierto que 1 es mayor que 0, pero no se puede decir lo mismo respecto de las personas de sexo masculino y femenino. A lo ms se puede decir que la persona a la que se asign el nmero 1 es diferente de la persona que se le asign el nmero 0. Tambin se tiene una escala nominal si a los estudiantes de Ciencias se les asigna el valor 1, a los de Derecho, el valor 2, a los de Sicologa, el valor 3, etc. Tampoco se puede decir que un estudiante de Sicologa es igual a un estudiante de Ciencias ms un estudiante de Derecho, an cuando 3 = 1+2. El nmero de modalidades de una variable, cuyos valores corresponden a una escala nominal, depende de la informacin disponible. Por ejemplo, la variable "estado civil" definida en una poblacin formada por miembros de una comunidad puede tener: - dos modalidades: casado y soltero; - tres modalidades: casado, soltero, viudo o divorciado; - cuatro modalidades: casado, soltero, viudo o divorciado, no declara.

Se tiene una escala ordinal, cuando el orden de los nmeros asignados a las unidades estadsticas refleja diferentes grados de la propiedad o atributo en estudio. De modo que si la cifra asignada al elemento w es mayor que la asignada al elemento u, se puede inferir que w posee un mayor grado que u en la propiedad que se estudia. Los nmeros asignados, segn la escala ordinal, slo tienen sentido en cuanto a orden se refiere. La diferencia entre los nmeros asignados no necesariamente tiene significado. As, el ordenamiento en categoras de los vendedores de una tienda, asignndoles el 1, al que logr las ventas ms altas, el 2 al que logr ventas intermedias y el 3 al que logr las ventas ms bajas, no indica que la diferencia en ventas entre los vendedores de ventas bajas y los de ventas intermedias es igual a la diferencia en ventas entre los vendedores de ventas intermedias y los de vendedores de ventas altas, an cuando 3 - 2 = 2 - 1.
1.8. Ejemplo.

Si al considerar la poblacin formada por los alumnos del curso de Geografa se asigna a cada uno el orden de mrito, segn las calificaciones que obtuvieron, se tendr una escala ordinal. Si a un alumno se le asign el nmero 5 y a otro se le asign el nmero 8, se puede decir que el primer alumno est en mejor posicin que el segundo pero no podemos decir nada respecto a la diferencia 8 - 5 = 3.

.V

iz

Escala ordinal.

8. Estadstica Descriptiva.

Carlos Vliz Capuay

1.9. Ejemplo.

Si se considera la poblacin formada por todos los minerales que se producen en cierta regin y a cada uno de stos le asignamos un nmero, de acuerdo al "grado de dureza" que poseen, la escala asignada es ordinal. Si al mineral a le asignamos el valor 2; al mineral b, el valor 4; al mineral c, el valor 10 y al mineral d, el valor 12; se puede decir que el mineral a es menos "duro" que el mineral b; que el mineral d es ms "duro" que el mineral c; sin embargo, si al asignar las medidas slo se tuvo en cuenta el orden de los valores, no se puede decir que la diferencia del grado de dureza que existe entre a y b es igual, a la diferencia del grado de dureza que hay entre c y d. La diferencia que existe entre los nmeros asignados no necesariamente tiene significacin en esta escala.

Escala intervalar.
Se tiene una escala intervalar, cuando los valores asignados a las unidades estadsticas no slo permiten que stas puedan ser ordenadas, sino que adems, las diferencias iguales entre stos indican diferencias iguales en las cuantas de las propiedades a medir. Como ejemplo de escalas intervalares, tenemos las escalas de Fahrenheit y de Celsius (centgrada) para medir la temperatura. Para cada una de estas escalas, por ejemplo la de Celsius, los nmeros ms grandes significan mayor temperatura; el orden de los nmeros asignados tiene significado, pero tambin tienen significado expresiones como la temperatura de hoy es 50 C ms alta que la de ayer. La diferencia entre las temperaturas tiene sentido. Una propiedad importante de este tipo de escalas indica que si para medir el mismo atributo en tres elementos w1 , w2 , w3 se usan, respectivamente, los nmeros x1 , x 2 , x 3

en la escala intervalar E1 y los valores y1 , y 2 , y 3 en una segunda escala intervalar E2,


x x y y entonces el cociente 1 3 es igual al cociente 1 3 . x1 x2 y1 y2

Se conoce, por ejemplo que


El agua se congela a El agua hierve a Temperatura de un cuerpo A. Grados centgrados 0 100 5 Grados Fahrenheit 32 212 41

.V

PROPIEDAD.

iz

Carlos Vliz Capuay

Estadstica Descriptiva. 9

Observando los valores de la escala centgrada, se tiene que la razn de diferencias,


100 0 = 20 , es igual a la que se observa en los valores correspondientes de la escala 5 0 212 32 Fahrenheit, = 20 . 41 32

En general, la propiedad anterior, referente a la igualdad de la proporcionalidad de las diferencias de dos escalas diferentes, de manera equivalente, puede enunciarse de la siguiente manera: Si x e y son dos valores asignados al mismo elemento para medir la misma cualidad, segn dos escalas de intervalo diferentes, entonces entre estos valores se cumple la relacin lineal y = a + bx
E scala II y y2 y1 E sca la I y = a + bx

S e o b serv a q ue
y y2 x x2 = y 2 y1 x 2 x1

x1 x2

x
Figura 1.1

En estas escalas, el 0 no indica ausencia de temperatura, no tiene significado. As, bajo ciertas condiciones, el agua se congela a 00 C y a los 320 Fahrenheit. La eleccin arbitraria del origen asignado en las escalas indicadas, tampoco permite decir, por ejemplo, que 300 es dos veces ms caliente que 150.
1.10. Ejemplo.

Al asignarle a cada individuo de una poblacin su edad, estamos considerando una escala intervalar. Si Jos, Tito, Mara y Juan tienen las edades: 2, 4, 10 y 12, respectivamente, se podr decir que Jos es menor que Tito, etc., pero adems se podr indicar que la diferencia entre el tiempo vivido entre Jos y Tito es igual a la que existe entre el tiempo vivido por Mara y Juan. Podemos decir que la distancia entre Jos y Tito es igual a la que existe entre Mara y Juan.
1.11. Ejemplo.

La estatura de una persona corresponde a una escala intervalar.

.V

y = 32 + (9 / 5) x .

iz

As por ejemplo, entre los valores x, en grados centgrados, y los valores y, en grados Fahrenheit, se cumple:

10. Estadstica Descriptiva.

Carlos Vliz Capuay

Muchas veces, en el estudio del comportamiento humano se realizan diversas mediciones que no corresponden exactamente a escalas intervalares; sin embargo, suelen usarse como si lo fueran. Tal es el caso, por ejemplo, de mediciones de la inteligencia, del rendimiento de una persona en Matemticas, etc. Esto permite aplicar una serie de mtodos de la Estadstica que se aplican para escalas intervalares. Se puede decir que la escala intervalar es una escala cuantitativa y con ella pueden aplicarse muchos de los procedimientos estadsticos conocidos. Ntese que si para los valores 100 y 5 en la escala centgrada se realiza el cociente 100/5, el resultado es diferente al que se obtiene al realizar el cociente entre los valores correspondientes en la escala Farenheit, 212 y 41. En general, la razn entre los valores para las dos escalas de temperatura no es constante. Sin embargo, esta propiedad se cumple para las escalas de razn, que a continuacin se estudian.

Escala de razn.
La escala de razn o cociente, es una escala intervalar en donde los cocientes o razones de los nmeros asignados reflejan los cocientes o razones en las cuantas de las propiedades que se miden. Para este tipo de escalas, adems del cociente entre los nmeros asignados, tienen sentido el orden y las diferencias que entre ellos se puedan establecer. Es decir toda escala de razn es intervalar y ordinal. As, una persona que gana $1200 tiene mayor poder adquisitivo que otra que gana $400. El orden en esta escala tiene sentido. Tambin se puede indicar la cantidad que gana ms el primero que el segundo. La diferencia entre los nmeros asignados tiene sentido. Adems los cocientes de los valores indicados tienen significacin; tiene sentido, por ejemplo, la expresin el primero gana tres veces ms que el segundo.
PROPIEDAD.

Si x e y son dos valores asignados a un mismo elemento para medir la misma cualidad, segn dos escalas de razn diferentes, entonces entre estos valores se cumple la relacin y = bx.
E scala II y1 y = bx . Se ob serv a qu e y1 y = x1 x

y E scala I

x1
Figura 1.2

.V

iz

Carlos Vliz Capuay

Estadstica Descriptiva. 11

Segn esta relacin, el 0 tiene el mismo significado para cualquier escala de razn. Indica ausencia de la propiedad en estudio. Si el salario de una persona se expresa en dlares (x) o en soles (y), entonces se cumple la relacin y = 2.5x, si se supone que un dlar equivale a 2.5 soles. La constante 2.5 corresponde a lo que se denomina tipo de cambio. El cociente entre los salarios de dos personas expresados en dlares es igual al cociente de los mismos expresados en soles. Si dos personas ganan 200 y 300 dlares, respectivamente, entonces la razn entre los salarios, 300/200, es igual a la razn entre los salarios expresados en soles, 750/500.

1.4. CLASIFICACION DE LAS VARIABLES.


De acuerdo a la escala usada, las variables pueden ser: cualitativas o categricas y cuantitativas.
Variables cualitativas o categricas.

Si para un variable, la asignacin de valores slo tiene sentido cuando se usa una escala nominal u ordinal, sta se llama variable cualitativa o categrica; as por ejemplo, el lugar de procedencia de un conjunto de personas, "el color" de los autos producidos por una fbrica, corresponden a variables cualitativas.

La variable que a cada uno de los aparatos electrnicos producidos por una fbrica le asigna su tiempo de vida es una variable cuantitativa. De acuerdo al conjunto de valores de la variable, stas se clasifican en: discretas y continuas.
Variables discretas

Una variable es discreta, si el conjunto de valores que puede tomar es finito o infinito enumerable. (Un conjunto es "infinito enumerable" si sus elementos se pueden contar).
1.12. Ejemplo.

La variable X, definida en la poblacin formada por los trabajadores de la industria automotriz y que indica "el nmero de hijos, es una variable discreta. Los valores que puede tomar esta variable slo pueden ser los del conjunto discreto {0, 1, 2, 3, 4, ... , n}.

.V

Una variable se llama cuantitativa o tambin estadstica si tiene sentido para las escalas intervalar o de razn. Por ejemplo, la variable que a cada persona le hace corresponder su salario es una variable cuantitativa.

iz

Variables cuantitativas.

12. Estadstica Descriptiva.

Carlos Vliz Capuay

Una variable discreta cuyo conjunto de valores est formado por dos elementos, se llama binaria o dicotmica.

Variables continuas.

Una variable es continua, si sus valores pueden ser cualesquiera de los elementos de un intervalo o de la reunin de intervalos.
1.13. Ejemplo.

La variable que indica el tiempo de vida de los aparatos electrnicos es una variable continua, la variable que indica la estatura de cada habitante de un pas es una variable continua. Los valores que pueden tomar estas variables son no negativos. Para efectos de mejor estudio de estas variables, se considera que el intervalo en donde pueden variar los valores es [ 0,+[ .

Muchas variables estadsticas que tericamente son continuas, en la prctica se expresan como variables discretas. Por ejemplo, la estatura de una persona es una variable cuantitativa continua pero por la limitacin de los instrumentos de medicin tal vez podamos expresarla, a lo ms, en centsimas de milmetro. Por otro lado, una variable cuantitativa discreta o continua, en la prctica, tambin puede ser considerada como una variable cualitativa. Por ejemplo, si la edad de una persona se clasifica en: menos de 20 aos, entre 20 y menos de 60 aos y ms de 60 aos, se tendr que esta variable puede tratarse como cualitativa con las modalidades correspondientes a: joven, adulto y anciano, respectivamente. Las variables, de acuerdo al papel que cumplen en una investigacin, pueden clasificarse en independientes, dependientes y de control.

Una variable es independiente, (con relacin a otra u otras) si sus valores influyen en otra u otras variables.
Variables dependientes.

Una variable es dependiente si sus valores dependen de los valores que tiene una variable independiente. Las variables independientes y dependientes tambin se llaman explicativas y explicadas, respectivamente. As, para ver como influye una droga A en el tratamiento de una enfermedad, el investigador aplica diferentes dosis al enfermo para observar si ste mejora o no. La variable cuyos valores son las distintas dosis de droga suministrada es una variable

Variables independientes.

.V

iz

Carlos Vliz Capuay

Estadstica Descriptiva. 13

independiente, mientras que la variable que indica el grado de mejora del enfermo es una variable dependiente. En este caso, los valores de la variable independiente pueden ser manejados por el experimentador; otras veces esto no es posible, pues los valores de la variable independiente son intrnsecas al individuo al cual se aplica. As sucede cuando se considera la variable independiente aos de estudio y la variable dependiente sueldo.
Variables de control.

Las variables de control ayudan a comprender la relacin entre una variable independiente y una dependiente. Algunas veces se puede observar que los valores de una variable aumentan (disminuyen) cuando los valores de otra tambin aumentan (disminuyen); sin embargo, no es suficiente para indicar que la caracterstica que mide una es la causa de la caracterstica que mide la otra variable. En una encuesta se determin que la altura de una persona y sus ingresos estaban relacionados: la gente ms alta ganaba ms; sin embargo, esto no fue suficiente como para indicar que la relacin era causal. No se necesitaba ser alto para tener mejor remuneracin, pues un estudio posterior, en donde se introdujo la variable sexo, indic que los hombres eran ms altos que las mujeres y que los sueldos de stas, a pesar de la igualdad de condiciones de trabajo, eran ms bajos que el de los hombres. De este modo se determin que las variables estatura y sueldo estaban relacionadas por su relacin con la variable sexo. Exista tan slo una relacin espuria, de tipo prctico (relacin estadstica) pero no una relacin de causa - efecto (relacin causal). Las variables de control tambin se usan para entender una relacin causal, cuya existencia no se discute. As, para explicar por qu el grado de instruccin influye en la posicin poltica de los electores de un pas, se puede usar la variable de control ingreso, pues se piensa que las personas con mayores estudios ganan ms dinero, y el hecho de ser ms o menos rico determina el comportamiento poltico de los electores de un pas.

1.5. CLASIFICACION DE LA INFORMACION: Codificacin y tabulacin .


Muchas veces los nmeros que se asignan a los elementos de una poblacin se obtienen directamente, como por ejemplo cuando se recopila la edad de los pobladores de una regin. Otras veces, la asignacin de nmeros se realiza a partir de las posibles respuestas que se obtienen al realizar el trabajo de observacin; as por ejemplo, cuando se trata de obtener informacin sobre la opinin que un grupo de personas tiene acerca de una determinada ley, se escribe 0, si el poblador est de acuerdo; 1, si no est de

.V

iz

14. Estadstica Descriptiva.

Carlos Vliz Capuay

acuerdo y 2 si no sabe o no opina. La codificacin de las respuestas da lugar a categoras o modalidades. La codificacin facilita la tabulacin y el conteo y debe ser cuidadosamente realizada, pues de ella depende la obtencin de una buena informacin. Determinadas sugerencias se hacen para obtener una buena codificacin sobre todo cuando la recogida se hace sobre la base de cuestionarios. Si el cuestionario comprende preguntas abiertas, (preguntas cuya respuesta es libre de parte de la persona que responde) stas deben ser previamente clasificadas en categoras. Asignando de manera biunvoca un nmero a cada categora se tendr un cdigo para cada respuesta. Por ejemplo, ante la pregunta cul cree usted que pueden ser las consecuencias de una guerra para el pas?, las respuestas pueden ser:
- Desastre econmico. - Retiro de capitales. - Prdida de muchas vidas. - Desastre ecolgico. - Me abstengo de contestar. - No inversin de capitales. - Retraso de la cultura. - Emigracin de la poblacin. - No s.

Para Deterioro econmico (comprende las respuestas de tipo econmico), el 1. Para Deterioro humano (comprende las respuestas que tienen que ver con la vida y la cultura), el 2. Para No hay respuesta (comprende las respuestas: No s y me abstengo de contestar), el 3. Para otros (comprende cualquier otro tipo de respuesta), el 4. De este modo, el cdigo que le corresponde a la respuesta retiro de capitales es 1; a retraso de la cultura le corresponde el cdigo 2, etc. Para formar categoras se recomienda: El anlisis previo del objetivo de la investigacin que se realiza. As por ejemplo, si con la pregunta anterior deseamos conocer la proporcin de personas que creen

.V

iz

La categorizacin puede ser:

Carlos Vliz Capuay

Estadstica Descriptiva. 15

que la consecuencia de la guerra tienen que ver con la economa, bastar con formar slo las tres categoras siguientes: 1. Deterioro econmico. 2. Otras consecuencias y 3. No sabe, no contesta.

Estudios previos de la muestra de algunos cuestionarios. Estos nos darn las pautas de las posibles respuestas y por lo tanto de las categoras que debemos formar. Algunas veces se realizan investigaciones pilotos antes de realizar toda investigacin. Que las categoras contemplen todas las respuestas posibles. Existirn categoras principales, para las respuestas relevantes y categoras de tipo general que comprendan a las respuestas que no caen en las categoras principales. Que las categoras no se traslapen. Cada respuesta debe pertenecer a una nica categora. Que las categoras sean descritas de manera clara, tratando que sean lo ms detalladas posibles y tiles en la investigacin que se realiza. Que las categoras de tipo general no comprendan una gran cantidad de respuestas. Se sugiere que cada categora comprenda alrededor del 5% de todas las preguntas.

As por ejemplo, si la pregunta es cul es su regin de procedencia? y las posibles respuestas son: 1. Costa, 2. Sierra y 3. Selva, se tendrn los siguientes cdigos y categoras:
Cdigo 1 2 3 Categora Costa Sierra Selva

Como se ha indicado, las categoras que deben tomarse dependen de la investigacin que se desee realizar. Por ejemplo, ante la pregunta cul es su edad en aos?, se puede usar tantas categoras como posibles respuestas existan o usar como categoras las siguientes:

.V

Cuando las preguntas son cerradas; esto es, cuando las respuestas posibles son especificadas de antemano, cada categora se identifica con cada una de las respuestas posibles.

iz

16. Estadstica Descriptiva.

Carlos Vliz Capuay

Cdigo 1 2 3

Categora de 0 a 13 aos de 14 a 18 aos de 19 a ms aos

Esta codificacin no ser til si, por ejemplo, el objetivo es determinar la edad promedio de los habitantes; sin embargo, sta si ser de utilidad si el deseo es, por ejemplo, analizar la relacin que exista entre la edad y otra variable cualitativa.

1.6. PRESENTACION DE LA INFORMACION Tablas de distribucin de frecuencias.


Algunas veces la informacin requerida puede obtenerse directamente de los datos sin haber sido previamente tratados; muchas veces; sin embargo, es necesario agrupar los datos y presentarlos en tablas y diagramas sencillos. Precisamente, las tablas de distribucin de frecuencias son cuadros que indican la distribucin de un conjunto de datos en clases o categoras, y en donde se muestra el nmero de elementos y la proporcin que en cada una de ellas existe. Una tabla de frecuencias describe la manera como estn distribuidos o como varan los valores de una variable, permitiendo una buena ayuda para formularse interrogantes acerca de los datos y un punto de partida en la bsqueda de un modelo terico para analizar tal distribucin. Los "paquetes computacionales estadsticos" disponibles en la actualidad son innumerables y muchos de ellos, aparte de realizar una serie de anlisis, tienen excelentes presentaciones de grficas y cuadros. Entre los paquetes estadsticos estn: el SPSS, el STATGRAPHICS, el SAS, el BMDP, el STATPAC, el SYSTAT, etc. Tambin existen otros tipos de "software", tales como el QUATRO, el EXCEL, etc., que sin ser de tipo estadstico, permiten la construccin de tablas y grficos de frecuencias. En secciones anteriores se utilizaron algunas tablas de distribucin de frecuencia. En lo que sigue se presentan de manera sistemtica otros ejemplos.

Caso cualitativo.
1.14. Ejemplo.

Se considera la poblacin formada por 50 personas y en sta, la variable cualitativa sexo. Si existen 30 varones y 20 mujeres, se puede escribir la siguiente tabla de frecuencias.

.V

iz

Carlos Vliz Capuay

Estadstica Descriptiva. 17

Modalidad Varn Mujer Total

Frecuencia 30 20 50

Frec. relativa 30/50 = 0.60 20/50 = 0.40 1.00

Frec. relativa en porcentaje 60 40 100

En la tabla, la "frecuencia" indica las veces que se repite cada modalidad. La "frecuencia relativa" de cada modalidad es igual a la frecuencia de la modalidad entre el total de observaciones. La frecuencia relativa puede expresarse en "porcentaje", tal como se indica en la ltima columna. La frecuencia relativa es til para hacer comparaciones entre dos poblaciones diferentes. Por ejemplo, cuando se desea comparar la distribucin de la variable sexo en la comunidad A y en la comunidad B. En forma general, una tabla de frecuencias correspondiente a una variable cualitativa C con modalidades o categoras C1, ... , Ck, es de la forma siguiente y en donde ni indica la frecuencia o las veces que se repite la modalidad Ci ,
T es el total de datos y fi = ni/T es la frecuencia relativa de tal modalidad.
DISTRIBUCION DE FRECUENCIAS DE ACUERDO A LA VARIABLE C.
Modalidad de la variable C1 ... Ci ... Ck Total ni n1 ... ni ... nk T fi = ni/T n1/T ... ni/T ... (ni/T)100% (n1/T)100 ... (ni/T)100 ... (nk/T)100 100

Las frecuencias relativas pueden expresarse en porcentajes y el orden elegido para las modalidades es arbitrario.
1.15. Ejemplo.

En una entidad estatal existen 18 abogados, 32 ingenieros, 45 topgrafos, 20 obreros y 15 secretarias. La distribucin de los empleados de acuerdo a la variable "ocupacin" aparece en la siguiente tabla, en donde 1 corresponde a abogado, 2, corresponde a ingeniero, etc.

.V
n k/ T 1

iz

18. Estadstica Descriptiva.

Carlos Vliz Capuay

Las frecuencias que se indican en las columnas de la tabla pueden representarse con barras rectangulares o mediante sectores circulares.
Ocupacin. (1): Abogados (2): Ingenieros (3): Topgrafos (4): Obreros (5): Secretarias TOTAL ni 18 32 45 20 15 T = 130 ni/T 0.1385 0.2461 0.3462 0.1538 0.1154 1.0000 (ni/T)100 13.85 24.61 34.62 15.38 11.54 100.00

Se representa por ejemplo, las frecuencias ni utilizando barras rectangulares (figura 1.3. a) y luego mediante sectores circulares (figura 1.3. b). En el grfico de barras, cada barra rectangular corresponde a una modalidad, tiene base constante y su altura puede ser medida en unidades de frecuencia o de frecuencia relativa. En la grfica, para la modalidad "abogado" se tiene una barra vertical de altura igual a 18. En los "sectores circulares", cada sector corresponde a una modalidad y su correspondiente ngulo en el centro es i = 360oni/T, en donde ni es la frecuencia en la modalidad. A la modalidad "abogado", por ejemplo, le corresponde un sector circular cuyo ngulo en el centro es igual a (360)(18)/130 = 49.84o.

50 40 30 20 10 0 ABOG INGE TOPO OBRE SECR

l .V C
TOPO
(a) Figura 1.3

iz
OBRE SECR ABOG INGE
(b)

1.16. Ejemplo.

En la industria, para mejorar la calidad de un proceso, lo primero que generalmente se hace es reunir datos sobre la frecuencia de cada tipo de fallas. As por ejemplo, en la fabricacin de cierto tipo de piezas metlicas se detectaron las siguientes causas de fallas.

Carlos Vliz Capuay

Estadstica Descriptiva. 19

Causas de fallas Herramienta gastada Errores de operacin Mal diseo Mala calidad del material

Frecuencias 12 7 3 5.

La representacin grfica se hace mediante un diagrama de barras como el que sigue.


12 7
5

1: Herram. gastada 2: Errores operacio. 3: Mal diseo 4: Mala calidad

Figura 1.4. Diagrama de fallas.

Caso cuantitativo discreto.


1.17. Ejemplo.

En una poblacin formada por 100 lotes de 50 artculos cada uno, se consider la variable cuantitativa discreta X = "nmero de artculos defectuosos en cada lote". Los resultados fueron: 15423453542456452532463451632543635725427465283 36424348153737241353846545454526343523431454474 6 2 6 2 4 5.

xi

Computo

C
ni

DISTRIBUCION DE 100 LOTES DE ACUERDO AL NUMERO DE ARTICULOS DEFECTUOSOS.


fi=ni/T Ni Fi

.V
0.05 0.14 0.18 0.25 0.20 0.10 0.05 0.03 1

La informacin puede organizarse como en la siguiente tabla

l
5 19 37 62 82 92 97 100 0.05 0.19 0.37 0.62 0.82 0.92 0.97 1.00

1 2 3 4 5 6 7 8 Total

||||| ||||| ||||| ||||| ||||| ||||| ||||| |||

||||| ||||| ||||| ||||| |||||

|||| ||||| ||| ||||| ||||| ||||| ||||| |||||

5 14 18 25 20 10 5 3
T = 100

iz

20. Estadstica Descriptiva.

Carlos Vliz Capuay

en donde,
xi , corresponde a los distintos valores que puede tomar la variable, ni , indica la frecuencia con que se repite xi (ej. la frecuencia para 3 es 18), fi = ni/T , es la frecuencia relativa respecto del nmero total, T, de los datos. (ej. la frecuencia relativa para 3 es 0.18). Se presenta tambin en porcentajes (multiplicando cada valor por 100), Ni , es la frecuencia acumulada. Es igual a la suma de las frecuencias de los valores que son menores o iguales a xi, (ej. la frecuencia acumulada para 3 es 5 + 14 + 18 = 37), Fi , es la frecuencia acumulada relativa. Es igual a la suma de las frecuencias relativas de los valores que son menores o iguales a xi (ej. la frecuencia acumulada relativa para 3 es 0.05 + 0.14 + 0.18 = 0.37).

En la tabla se ha incluido una columna de "cmputo". Las marcas facilitan el conteo. En la tabla se observa que los datos varan entre 1 y 8 y que la mayora de los valores estn entre 3 y 5. La representacin grfica de las frecuencias relativas fi, , por ejemplo, puede hacerse en un sistema de ejes coordenados cartesianos (figura 1.5), colocando en el eje de las X los distintos valores xi de la variable y en el eje de las Y, las frecuencias relativas. Se obtienen as grficos llamados de bastones. Para el ejemplo anterior la frecuencia relativa tiene la siguiente representacin. Uniendo los puntos superiores de los bastones se tiene el polgono de frecuencias (en este caso relativas).
f i

- 0.25

C
1 2 3

.V
4 5 6 7 8

Figura 1.5. Grfico de bastones.

Cada una de las siguientes figuras puede usarse para representar a la frecuencia acumulada relativa, Fi .

l
X

iz

Carlos Vliz Capuay

Estadstica Descriptiva. 21

Fi 1 0.92 1 0.92

Fi

0.62

0.62

0.05 1 2 3 4 5 6 7 8
X

0.05 1 2 3 4 5 6 7 8
X

Figura 1.6 Grficas de la frecuencia acumulada relativa

Los grficos indican el punto de partida en la bsqueda del mejor modelo que servir al estadstico para estudiar la variabilidad de los resultados.

Caso cuantitativo continuo.


Para organizar datos de variables estadsticas continuas se procede como en el siguiente ejemplo.
1.18. Ejemplo.

Se desea estudiar la distribucin de 36 nios de acuerdo a su peso en kilos. Los datos fueron como sigue: 34.51 40.00 31.60 35.40 30.00 32.91 33.29 33.15 35.61 33.00 36.20 37.10 35.47 33.20 35.93 36.57 38.24 34.55 36.23 36.88 30.16 36.00 36.80 37.85 36.96 31.54 31.57 33.80 34.50 34.60 33.98 34.90 34.00 36.70 38.20 38.10 La variable en estudio es X = peso. Esta variable es continua.

Los valores indicados se encuentran comprendidos entre 30 y 40 y pueden ser clasificados en "clases". Estas se obtienen dividiendo el intervalo I = [30, 40] en subintervalos de longitud igual, para simplificar. Si se acuerda dividir el intervalo I en k = 8 subintervalos de igual longitud, se tendr que cada subintervalo obtenido mide
x x min 40 30 h = max = = 1.25. k 8

en donde: xmax = dato mayor, xmin = dato menor y k = nmero de subintervalos. Al valor xmax - xmin se le llama recorrido o rango de la variable.

.V

Si se sigue un procedimiento como el que se us en el caso discreto, podra tenerse una tabla de hasta 36 lneas (una lnea por cada valor diferente de la variable). Esto no es conveniente, por lo que se desarrolla el siguiente procedimiento.

iz

22. Estadstica Descriptiva.

Carlos Vliz Capuay

Los subintervalos pueden ser de longitudes diferentes, para mayor facilidad se usan de longitudes iguales. Los subintervalos obtenidos se toman, por convencin, cerrados por la izquierda y abiertos por la derecha, a excepcin del ltimo, que es cerrado en ambos extremos. Los intervalos que as se forman se llaman intervalos de clase. I1 = [30.00, 31.25[ I3 = [32.50, 33.75[ I5 = [35.00, 36.25[ I7 = [37.50, 38.75[ I2 = [31.25, 32.50[ I4 = [33.75, 35.00[ I6 = [36.25, 37.50[ I8 = [38.75, 40.00]

30

31.25

32.50

33.75

35.00

36.25

37.50

38.75

40

Figura 1.7

NOTA.

Si la longitud de cada intervalo de clase no es exacta, se aproximar por exceso; de este modo la reunin de los intervalos de clase cubrir a todos los datos considerados. Los datos ahora pueden presentarse como en la siguiente tabla.
DISTRIBUCION DE LOS 100 VALORES DE LA VARIABLE PESO.
Intervalos

31.8750 33.1250 34.3750 35.6250 36.8750 38.1250 39.3750

3 5 8 7 6 4 1

l
0.0833 0.1388 0.2222 0.1944 0.1666 0.1111 0.0277

I1 I2 I3 I4 I5 I6 I7 I8

30.6250

0.0555

iz
2 5 10 18 25 31 35 36

xi

ni

fi

Ni

Fi
0.0555 0.1388 0.2776 0.4998 0.6942 0.8608 0.9719 1

En la tercera columna de la tabla se indica la frecuencia o nmero de datos que existen en cada intervalo de clase. As, en el intervalo de clase I3 hay 5 datos. En la segunda columna aparecen las marcas de clase que son los puntos medios de cada intervalo de clase. Se puede considerar que cada uno de estos valores es un representante de los datos que caen en el respectivo intervalo de clase. En este sentido, se puede decir que 33.1250 se repite 5 veces, el valor 34.3750 se repite 8 veces, etc. De ello se deduce la importancia que tiene el escoger un nmero conveniente de intervalos de clase; si se eligen pocos, la longitud de cada intervalo de clase es grande y las marcas

.V

Carlos Vliz Capuay

Estadstica Descriptiva. 23

de clase no son buenas representaciones de los valores que estn en l; si se eligen muchos, la longitud de cada uno de ellos es pequea, se logra as una mejor representacin pero la organizacin de los datos requiere de mayor trabajo. Los estudiosos de estos mtodos han indicado diferentes reglas para determinar el nmero de intervalos de clase. As, una de stas dice que cuando el nmero de datos, T, es una potencia de 2 lo recomendable es tomar [1+3.3log10T] como nmero mximo de intervalos; esta regla se llama "de Sturges". Otra regla prctica para determinar el nmero de intervalos de clase aparece a continuacin:
Nmero de observaciones Nmero de intervalos de clase

Menor que 25 Entre 25 y 50 Mayor que 50

5 o 6. de 7 a 14. de 15 a 20.

La cuarta columna de la tabla, indicada con f i , corresponde a la frecuencia relativa, e indica la proporcin de datos en cada intervalo. En la quinta columna aparece la frecuencia acumulada y la sexta columna, corresponde a la frecuencia acumulada relativa. El valor de la frecuencia acumulada, N i , en un intervalo de clase dado, se interpreta como el nmero de datos acumulados hasta ese intervalo, mientras que el valor de la frecuencia acumulada relativa, Fi , indica la proporcin de datos acumulados hasta el

Tabulados los datos es ms fcil observar las caractersticas de variabilidad. En el ejemplo, los datos varan entre 30 y 40. La mayor parte de los datos estn entre 33.75 y 37.50.
OBSERVACION.

Si n es la frecuencia en el intervalo de clase [a, b[ y se considera que los datos se distribuyen de manera uniforme en ese intervalo, entonces podemos considerar, por ejemplo, que en el intervalo [a, c] contenido en [a, b], existen aproximadamente

n' =

C
ca n ba

.V

Una tabla as construida resalta las caractersticas importantes de los datos, an cuando al formarla se pierde cierta informacin.

l
datos

iz

intervalo respectivo.

24. Estadstica Descriptiva.

Carlos Vliz Capuay

n n a
c
Figura 1.8.

En efecto, usando la semejanza de tringulos se tiene que lo antes indicado.

n n = , de donde resulta ba ca

En particular, si c es la marca de clase del intervalo, en [a, c[ hay n' = (1 / 2 ) n . El resultado anterior se extiende para el caso de las frecuencias relativas De este modo si la frecuencia relativa en [a, b[ es f, entonces la frecuencia relativa en [a, c[ es f' = [(c a)/(b - a)]f.
1.19. Ejemplo.

La distribucin de frecuencias de 80 alumnos, de acuerdo a sus notas de Historia es


ni
[10, 12[ [12, 14[ [14, 16[ [16, 18] 12 30 28 10

fi
0.150 0.375 0.350 0.125

Ni
12 42 70 80

Solucin. En la tabla se lee que el 87.5% de estudiantes tienen nota inferior a 16. La nota A buscada est en el intervalo [16, 18[.

El 5% de los estudiantes debe tener notas comprendidas entre los valores A y 18. Luego, 18 16 18 A = 0.125 0.05

Despejando, resulta que la nota a considerar, por encima de la cual existe el 5%, es A = 17.2
1.20. Ejemplo.

Las notas de N estudiantes estn distribuidas tal como se indica en la siguiente tabla.

.V

Si se desea asignar el calificativo "excelente" al 5% de los estudiantes, cul es el valor aproximado de la nota A que se debe considerar como mnima para tener tal calificativo?.

iz

Fi 0.150 0.525 0.875 1.000

Carlos Vliz Capuay

Estadstica Descriptiva. 25

Notas [8, 11[ [11, 14[ [14, 17[ [17, 20]

fi f1 f2 f3 f4

Calcular las frecuencias relativas si el 40% de los estudiantes tienen notas menores que 12.5, el 80% tienen notas menores que 15.5 y el 85% tienen notas menores o iguales a 16. Solucin. Se tiene que f1 + f 2 + f 3 + f 4 = 1

f 1 + 0.5 f 2 = 0.4 (la proporcin de datos en [11, 12.5[ es 0.5 f 2 )


. [ es 0.5 f 3 ) f 1 + f 2 + 0.5 f 3 = 0.80 (la proporcin de datos en [14, 155 f 1 + f 2 + ( 2 / 3) f 3 = 0.85 (la proporcin de datos en [14,16[ es (2 / 3) f 3 ) Resolviendo las ecuaciones, se tiene: f1 = 0.15, f2 = 0.5, f3 = 0.30 y f4 = 0.05.

HISTOGRAMAS
Como en el caso discreto, las frecuencias de los conjuntos de datos que corresponden a variables continuas se representan grficamente con la finalidad de obtener patrones que indiquen la variabilidad o distribucin de los mismos. A menudo se usan curvas cuyas formas se obtienen a partir de los grficos llamados histogramas. Los histogramas se obtienen al yuxtaponer bandas rectangulares. Cada banda corresponde a cada intervalo de clase Ii. La base es el intervalo y la altura puede tomarse proporcional a la frecuencia que se desea representar. As, para representar la frecuencia relativa, f i , cada altura puede tomarse igual a fi/li, en donde li es la longitud del intervalo de clase correspondiente. De este modo se tiene que la suma de las reas de las bandas es igual a 1 y el histograma es un histograma de frecuencias relativas.
polgon o de de frecuencias

C
40

.V

l
l i I i

30

Figura 1.9. Histograma correspondiente al ejemplo 1.17

iz

f i / li

26. Estadstica Descriptiva.

Carlos Vliz Capuay

OBSERVACION.

A menudo se usa como altura de cada banda rectangular al lado de longitud fi, sobre todo si todos los intervalos de clase tienen la misma longitud. Cuando los intervalos de clase son de longitudes diferentes, la altura de cada banda rectangular se toma igual a fi/li.

POLIGONOS DE FRECUENCIA.
Uniendo los puntos medios de los lados superiores de cada banda rectangular del histograma se obtiene un polgono llamado polgono de frecuencias. (Figura 1.9) El polgono de frecuencias, como en el caso discreto, ayuda en la bsqueda de la curva o modelo terico que mejor describe la variabilidad o distribucin de los elementos de la poblacin de acuerdo a la variable en estudio. A continuacin se presentan de manera "suavizada" diversas formas de polgonos de frecuencias. El grfico que aparece en (a) indica que el grupo de datos se acumula a la izquierda; que hay pocos datos con valores altos. Se dice que este tipo de polgono es sesgado con cola a la derecha. De manera anloga, se puede decir que el grfico que aparece en (b) es sesgado con cola a la izquierda. El grfico que aparece en (c) corresponde a un histograma simtrico, indica que los datos estn distribuidos de manera simtrica, que stos estn acumulados en su mayora en la parte central mientras que a la izquierda y a la derecha del centro hay pocos. Las distribuciones con este tipo de grficos son muy comunes y a menudo se llaman distribuciones normales; sin embargo, para que las distribuciones tengan este calificativo necesitan ciertas condiciones adicionales, que estudiaremos posteriormente. La grfica (d) corresponde a una distribucin bimodal; los datos estn agrupados en dos sectores de la recta.

C
(a ) (b ) (c ) (d )
Figura 1.10. Diversas formas de los polgonos suavizados de frecuencias.

1.21. Ejemplo.

En la siguiente tabla se presenta la distribucin de 50 alumnos de un centro de educacin superior de acuerdo a las calificaciones de una prueba de aptitud. El polgono de frecuencias absolutas y la curva que las suaviza aparecen a continuacin. Se observa que es una grfica asimtrica con una cola a la derecha.

.V

iz

Carlos Vliz Capuay

Estadstica Descriptiva. 27

DISTRIBUCION DE 50 ALUMNOS DE ACUERDO A LA VARIABLE "APTITUD"

Puntuaciones [30, 40[ [40, 50[ [50, 60[ [60, 70[ [70, 80[ [80, 90[ [90, 100[ [100, 110[ [110, 120]

Frec. absoluta 4 11 7 14 5 5 3 0 1

20 15 10 -

Polgono de frecuencias

30 40 50 60 70 80 90 100 110 120

Figura 1.11. Polgono de frecuencias y su "suavizacin".

Las frecuencias acumulada absoluta y acumulada relativa de un grupo de datos se representan de manera anloga a las frecuencias absoluta y relativa. En este caso las bandas yuxtapuestas tienen altura igual al valor de la frecuencia acumulada correspondiente. (Figura 1.12). La representacin de un polgono de frecuencias acumuladas, por ejemplo, relativas, se hace considerando que los datos se distribuyen de manera uniforme en cada uno de los intervalos de clase, de tal modo que en cada uno de stos la frecuencia acumulada se puede aproximar con un segmento tal como AB en el intervalo [750, 1000[. Figura 1.13 a). La poligonal que se forma con los segmentos se llama ojiva. En la figura 1.13 b). se muestra la ojiva suavizada. Los diagramas de frecuencias acumulada son herramientas que se usan a menudo para descubrir corrimientos en los datos. As, para comparar la calidad del aire en Enero y Julio para un grupo de ciudades se puede graficar las frecuencias acumuladas relativas del nmero de das que tuvieron un ndice de contaminacin mayor que un determinado valor.
1.22. Ejemplo

La siguiente tabla corresponde a la distribucin de los salarios de 25 obreros. Los valores que aparecen en la ltima columna corresponden a la frecuencia acumulada relativa.
DISTRIBUCION DE LOS SALARIOS DE 25 OBREROS.
Intervalos [250,500[ [500,750[ [750,1000[ [1000,1250[ [1250,1500[ [1500,1750]

C
xi
375 625 875 1125 1375 1625

.V
ni
2 4 6 7 3 3

l
fi
0.08 0.16 0.24 0.28 0.12 0.12

iz

Fi
0.08 0.24 0.48 0.76 0.88 1.00

Los histogramas para la frecuencia relativa y acumulada relativa son los siguientes:

28. Estadstica Descriptiva.

Carlos Vliz Capuay

-f

-F

0.76 -

0.28 0.24 0.16 0.08 250 500 750 1000 1250 1500 1750

0.48 0.24 0.08 250 500 750 1000 1250 1500 1750

Figura 1.12. f: frecuencia relativa y F: frecuencia acumulada relativa.

La ojiva y su suavizacin se presentan a continuacin.


1

-F
Ojiva B A

0.76 -

F (x)

0.48 0.24 0.08 250 500

F ( x )

750 1000

1250 1500

1750
x

(a)

(b )

Figura 1.13. (a) Ojiva. (b) Ojiva suavizada

1.23. Ejemplo.

C
n

Completar la siguiente tabla de distribucin de frecuencias si el histograma correspondiente es simtrico, el 75% de los datos son mayores que 43.5 y los intervalos de clase son de igual longitud. (Se considera que n = frecuencia y N = frecuencia acumulada).

.V
n1 n1 +5 30

[a, b]
[b, c[ [c, d[ [d, e[ [e, f[ [60, h]

Solucin. Como la distribucin es simtrica, se tiene que las frecuencias en los intervalos [d, e[, [e, f[ y [60, h] son: 30, n +5 y n , respectivamente.
1 1

l
N
150

iz

Carlos Vliz Capuay

Estadstica Descriptiva. 29

La frecuencia acumulada en el intervalo [60, h] es 150, luego, 150 = 2 n + 2( n + 5) + 2(30).


1 1

Desarrollando resulta n = 20. A partir de este valor se obtienen las frecuencias


1

respectivas de los otros intervalos: 25, etc. Obtenidas las frecuencias para cada intervalo se encuentran las frecuencias acumuladas que faltan: 20, 45, 75, 105, 130. Para obtener los extremos de los intervalos de clase, obsrvese que si A es la longitud de cada intervalo, el extremo izquierdo del primer intervalo es 60 - 5A. El histograma de frecuencias acumuladas para los dos primeros intervalos de clase es como sigue.

17.5

n2 = 25

n1 = 20

60-5A

60-4A 43.5
Figura. 1.14

60-3A

Por semejanza de tringulos:

43.5 ( 60 4 A)
17.5

Los extremos del primer intervalo son 35 y 40, del segundo, 40 y 45, etc.
1.24. Ejemplo.

La siguiente tabla resume la distribucin porcentual de 500 familias en funcin de su renta. Como en los casos anteriores, los intervalos de clase incluyen el lmite izquierdo y excluyen el derecho, a excepcin del ltimo intervalo. El histograma se ha construido de tal manera que el rea de cada banda rectangular es igual a la frecuencia porcentual correspondiente. La suma de las reas de todas las bandas rectangulares es igual a 100%. La altura del rectngulo con base el intervalo [7000, 10000[, por ejemplo, es de 15%/3 = 5% por cada mil dlares.

.V
= A
25

Hasta b se han acumulado 20 datos (menos del 25%). Hasta c se han acumulado 45 datos (ms del 25%). Luego, el valor 43.5, hasta donde existe el 25% de los datos, estar en el segundo intervalo.

, de donde resulta que A = 5.

iz

30. Estadstica Descriptiva.

Carlos Vliz Capuay

N iv e l d e in g [0 , 1 0 0 0 [ [1 0 0 0 , 2 0 0 0 [ [2 0 0 0 , 3 0 0 0 [ [3 0 0 0 , 4 0 0 0 [ [ 4 0 0 0 ,5 0 0 0 [ [ 5 0 0 0 ,6 0 0 0 [ [6 0 0 0 , 7 0 0 0 [ [7 0 0 0 , 1 0 0 0 0 [ [1 0 0 0 0 , 1 5 0 0 0 [ [1 5 0 0 0 , 2 5 0 0 0 [ [2 5 0 0 0 , 5 0 0 0 0 ]

% 1 2 3 4 5 5 5 15 26 26 9 6 5 4 3 2 1

% p o r m il d la re s

25 15 10 R e n ta ( m ile s d e d la r e s)

50

Figura. 1.15

Cuando la variable en estudio es discreta y posee muchos valores, se usan tambin histogramas. En tal caso, los intervalos de clase estn centrados en los valores de la variable.

Histogramas y control sobre una variable.


Uno de los temas a investigar que eligi un grupo de estudiantes de medicina fue el efecto del nmero de hijos que tena una mujer sobre la presin sangunea. Pareca natural comparar los histogramas de la presin sangunea de grupos de mujeres con diferentes nmeros de hijos y as se hizo. Si bien es cierto que se compar grupos de mujeres con diferentes nmeros de hijos, se presenta a continuacin esbozos de la suavizacin de los polgonos de frecuencias de grupos de mujeres con 2 y 4 hijos.

l
90 mm

Al parecer y segn el grfico, el nmero de hijos influye en el aumento de presin en las mujeres y podra concluirse que las mujeres con cuatro hijos tienen la presin ms alta que las mujeres que tienen dos hijos; sin embargo, no se puede indicar que ello es una prueba de causalidad; es decir que sea el mayor nmero de hijos la causa del aumento de la presin sangunea en las mujeres, pues hay que tener en cuenta que generalmente las mujeres con mayor nmero de hijos tienen mayor edad y podra suceder que sea la edad un factor cuyos efectos se confunden con el tener hijos. Para poder estudiar con claridad el efecto del nmero de hijos era necesario efectuar comparaciones independientes para cada grupo de edad, esto es, establecer un control sobre la variable edad y as se pudo comprobar que no exista asociacin entre el nmero de nios que una mujer haba tenido y su presin sangunea.

Figura. 1.16

.V

iz
160 mm

Con 2 hijos Con 4 hijos

Carlos Vliz Capuay

Estadstica Descriptiva. 31

En muchas ocasiones un factor que cause confusin puede ser controlado, como se indicar ms adelante mediante el empleo de las tablas de frecuencias.

Diagrama de tallo y hojas.


Los histogramas y grficos de bastones nos muestran la manera como varan los datos. Sin embargo, stos no permiten la identificacin de los datos que se han usado para ello. El grfico de tallo y hojas indica no slo la manera como estn distribuidos los datos sino que adems los muestra. El grfico de "tallos y hojas se construye, bsicamente, partiendo las cifras que forman al dato en dos grupos: uno con las primeras cifras para formar el tallo y el otro con las cifras restantes para formar las hojas. As por ejemplo, si tenemos el dato 68, la cifra 6 de las dcimas corresponder al tallo mientras que el 8, que es la cifra de las unidades, formar la hoja. El tallo y las hojas que se formen se dividen con una lnea vertical.
Tallo 6 Hojas 8

1.25. Ejemplo.

Representar, usando el diagrama de tallo y hojas, los siguientes datos correspondientes a las puntuaciones de un test de memoria. 21 22 32 36 38 42 44 44 46 46 46 48 51 52 54 55 56 64 65 70 82.

2 3 4 5 6 7 8

En el diagrama se observa que existe cierta simetra en la dispersin; y que el valor 82 es discordante con el resto de datos. En el caso de datos que tienen cifras decimales, al construir el diagrama de tallo y hojas, el punto decimal se pierde, por tal razn se acostumbra indicar las unidades que los datos del tallo representan.
1.26. Ejemplo.

En el siguiente diagrama la indicacin "Unidad = 0.01" significa que, por ejemplo, 41|2 representa al dato 4.12.

.V
12 268 2446668 12465 45 0 2

Solucin. Tomando las decenas como tallos y las unidades como hojas resulta

iz

32. Estadstica Descriptiva.

Carlos Vliz Capuay

Unidad = 0.01 Ejemplo. 41|2 representa 4.12. 41 42 43 44 45 46 22 668 103251 23 1 2

Si se indicara: "Unidad = 0.1", se tendra, por ejemplo, que 41|2 representa al dato 41.2.

1.7. EJERCICIOS.
1. Se ha indicado que el porcentaje de varones mayores de 20 aos que no tienen empleo en una ciudad de 5 millones de habitantes es 6 %. Los resultados fueron obtenidos a partir de un cuestionario aplicado a 2000 personas de la ciudad, elegidas de entre las personas mayores de 20 aos. a) Sobre qu poblacin se ha realizado la encuesta?. Cules son las unidades estadsticas?. b) Cul ha sido la muestra utilizada?. Rpta. Poblacin: conjunto formado por las personas mayores de 20 aos. Unidad estadstica: cada varn mayor de 20 aos. Muestra: conjunto formado por los 2000 personas mayores de 20 aos. 2. El gerente de ventas de una tienda de prendas de vestir desea saber cul ser la demanda de pantalones en el prximo mes, as como las tallas que ms demanda tendrn. Si el gerente dispone de un registro del total de las ventas realizadas por la tienda durante los 10 meses anteriores y usa esta informacin como una muestra para predecir las ventas del prximo mes, cul es la poblacin?. 3. En los siguientes casos, indicar la poblacin, las unidades estadsticas y el tipo de escala a usar si se trata de: a) Asignar a los distritos de la capital su cdigo postal. b) Asignar a las personas de una ciudad, el nmero de telfono que poseen. c) Asignar a cada profesor de una universidad su categora (profesor auxiliar, profesor asociado o profesor principal). d) Asignar a cada par de ciudades de un pas la distancia, en kilmetros, que existe entre ellas. Rpta. a) Nominal b) nominal, c) ordinal, d) intervalar y de razn. 4. El censo de alumnos de una universidad considera las siguientes variables: Facultad, ao de ingreso, nacionalidad, tiempo de residencia en el pas, nmero de semestres que lleva en la universidad, grado en la escala de pensiones, grado de instruccin del padre, nmero de hermanos, ingreso mensual familiar promedio. Clasifique las variables e indique el tipo de escala en que estn medidas. 5. Un profesor propone a sus alumnos del curso de Aritmtica, una prueba de 10 ejercicios de clculo de sumas. Si alguno de los ejercicios presenta, al resolverlo, algn error de clculo, el profesor califica la prueba con 0, de otro modo la califica con 1. Qu tipo de escala emple?. Rpta. Ordinal. 6. Si el profesor del ejercicio anterior cuenta los ejercicios correctos y considera que tal nmero corresponde a la habilidad de clculo, qu tipo de escala ha empleado?. 7. A los elementos w, y y z de una poblacin se les asign los nmeros 8, 16 y 30 respectivamente, para medir cierto atributo. Si en lugar del nmero asignado a w se le asignara el 20 y el nmero 40 a y, qu nmero se le puede asignar a z si las escalas usadas son:

.V

iz

Carlos Vliz Capuay

Estadstica Descriptiva. 33

a) nominales?. b) ordinales?. c) intervalares?. Rpta. a) Cualquier nmero diferente de 20 y 40, b) Cualquier nmero mayor que 40, c) 75. 8. Ciento setenta y cinco mdicos fueron clasificados de acuerdo a su especialidad. Los resultados fueron los siguientes: de Medicina General: 25, de Pediatra: 50, de Medicina Interna: 80, de otras especialidades: 20. Construir un diagrama de barras para ilustrar la distribucin de los 175 mdicos de acuerdo a su especialidad. 9. En Marzo de 1995 la inversin extranjera en el Per y de acuerdo al pas de origen fue como sigue: Espaa 46% Pases Bajos 6% EE.UU. 16% Panam 5% Reino Unido 8% Chile 4% Otros 15%. a) Identificar la variable medida. b) Representar usando un diagrama de sectores circulares, la informacin anterior 10. En Marzo de 1995 la inversin extranjera en el Per de acuerdo al sector de destino fue como sigue: Comunicaciones Minera Industria Energa 45% 20% 12% 8% Finanzas Comercio Otros 6% 5% 4%

a) Identificar la variable medida. b) Representar, usando un grfico de barras, la informacin anterior. 11. Usando un diagrama de barras, mostrar la extensin territorial de los pases Per, Chile, Ecuador, Argentina y Brasil. 12. Construir un diagrama adecuado que permita comparar la predileccin de los estudiantes por las carreras de ciencias en tres universidades si se tienen los siguientes datos: Universida d A B C Alumnos de Ciencias 150 50 140

13. Los siguientes datos proporcionan los ingresos anuales en miles de dlares de 50 personas: 7.9 10.3 45.7 95 43.0 56.0 38.0 6.7 48.0 30.5 25.0 40.0 30.0 25.5 50.0 17.1 25.5 43.5 31.6 59.0 41.5 13.5 12.0 9.2 42.0 41.9 35.0 11.7 55.3 27.0 58.4 57.0 29.6 38.5 26.0 16.5 18.0 24.9 20.0 28.0 28.5 36.4 39.5 5.0 9.0 5.0 6.9 7.0 12.0 8.3. a) Construir un histograma de frecuencias relativas con 6 intervalos de clase para los ingresos anuales. b) Interpretar el histograma. c) Usar las marcas de clase construido para estimar la proporcin de ingresos que estn entre 12500 dlares y 52500 dlares. d) Estimar la proporcin de sueldos que estn debajo de 50000. e) Estimar la proporcin de sueldos que estn por encima de 40000. 14. Un censo realizado a 10 jefes de familia proporcion los datos que aparecen en la siguiente tabla, en donde

.V

iz
Total de alumnos 2000 5000 3000

34. Estadstica Descriptiva.

Carlos Vliz Capuay

V1 = Procedencia, V2 = Edad, V3 = Estado civil, V4 = Sueldo, V5 = Nmero de hijos y V6 = Cantidad de dinero que asigna en alimentacin de la familia. a) Indicar a que tipo pertenece cada una de las variables consideradas. b) Para la variable "procedencia" construir una tabla de frecuencias y represente grficamente la distribucin mediante una grfico de barras y de sectores circulares. c) Como en la parte b), para la variable "estado civil". Familia 1 2 3 4 5 6 7 8 9 10 V1 P P L P L L L P P P V2 32 28 45 38 49 50 30 32 52 49 V3 S C C C S V S C C V V4 600 700 650 850 900 1000 860 550 890 900 V5 1 1 2 2 3 2 3 2 0 3 V6 300 400 350 380 400 380 560 300 350 400

L = Lima, P = provincias, S = soltero, C = casado, V = viudo Rpta. V1: Cualitativa, V2: Cuantitativa, continua, V3: Cualitativa, V4: Cuantitativa, continua, V5: Cuantitativa, discreta, V6: Cuantitativa, continua. 15. El consumo de agua, en metros cbicos, de 30 viviendas en el mes de Julio fue como sigue: 4.3 78 6.1 15.7 12.8 17.2 3.5 16.1 12.4 6.9 18.0 11.5 13.4 6.5 14.3 8.7 13.0 9.2 12.8 3.0 4.2 11.2 16.2 7 4.5 7.8 15.9 16.5 8.4 5. 9. a) Construir una tabla de distribucin de frecuencias usando 5 intervalos de clase y graficar: el histograma de frecuencias relativas, el polgono de frecuencias relativas y la ojiva. b) Indicar de manera aproximada el porcentaje de viviendas que consumieron entre 10 y 15 metros cbicos. c) Graficar la ojiva y usando sta, indicar de manera aproximada, el porcentaje de viviendas que consumieron entre 12 y 15 metros cbicos. 16. El nmero de peridicos que un canillita vendi durante los ltimos 24 das fue como sigue:

Cul es el porcentaje de das en los que el canillita vendi ms de 20 peridicos?. Usar el mtodo de los intervalos de clase indicado para variables continuas, para obtener una tabla de distribucin de frecuencias. con cuatro intervalos de clase y responder la pregunta anterior. Comentar los resultados, con respecto a los mtodos usados. Rpta. 75%. 17. Los salarios que una empresa ofrece a los practicantes oscilan entre $150 y $270 y se encuentran divididos en cuatro intervalos de clase de igual longitud. Si se supone que los salarios se distribuyen de manera uniforme, que el 40% de los practicantes ganan no ms de $195, el 80% ganan $225 o menos y el 15% gana ms de $232.5, a) cul es el porcentaje de practicantes en cada categora o intervalo de clase?. b) Cunto debe aumentar la compaa a cada practicante para que el 20% de ellos supere los $240 de salario?. 18. Completar la siguiente tabla. Indicar los extremos de cada intervalo de clase.

13 21 16 30 42 5 33 26 28 45 17 28 39 32 8 34 27 33 27 26 24 28 16 21.

.V

iz

Carlos Vliz Capuay

Estadstica Descriptiva. 35

Intervalos de clase. A B C D E

Marca de clase .. 6 ... 14 ...

Frecuencia. relativa 0.10 ... 0.55 ... 0.10

Frecuencia acumulada. relativa ... 0.25 ... 0.9 ...

19. En la siguiente tabla de distribucin, un agente de seguros ha ordenado los datos mensuales correspondiente a la cantidad de dlares de las plizas de seguros que ha vendido durante los tres aos anteriores: Venta mensual [10000, 12000[ [12000, 14000[ [14000, 16000[ [16000, 18000[ Frecuencia 2 4 7 5 Venta mensual [18000, 20000[ [20000, 22000[ [22000, 24000[ [24000, 26000] Frecuencia 6 8 2 1

a) Construir el histograma de frecuencias relativas b) Construir el polgono de frecuencias relativas. c) Indicar la ojiva correspondiente d) Indicar las caractersticas de la distribucin indicada. 20. El peso, en gramos, de 30 objetos de un mismo tipo fue como sigue. 21.3 15.8 18.4 22.7 19.6 15.8 26.4 17.3 11.2 23.9 26.8 22.7 18.0 20.5 11.0 18.5 23.0 24.6 20.1 16.2 08.3 21.9 12.3 22.3 13.4 17.9 12.2 13.4 15.1 19.1. Construir un diagrama de tallo y hojas para los datos indicados. Indicar las caractersticas de la distribucin. 21. La siguiente figura es un histograma que muestra la distribucin de la presin sangunea de un grupo de mujeres que participaron en un estudio.
4 3 2 1 0 90 100 110 120 130 140 150 160 P re s i n s a n g u n e a .

a) En qu intervalo hay ms mujeres: en [135, 140] o en [140, 150] ?. b) Qu intervalo es ms denso: [135, 140] o [140, 150]?. c) Cul es el intervalo ms denso de todo el histograma?.

C
Figura. 1.17.

.V

iz

36. Estadstica Descriptiva.

Carlos Vliz Capuay

1.8. METODOS NUMERICOS PARA DESCRIBIR DATOS .


La naturaleza de los datos permite, en muchos casos, cierto tipo de anlisis a partir de los grficos de la distribucin. Sin embargo, tambin es necesario considerar resmenes numricos que permitan tener una mejor idea de la manera como los datos estn distribuidos a lo largo de la recta. Estas caractersticas numricas, que se estudiarn en esta seccin, se llaman estadgrafos. Los estadsticos han tratado de establecer estadgrafos que sean objetivos y fciles de calcular. Algunas de estas medidas dependen de todas las observaciones y son muy sensibles a las fluctuaciones de stas; tras, sin embargo, no dependen de todas las observaciones, siendo resistentes ante los cambios de los valores extremos. La mayor parte de los conjuntos de datos muestran una tendencia a agruparse alrededor de un valor central. Estos valores, que de alguna manera tipifican al conjunto, se llaman medidas de tendencia central. Entre estas medidas se tienen: la moda, la media aritmtica, la mediana, la media geomtrica y la media armnica. Adems de las medidas de tendencia central estn las medidas que indican la dispersin que se produce en torno del centro de los datos. Entre estas medidas se tiene: el rango o recorrido, la varianza, la desviacin estndar, el coeficiente de variacin, los intercuartiles, etc. La manera como estn distribuidos los datos de un conjunto puede resumirse en lo que se llama la simetra y el apuntamiento de la curva que los describe.

MEDIDAS DE TENDENCIA CENTRAL . La moda .

Para un grupo de datos, correspondientes a una variable, la moda es el valor de la variable que ms se repite. La moda es el dato "ms frecuente". Se denotar con M 0 . (Figura 1.18 a).
1.27. Ejemplo.

Para el siguiente grupo de datos: 3 3 3 5 3 4 5 7 3 5 7 8 3 4 9 2 8 1, la moda es 3.


1.28. Ejemplo.

En la siguiente tabla se presenta la distribucin de los valores de la variable grado de instruccin correspondiente a 40 personas. En esta tabla se observa que la categora que ms se repite corresponde al grado de instruccin secundaria, la cual se ha nombrado con el nmero 3. La moda es 3. La mayora de las 40 personas tienen educacin secundaria.

.V

iz

Carlos Vliz Capuay

Estadstica Descriptiva. 37

Grado de Instruc. Analfabetos: 1 Primaria: 2 Secundaria: 3 Tcnica: 4 Universit: 5

Frecuencia 3 11 25 0 1

Un grupo de datos puede tener una moda, dos modas, etc. En tales casos la distribucin se llama, respectivamente, unimodal, bimodal, etc. La moda se puede usar para cualquier tipo de escala. Si los datos estn agrupados en una tabla de intervalos de clase y corresponden a una variable continua, no ser posible determinar exactamente la moda; pero s el intervalo de mayor frecuencia; a ste se le llama intervalo modal (Figura 1.18 b).

(a) Moda Figura 1.18.

(b) [a, b] es el intervalo modal

Si x1, ... , xn es un grupo de valores, la media aritmtica o simplemente media de estos datos es el nmero
x=
1.29. Ejemplo.

C
x1 + ...+ x n n

La media aritmtica o simplemente media de un grupo de datos, caracteriza a los grupos de datos cuyo polgono de frecuencias presenta simetra y poca dispersin. Se define de la siguiente manera:

Los siguientes datos corresponden al tiempo, en minutos, que utilizan 30 empleados en realizar una tarea. 4.1 2.2 6.7 2.9 5.0 3.2 3.7 3.4 4.0 7.5 3.1 8.0 2.4 7.6 6.2 8.7 4.5 4.7 6.1 3.5 2.7 4.5 3.9 5.1 3.0 4.6 4.6 3.6 4.0 3.7.

.V
=

l
1 n x n i =1 i

La media aritmtica .

iz

38. Estadstica Descriptiva.

Carlos Vliz Capuay

La media es x =

4.1+...+3.7 = 4.5733. 30

OBSERVACIONES.

1. Observar que la media no necesariamente es uno de los datos. 2. La media aritmtica resulta afectada por valores extremos que no son representativos del resto de los datos. Esto es una desventaja. Si los valores x1, ... , xk se repiten, respectivamente, n1, ..., nk veces (n1 +... + nk = total de datos), entonces, x= x1n1 + ...+ x k n k n1 + ...+ n k = f i xi
i =1 k

en donde fi = ni/n, (frecuencia relativa de xi). A esta igualdad se le llama a menudo frmula de la media para datos agrupados. Esta expresin permite interpretar la media aritmtica como una suma ponderada de los diferentes datos del grupo. La ponderacin de cada valor xi es fi. (Ntese que la suma de las ponderaciones es 1).

i =1

en donde w i es un peso o ponderacin que indica la importancia relativa de la i-sima observacin.

1.30. Ejemplo.

Para la confeccin de un artculo una compaa utiliza: 1 hora para armado y 5 horas para acabado. El salario por hora que paga la compaa es de $5 por hora para el armado y de $9 por el acabado. La compaa desea saber el promedio del costo de trabajo por hora para confeccionar dicho producto. El simple promedio aritmtico de los salarios pagados por trabajo es
x=

.V
5+ 9 =7 2

x = wi xi con wi = 1 ,

iz

En general, dados los valores x1 , x 2 , ..., x k , la media ponderada de stos se define como el nmero

Carlos Vliz Capuay

Estadstica Descriptiva. 39

Utilizando este promedio, se tendra que el costo del trabajo realizado para confeccionar una unidad del producto es 7(1 + 5) = 42. Lo que es incorrecto. Como se realizan diferentes actividades para confeccionar el producto, es obvio que ello debe tomarse en cuenta. El promedio correcto se puede determinar considerando que el costo total por el trabajo realizado es (5x1) + (9x5) = 49 y como se invierten 6 horas de trabajo, el costo promedio de trabajo por hora es 49/6 = 8.17 aprox. Se obtiene el mismo resultado si se considera que para confeccionar una unidad del producto es necesario 6 horas. Un 1/6 de ese tiempo es para el armado y 5/6 para el acabado. Utilizando estas fracciones como ponderaciones se tendr que una hora de trabajo realizado cuesta en promedio (1/6)5 + (5/6)9 = 8.17 aprox. Se tiene que el costo promedio por hora para confeccionar un producto es la media ponderada de los valores 5 y 9. El aumento del precio de un bien puede ser insignificante para algunos pero muy importante para otros. Si el aumento del precio del consumo de electricidad es 20%, el de la vivienda el 10% y el de la alimentacin, el 3%, se tendr que la media del aumento de los precios es 11%; sin embargo, para una persona que dedica el 1% de su sueldo a consumo de electricidad, el 9% a vivienda y el 90% para alimentacin, el promedio del aumento de los precios es 3.80%; para otra persona que dedica el 10% de su sueldo a electricidad, el 40% a vivienda y el 50% a alimentacin, el promedio es 7.5%.

x
1.31. Ejemplo.

En la siguiente tabla de frecuencias aparecen los intervalos de clase, las marcas de clase y la frecuencia de un conjunto de 17 datos.
Intervalos [5 9[ [9 13[ [13 17[ [17 21[ [21 25]
xi ni

C
7 11 15 19 23

.V
1 k x n n i =1 i i ,
2 4 7 3 1

Una aproximacin de la media es

Si los datos estn agrupados en intervalos de clase, la media se aproxima usando las marcas de clase, x ' :

iz

40. Estadstica Descriptiva.

Carlos Vliz Capuay

2(7) + 4(11) + 7(15) + 3(19) + 1(23) = 14.294 . 17

La media no tiene significacin si los datos, para los cuales se calcula, han resultado de aplicar una escala nominal u ordinal.
Propiedades de la media aritmtica .

a) La suma de n datos es igual a n veces su media. Esto es,

xi = nx
i =1

b) Si a cada uno de los datos se le suma una constante k, la media de los datos transformados es igual a la media de los datos originales ms la constante k. En particular, si a cada uno de los valores x1, ... , xn , se les resta la media del grupo, la media de los nuevos valores es 0. Esto es,

i =1

( xi x )
n

=0

d) Si a cada uno de los datos se les multiplica (divide) por una constante k, la media de los datos transformados es igual a la media de los datos originales multiplicada (dividida) entre la constante. e) Si el conjunto de m datos, x1, ..., xm tiene media x y el conjunto de n datos, y1, ..., yn tiene media y , entonces el conjunto x1, ..., xm, y1, ..., yn, tiene media

f) La media x de los valores x1, ... , xn corresponde al valor de a que hace mnima a la expresin

i =1

( xi x ) = 0

mx + ny . m+ n

.V

c) De la relacin anterior se tiene que la suma de las desviaciones de cada dato respecto de su media es 0. Esto es,

iz

Carlos Vliz Capuay

Estadstica Descriptiva. 41

i =1 n n

( x i a ) 2 , a .

Esto es,

i =1

( x i x ) 2 ( x i a ) 2 , a.
i =1

Nota.

Obviamente, constante k.
1.32. Ejemplo.

i =1

k ( xi x ) 2 k ( xi a ) 2 , a y para cualquiera valor de la


i =1

El promedio de los precios de los artculos que conforman la canasta familiar en cierta ciudad es 400 unidades monetarias. Si cada artculo de la canasta aumenta el 10% de su precio entonces el nuevo promedio de los precios de la canasta es igual a (1.10)(400) = 440.
1.33. Ejemplo.

Si el salario promedio de las 20 mujeres que trabajan en una compaa A es 200 unidades monetarias y el de los 30 hombres que trabajan en la compaa B es 250 unidades monetarias, se tendr que el salario promedio de las 50 personas que trabajan en ambas compaas es

1.34. Ejemplo.

En un grupo de personas conformado por obreros y empleados, la edad promedio es 32 aos. La edad promedio de los obreros es 25 y la de los empleados, 35. Cul es el porcentaje de obreros y empleados?.
Solucin. Si se denota con a al nmero de obreros y con b al nmero de empleados se tiene que

C
32 =

Escribiendo A =

a
a +b

y B=

b
a +b

, resulta: 32 = 25A + 35B.

Considerando que A + B = 1, se tendr: A = 0.3 y B = 0.7. Es decir, el 30% de las personas que conforman el grupo son obreros y el resto son empleados.

.V
25a + 35b
a+b

l
.

( 20)( 200) + ( 30)( 250) = 230. 20 + 30

iz

42. Estadstica Descriptiva.

Carlos Vliz Capuay

1.35. Ejemplo

En la siguiente tabla se indica el Producto Nacional Bruto (PNB) promedio por persona y la poblacin en tres pases.
Pas Per Colombia Bolivia PNB ($) 1160 1260 630 Poblacin 22 mill. 32 mill. 7 mill.

Fuente: Banco Mundial. 1992.

Se deduce que el PNB promedio por persona en los tres pases es


PNB promedio =
1.36. Ejemplo.

1160( 22) + 1260( 32) + 630( 7 ) = 1151.63 dlares. 22 + 32 + 7

El costo por unidad para producir 3000 pantalones es 12 unidades monetarias, el costo por unidad para producir 5000 camisas es 10 unidades monetarias y el costo por unidad para producir 2000 sacos es 50 unidades monetarias. Hallar el costo promedio por unidad de produccin.
Solucin. El costo promedio de produccin es
x=
1.37. Ejemplo.

En C se produce el 90% de los artculos que se producen en S, mientras que en U se produce 30% ms artculos que en S. a) Hallar el costo promedio por artculo en las tres fbricas. b) Hallar el precio promedio de venta por artculo si el estado establece que se debe ganar el 10% por artculo.
Solucin. Si x es la produccin en S, entonces en C la produccin es 0.9x y en U, 1.3x. La produccin total es 0.9x + x + 1.3x = 3.2x.

El costo de produccin es 2(0.9x) + 2.3(x) + 2.5(1.3x) = 7.35x. a) El costo promedio es 7.35x/3.2x = 2.2968.

.V

El costo de produccin de un artculo en cada una de las tres fbricas que una compaa tiene en la costa (C), en la sierra (S) y en la selva (U) es, respectivamente, 2, 2.3 y 2.5.

iz

12( 3000) + 10(5000) + 50( 2000) = 18.6 unidades monetarias. 3000 + 5000 + 2000

Carlos Vliz Capuay

Estadstica Descriptiva. 43

b) Como el precio de venta es 1.10 (precio de costo), el promedio del precio de venta es 1.10(costo promedio) = 1.10(2.2968) = 2.5265.
1.38. Ejemplo.

Tres poblados A, B y C (en ese orden), se encuentran situados a lo largo de una carretera recta. La distancia entre A y B es 15 km, entre B y C, 22 km. Se desea construir en un punto M de la carretera un centro de recreo de tal manera que al transportar a este centro 30 personas de A, 20 de B y 40 de C, el costo total por transporte sea mnimo. Hallar el punto M si el costo por transportar a cada persona de cada poblado es proporcional al cuadrado de la distancia recorrida.
Solucin.

Asignemos las coordenadas 0; 15 y 37 a los poblados A, B y C, respectivamente. Si la coordenada de M es a, el costo total por transportar las 90 personas es Costo = 30k (0 a ) 2 + 20k (15 a ) 2 + 40k (37 a ) 2 , en donde k es la constante de proporcionalidad. Segn la propiedad f), el valor de a que hace mnimo al costo es la media de los valores

0, 0, ..., 0, 15, ..., 15, 37, ... ,37 1 4 24 3 1 4 24 3 1 4 24 3


30 veces 20 veces 40 veces

La media de un conjunto de datos se calcula a partir de todos ellos, por ello es necesario tener cuidado en el momento de hacer la interpretacin correspondiente, pues los datos extremos pueden influenciar fuertemente en el resultado, desvirtuando de este modo la imagen real de la media aritmtica. En la siguiente tabla se indica la distribucin de 11 personas de acuerdo a su sueldo.

C
k

La propiedad e) de la media puede extenderse de la siguiente manera: Si k conjuntos de datos constan de n1 , n 2 ,... , n k observaciones y si tienen medias x1 , . x 2 , ... , x k , respectivamente, entonces la media global de los k conjuntos es
ni xi
i=1

x =

.V
i =1 k

ni

Luego la coordenada de M es a = 19.7777. El centro de recreo debe estar 4.7777 km. de la ciudad A.

iz

44. Estadstica Descriptiva.

Carlos Vliz Capuay

Sueldos (xi) 100 120 2000 3000

Frecuencia (ni) 4 5 1 1

La media de los sueldos es x =

100( 4 ) + 120(5) + 2000(1) + 3000(1) = 545.45 ; sin embargo, 9 11

de las 11 personas tiene una remuneracin menor o igual a 121. Los valores extremos 2000 y 3000 han influido grandemente en el resultado. (Si se construye el polgono de frecuencias de la tabla anterior, podr notarse que ste tiene un sesgo con cola a la derecha). La observacin anterior indica que si una distribucin de datos tiene un sesgo (con cola a la derecha o con cola a la izquierda) es mejor utilizar otra medida de tendencia central que sea resistente a los valores extremos, tal como la mediana, que a continuacin se estudia.

La mediana.
Para un grupo de n datos ordenados, la mediana Me es el valor central, si n es impar y es igual al promedio de los dos datos centrales, si n es par.

Propiedades de la mediana.

a). La mediana Me es un valor que est en el centro de los datos. Esto generalmente no ocurre con la media ni con la moda. Sin embargo, cuando el polgono de frecuencias es simtrico, los tres valores coinciden y estn en el centro de los datos. b). La mediana Me es una medida de centralizacin resistente. Al variar uno de los datos que no sean los de la posicin central, sta no vara. Por ello se usa para resumir grupos de datos en donde existen valores excepcionalmente grandes o pequeos y cuya forma del polgono de frecuencias no sea simtrica.
1.39. Ejemplo.

La mediana de los datos: 3 4 5 8 12 15 17, es 8, y la mediana de: 4 5 6 7 es 5.5.

.V

Para establecer el concepto de mediana se ha hecho uso del orden de los nmeros que representan a los datos, luego esta medida no tiene significacin si los datos se obtienen al usar una escala nominal.

iz

Carlos Vliz Capuay

Estadstica Descriptiva. 45

Debajo de la mediana existe aproximadamente el 50% de los datos (Figura 1.19 (a)) Suavizando la ojiva de la frecuencia acumulada relativa se ubica la mediana de un conjunto de datos correspondientes a una variable continua. (Figura 1.19 (b)).

0.5

50%

50%

e
M
(b)
e

(a)
Figura 1.19

En el caso discreto siempre ser posible determinar exactamente la mediana, ya sea que los datos se presenten de manera enumerativa o en una tabla de frecuencias. En el caso continuo y cuando los datos se presentan en una tabla de intervalos de clase no ser posible determinar exactamente el valor de la mediana por cuanto no se tiene la informacin completa. Sin embargo, puede aproximarse como se indica a continuacin.
Aproximacin de la mediana para datos agrupados en una tabla de intervalos de clase.

acumulada relativa Fa es menor que 0.5 y hasta b la frecuencia acumulada relativa Fb es mayor o igual a 0.5), (Figura 1.20 a) y considerando la aproximacin lineal de la parte de la grfica de la ojiva F en el intervalo [a, b], el valor de la mediana se aproxima usando la semejanza de tringulos.

En M e el valor de la frecuencia relativa es aproximadamente igual a 0.5, haciendo uso de la semejanza de tringulos, se tiene M e a 0.5 Fa ba Fb Fa M e a + (b a ) o

.V

Suponiendo que la mediana M e est en el intervalo [a b[ (hasta a la frecuencia

l
0.5 Fa Fb Fa

En una tabla de frecuencias de intervalos de clase, a partir de la frecuencia acumulada relativa se puede indicar el intervalo en donde se encuentra la mediana.

iz

46. Estadstica Descriptiva.

Carlos Vliz Capuay

F b F a

0.5 F

a
a
M

Ojiva de fr.ac.relativa (a)


Figura 1.20.

Ojiva en [a, b] ( b)

en donde a es el extremo izquierdo del intervalo que contiene la mediana, b es el extremo derecho del intervalo que contiene a la mediana, Fa es el valor de la frecuencia acumulada relativa "hasta el extremo" a y Fb es el valor de la frecuencia acumulada relativa "hasta el extremo" b.
1.40. Ejemplo.

A partir de la informacin que se encuentra en la siguiente tabla de frecuencias no es posible indicar directamente el valor de la mediana Me; sin embargo, se puede decir que sta se encuentra en el intervalo de clase [a, b[ = [14, 17[.
Interv. Clase [5, 8[ [8, 11[ [11, 14[ [14, 17[ [17, 20[ [20, 23]
xi 6.5 ni fi 0.125 Fi 0.125

3 6

12.5 15.5

l
2 0.083 9 0.375 0.125 0.041 3 1

9.5

iz
0.250

0.375 0.458 0.833 0.958 1.000

18.5 21.5

Se tiene que
M e 14 + (17 - 14)

Otra propiedad de la mediana

c). Se puede demostrar que para un grupo de datos x1, ... , xn, la mediana Me de stos corresponde al valor que hace mnima la expresin

i =1

| xi a| , en donde a es un nmero real cualquiera.

.V

0.50 0.458 = 14.336. 0.833 0.458

Carlos Vliz Capuay

Estadstica Descriptiva. 47

Esto es,
i =1

| xi M e | | x i a | a real .
i =1

Relaciones entre la moda, la media y la mediana.


Para distribuciones simtricas unimodales, la moda, la mediana y la media coinciden. Para curvas de frecuencia que estn sesgadas a la derecha o a la izquierda, la posicin de la moda, de la mediana y la media se indican en la siguiente figura.

x
Figura 1.21.

Cuando la curva de frecuencias tiene cola a la derecha, M 0 M e x . Cuando la curva de frecuencias tiene cola a la izquierda, x M e M 0

La media geomtrica y la media armnica.

Se observa que lnG es la media aritmtica de ln(x1), ln(x2), ... , ln(xn) Se llama media armnica de los valores x1, ... , xn , diferentes de 0, al n valor H = , ( xi 0) . n 1 i =1 x i
OBSERVACIONES

1. La media armnica es el inverso de la media de los inversos de cada uno de los valores. 2. Ntese que si los valores x1, ... , xk tienen frecuencias n1, ..., nk, respectivamente, (n1 + ... + nk = n), entonces

.V

Dados los valores positivos x1, x2, ... , xn , se llama media geomtrica de stos, al valor G = n x1x2 ... xn .

iz

48. Estadstica Descriptiva.

Carlos Vliz Capuay

H=

1
i =1

fi

1 xi

xi 0

en donde fi = ni/n es la frecuencia relativa de xi. A esta expresin se le llama media armnica ponderada.
1.41. Ejemplo.

Para el conjunto de datos 7 8 8 9 10 11, la media geomtrica es


G = 6 (7)(8)(8)(9)(10)(11) = 8.7328,

mientras que la media armnica es

H=
1.42. Ejemplo.

6 = 8.6346 . 1 / 7 + 1 / 8 + 1 / 8 + 1 / 9 + 1 / 10 + 1 / 11

En cierta regin la produccin de arroz, durante tres aos consecutivos, aument respecto del ao anterior en: 70%, 50%, 10%. En qu razn promedio anual aument la produccin?.
Solucin. Si A es la produccin inicial se tendr que despus del primer ao, la produccin es (1.7)(A), despus del segundo ao, la produccin es (1.5)(1.7)(A), y despus del tercer ao es (1.1)(1.5)(1.7)(A).

Luego:

( 1 + a )3 A = (1.1)(1.5)(1.7)A, de donde a = 0.41. El aumento porcentual promedio es 41.00%. Se observa que 1+a es la media geomtrica de las cantidades 1.1, 1.5, y 1.7.
1.43. Ejemplo.

Los precios de una accin de la bolsa de valores en tres das consecutivos fueron: A, 0.5A y A, respectivamente. Luego la variacin de los precios con respecto al da anterior fue como sigue: -50% y 100%, respectivamente.

despus del tercer ao, (1 + a)(1 + a)(1 + a)A = (1 + a ) A

.V

Por otro lado, si llamamos con a a la razn anual promedio, se tendr que despus del primer ao, la produccin es (a + 1)A, despus del segundo ao, (1 + a)(1 + a)A, y
3

iz

Carlos Vliz Capuay

Estadstica Descriptiva. 49

Un nmero adecuado para indicar la tasa de variacin promedio de los precios de la accin no es la media aritmtica de -50 y 100. Por qu?. Procediendo como en el ejemplo anterior, se tiene que si r es la tasa promedio de variacin, entonces (1 + 1)(1 0.5) A = (1 + r ) 2 A . De donde r = 0. Luego, la tasa promedio de variacin es 0.
1.44. Ejemplo.

Una persona recorre la distancia de A a B con una velocidad de 30 km./h; otra persona recorre la misma distancia con una velocidad de 60 km./h. Cul es el "promedio" adecuado de las velocidades de las dos personas?.
Solucin. Si la distancia de A a B es e km, entonces la primera persona utiliza e/30 horas para recorrer la distancia de A a B y la segunda persona, e/60.

La velocidad "promedio" es 2e/[(e/30) + (e/60)] = 2/[(1/30) + (1/60)] = 40. (Es la media armnica de las cantidades 30 y 60).

MEDIDAS DE DISPERSION
Dos grupos diferentes de datos pueden tener iguales medidas de tendencia central; sin embargo, las caractersticas de su distribucin pueden ser diferentes. Un grupo de datos puede tener mayor o menor dispersin que el otro con respecto de la medida central. Precisamente, para interpretar mejor los datos se construyen medidas de dispersin o estadgrafos de dispersin. Las medidas de dispersin ilustran sobre la manera como varan los datos observados alrededor de una medida de tendencia central, indican como estn concentrados los datos alrededor del parmetro de centralizacin, permiten comparar una informacin con otra y ayudan a verificar si determinadas medidas de tendencia central son o no significativas. Por ejemplo, cuando la dispersin es muy grande la media aritmtica no tiene mucha significacin; sin embargo si la dispersin es baja, la media adquiere significacin. Entre las medidas de dispersin estn: el recorrido o rango, la varianza, la desviacin estndar, el coeficiente de variacin, los intercuartiles, etc.

El recorrido o rango.
Aunque de uso muy limitado, el recorrido o rango de un conjunto de datos es la diferencia entre el dato mayor y el dato menor. Por ejemplo, si los datos de cierta variable son: 23, 24, 24.5, 24.6, 24.7, 24.9, 25, 26,9, 27, 28, 100, el rango es, como en el caso anterior, 100 - 23 = 77.

.V

iz

50. Estadstica Descriptiva.

Carlos Vliz Capuay

Sin embargo, puede observarse que la forma como estn distribuidos los datos no es la misma en ambos casos. En el segundo caso, los datos estn ms agrupados hacia el dato menor. Esto muestra que el rango no indica la manera como estn distribuidos los datos.

La varianza y la desviacin estndar .


Si x1, ... , xn es un conjunto de datos con media aritmtica x , la varianza de los n datos, se denota con s ' 2 , o con V y se define como s' =
2

1 n (x x)2. n i =1 i

La varianza es el promedio de las desviaciones al cuadrado de los datos respecto de su media. Indica la manera como los datos estn dispersos alrededor de la media. La raz cuadrada positiva de la varianza se llama desviacin estndar. Se denota con s' . La desviacin estndar representa, aproximadamente, el promedio de las desviaciones de cada uno de los datos respecto de su media aritmtica. Como se notar ms adelante, la mayor parte de los datos estar a una distancia de una desviacin estndar de la media. Muy pocos estarn ms all de dos o tres veces la desviacin estndar. La media de 1, 3, 5 y 7 es 4 y su varianza, V = La desviacin estndar es 2.2360.
NOTAS. 1. La varianza se expresa tambin como
(1 4) 2 + (3 4) 2 + (5 4) 2 + (7 4) 2 = 5. 4

Esta frmula se justifica pues, s' 2 =


n n 1 n 1 n 1 n ( xi x ) 2 = xi2 2 xi x + x 2 = xi2 x 2 . n i =1 n i =1 n i =1 i =1 i =1

2. Si x1 se repite n1 veces, ... , xk se repite nk veces; la varianza puede escribirse como

C
s' 2 =

.V
1 n 2 x x2 n i =1 i

iz

Carlos Vliz Capuay

Estadstica Descriptiva. 51

s 2 =

i =1

( x i x ) 2 ni nj
k

i =1 k

xi2 ni nj

(x)2 ,

j =1

j =1

1.45. Ejemplo.

En la siguiente tabla de distribucin de frecuencias


xi ni

3 10

5 15

7 9

la media aritmtica y la varianza son:

x = [10(3) + 15(5) + 9(7)]/[10 + 15 + 9] = 4.9412 y


s '2 = (3 4.9412) 2 (10) + (5 4.9412) 2 (15) + (7 4.9412) 2 (9) = 2.2316. 10 + 15 + 9

Si n datos estn agrupados en k intervalos de clase y en cada intervalo hay ni datos, usando las marcas de clase x ' i , se obtiene la siguiente aproximacin de la varianza:

s' 2 = i =1
1.46. Ejemplo.

Inter. de clase

C
3 5 7 9 11

Para los datos, cuya distribucin se muestra en la siguiente tabla, hallar la media y la desviacin estndar de manera aproximada.
marca de clase x'i frecuenc. ni 5 7 10 4 2

[2, 4[ [4, 6[ [6, 8[ [8, 10[ [10, 12]

Solucin. Usando las marcas de clase se tiene que

x i =1

x 'i ni
n

3(5) + 5( 7) + 7(10) + 9(4) + 11(2) = 6.3571 . 5 + 7 + 10 + 4 + 2

.V

iz
.

( xi x ) 2 ni

52. Estadstica Descriptiva.

Carlos Vliz Capuay

s' 2

i =1

( x ' i x ) 2 ni
n =

(3 6.3571) 2 (5) +...+ (11 6.3571) 2 (2) = 51581 . 28

s' 2.2711.
NOTA. Otra forma de medir la dispersin de los datos, es mediante la varianza muestral que se define con

i =1

( xi x )2
n 1
.

PROPIEDADES DE LA VARIANZA.
A partir de la definicin de la varianza se pueden deducir las siguientes propiedades: a) La varianza es un nmero no negativo. b) Si todos los datos son iguales a una constante c, su varianza es igual a 0. (En este caso la media es igual a c). No hay dispersin. c) Si a cada uno de los datos x1, ..., xn se les suma una constante b, entonces la varianza de los datos transformados: x1 + b, ... , xn + b es igual a la varianza de los datos originales. d) Si a cada uno de los datos x1, ... , xn se les multiplica por una constante k, entonces la varianza de los datos transformados: kx1, ... , kxn es igual a la varianza de los datos originales multiplicada por el cuadrado de la constante. Esto es, si la varianza de los datos originales es s '2 entonces la varianza de los datos transformados es k 2 s '2 .
'2 e) Si el conjunto de m datos: x1 , ... x m tiene media x y varianza s x ,

mientras que el conjunto de n datos: y1 ,... y n tiene media y y varianza

s '2 , entonces el conjunto de datos x1 ,... x m , y1 ,... , y n tiene varianza y s' 2 =


2 ms' 2 x + ns' y

m+n

en donde M es la media del conjunto x1 ,... x m , y1 ,... , y n .

m n (x M )2 + (y M )2 , m+n m+ n

.V

iz

Carlos Vliz Capuay

Estad stica Descrip tiva . 5 3

Si las medias x e y son iguales, entonces


2 ms' 2 x + ns ' y

s' =

m+ n

f) Existe una propiedad muy importante, llamada de Chebyshev, que permite la interpretacin de la desviacin estndar:

Para cualquier conjunto de datos con media y desviacin estndar muestral x y s' , respectivamente, la proporcin de datos que caen en el intervalo [ x ks' , x + ks' ] , en donde k = 1, 2, ... , es mayor o igual a
1 (1 / k ) . As, en el intervalo [ x - 2 s', x + 2 s'] por lo menos hay el 75% de los datos, en el intervalo [ x - 3s', x + 3s'] por lo menos hay el 89% de los datos.
1.47. Ejemplo.
2

Aplicando las propiedades de la varianza, el lector puede observar que, si x1, ... , xm , es un conjunto de datos cuya varianza es V X , entonces, el conjunto de datos y1, ..., ym , obtenidos al realizar la transformacin yi = axi + b , en donde a y b son constantes, tienen media, varianza y desviacin estndar

xY = ax + b , VY = a 2V X , s'Y =| a| s' X , respectivamente.


1.48. Ejemplo.

Solucin. Si el nmero de crditos en que se matricularon los estudiantes es: x1 , x 2 ,... , x N .


Los pagos realizados son: 20 + 60( x1), 20 + 60( x 2 ),... , 20 + 60( x N ). Aplicando las propiedades del ejemplo anterior se tiene que la media y la varianza de los pagos realizados son, respectivamente, 20 + 60(19.4) = 1184
1.49. Ejemplo.

C
y

En un saln de clase estudian hombres y mujeres. El promedio general en el curso de Estadstica es 25 y la desviacin estndar, 5. La media de las notas en el grupo de los

.V

N estudiantes se matricularon, cada cual, en un nmero de crditos cuya media y varianza son iguales a: 19.4 y 1.84, respectivamente. Si cada estudiante pag el costo fijo de $20, ms $60 por cada crdito, cul es la media y la varianza de los pagos que realizaron los estudiantes?.

(60)2(1.84) = 6624.

iz

54. Estadstica Descriptiva.

Carlos Vliz Capuay

varones es 27 y la desviacin estndar, 4. Si la media en el grupo de las mujeres es 22, hallar la desviacin estndar en este grupo.

Solucin. Denotemos con M al grupo de las mujeres, con H al grupo de los hombres, con m al nmero de mujeres, con h al nmero de hombres y con t al total de personas (t = m + h).
De los datos se tiene:
xG = media general = 25, G = desv. est . general = 5 x H = media hmbr. = 27, H = desv. est . hmbr . = 4 x M = media muje. = 22, M = desv. est . muje = ?

2 2 Hallaremos la varianza en el grupo de las mujeres: 2 M = (1 / m ) xi ( x M ) M

(1)

A partir de los datos se tienen las siguientes relaciones:

25 =

27 h + 22 m t

(2)
2

25 =

x i2 G
t

( 25)

x i2 + xi2 H M
t

( 25)

(3)

xi2
h

M =

650 t 745h m

Reemplazando en (1), resulta

( 22 )

.V

De (3) y (4), se tiene que x i = [ 25 + ( 25) ]t [16 + ( 27 ) ]h

l
2

iz
650 t 745h m

16 =

( 27 )

(4) (5)

(6)

De (2) y considerando que m + h = t, se obtiene t/m = 5/2 y h/m = 3/2. Luego,


M =
2

( 22 ) = 650(5/2) - 745(3/2) - 484 = 23.5.

La desviacin estndar de las notas en el grupo de las mujeres es


1.50. Ejemplo.

23.5 = 4.8476.

Se han registrado durante 30 das, el nmero de viajeros que hacen reservaciones a una agencia de viajes pero que no las hacen efectivas:

Carlos Vliz Capuay

Estadstica Descriptiva. 55

12 18 14 12 10 10 20 9 19 15 18 16 16 16 14 18 16 18 14 19 19 15 13 15 13 18 12 17 14 14. La media del nmero de pasajeros que hacen reservaciones y no las hacen efectivas es igual a 15.1333 y la desviacin estndar es 2.8952. En el intervalo [9.3429, 20.9237], que tiene la media como centro y dos desviaciones estndar muestrales como radio, existe, segn Chebyshev, el 75% de los datos, por lo menos.

Demostracin de la propiedad de Chebyshev.

Se desea demostrar que para un conjunto de datos, x1 , ..., x n , la proporcin de datos que existen en el intervalo [ x ks , x + ks ] es por lo menos 1 - (1/k2). Al conjunto de datos que estn dentro del intervalo lo llamaremos con D y al conjunto de los datos que estn fuera con F. Llamando con a al nmero de datos en F, se tiene:

( x i x ) 2 + ( xi x ) 2
s =
2 xi D xi F

( xi x ) 2

xi F

k 2 s2
>
xi F

ak 2 s 2 , n

1.51. Ejemplo.

N datos correspondientes a la produccin diaria de gasolina de una planta tienen media 150000 galones con una desviacin estndar de 1000 galones. a) Hallar la proporcin de das cuya produccin de gasolina est entre 148000 y 152000. b) Si se sabe que la menor produccin es 147000, calcular un intervalo que contenga por lo menos 90% de los datos. c) Con qu frecuencia se puede decir que la produccin ser mayor que 157000 galones diarios?.

La ltima relacin indica que la proporcin de datos que estn fuera del intervalo es menor que 1/k2. Por tanto la proporcin de datos que estn dentro del intervalo es mayor o igual a 1 - 1/k2.

.V

de donde resulta, tomando los extremos, s 2 >

ak 2 s 2 1 a o 2 > . n n k

iz

56. Estadstica Descriptiva.

Carlos Vliz Capuay

Solucin.

a) El intervalo [148000, 152000] corresponde a [ x ks , x + ks ] con x = 150000 , s = 1000 y k = 2. Aplicando la propiedad de Chebyshev con k = 2, se tiene que la proporcin de das cuya produccin est en el intervalo indicado es por lo menos igual 1 (1/ k 2 ) = 0.75. b) Un intervalo que satisface lo pedido es uno de la forma [ x ks , x + ks ] donde 1 k es tal que 1 2 = 0.90 . Luego k = 10 = 3.1622 y [ x ks , x + ks ] = k [146837.80, 153162.20]. Como la menor produccin es 147000, un intervalo que satisface la condicin es [147000, 153162.20]. c) La distancia entre 157000 y la media de la produccin expresada en desviaciones estndar de la misma es
157000 150000 = 7. 1000

Como la menor produccin es 147000 podemos decir que la produccin ser mayor que 157000, en el (1 - 0.9796)100% = 2.04% de los das, a lo ms.

Datos tipificados o estandarizados


Si a cada elemento de un grupo de m datos, x1 ,... x m , se les resta su media y a este resultado se le divide entre su desviacin estndar, entonces se dice que stos se han estandarizado o tipificado. Las expresiones estandarizadas de los datos anteriores son:

C
x1 x
s'
, ... ,

Aplicando la propiedad de Chebyshev, se tiene que la proporcin de das cuyo produccin est en el intervalo [150000 - 7(1000), 150000 + 7(1000)] = 1 1 [143000, 157000] es por lo menos 1 2 = 1 2 = 1 0.0204 = 0.9796 . k 7

.V
xm x
s'

iz

Esto indica que 157000 est a 7 desviaciones estndar de la media.

Carlos Vliz Capuay

Estadstica Descriptiva. 57

Las expresiones estandarizadas permiten describir la posicin relativa de una medida particular en un conjunto de datos y sirven para realizar comparaciones. Para ilustrar, supondremos que en el aula A la media de las notas de Matemticas es 13 y la desviacin estndar es 2, mientras que en el aula B las notas de Matemticas tienen media 16 y desviacin estndar 1. Si Juan, que estudia en el aula A, tiene la nota 12, y Pedro, quien estudia en el aula B, tiene la nota 14, entonces se tendr que, dentro de cada uno de sus salones, Juan estar en mejor posicin en su saln que Pedro en el suyo, ya que la nota estandarizada de Juan (-0.5) es mayor que la nota estandarizada de Pedro (-2).

Ntese que, en virtud de las propiedades de la media y de la varianza, para cualquier conjunto de datos estandarizados su media es 0 y su varianza es 1.

Coeficiente de variacin .
El coeficiente de variacin se define como CV = s' x

As por ejemplo, para cada grupo de datos: 0, 1, 2, 3, 4, y 50, 75, 100, 125, 150, las desviaciones estndar son 1.4142 y 35.3553, respectivamente; sin embargo, no se puede decir que en el segundo grupo existe mayor dispersin que en el primero. Los coeficientes de variacin son: para el primer grupo, CV1 = 0.7071 (70.71%) y para el segundo grupo, CV2 = 0.3535 (35.35%), indicando que en el primer grupo existe mayor dispersin, que en el segundo. El coeficiente de variacin tiene sentido para la escala de razn.
1.52. Ejemplo.

Una serie de mediciones de la temperatura de un cuerpo realizadas con el termmetro A, tiene media 12.01 y desviacin estndar 0.027; mientras que con otro termmetro B, la media de las mediciones fue 11.97 y la desviacin estndar, 0.014. Suponiendo que la persona que opera los instrumentos no introduce sesgo alguno en las mediciones, cul es el termmetro relativamente ms consistente?.

.V

Este coeficiente expresa la desviacin estndar en medias aritmticas; tambin se indica en porcentaje y a menudo se usa para comparar la variabilidad de dos o ms conjuntos de datos que estn expresados en diferentes unidades. El grupo de datos que tiene el mayor coeficiente de variacin, es el que tiene la mayor dispersin. Si las medias de los dos grupos son iguales, entonces el grupo que tenga mayor desviacin estndar ser el de mayor variacin o dispersin.

iz

58. Estadstica Descriptiva.

Carlos Vliz Capuay

Solucin. El termmetro ms consistente es el que tiene menor coeficiente de variacin. El coeficiente de variacin del termmetro A es 0.0022 (0.22%), mientras que para el termmetro B este coeficiente es 0.0012 (0.12%). El termmetro B es ms consistente.
1.53. Ejemplo.

En una entidad estatal los sueldos de los directivos, de los empleados y de los obreros son como aparece en la siguiente tabla.
Media Directivos Empleados Obreros 2000 1200 1100 Desv. Estnd. 100 100 100

En este caso no podemos decir que la dispersin de los sueldos de los directivos, de los empleados y de los obreros son iguales, an cuando las desviaciones estndar lo son. Los coeficientes de variacin son: para los directivos, 0.0500 (5%), para los empleados, 0.0833 (8.3%) y para los obreros, 0.0909 (9.09%). Ahora podemos indicar que, con respecto a la media, la dispersin es mayor en los obreros y que la de los empleados es mayor que la de los directivos.
1.54. Ejemplo.

Solucin. Antes de los aumentos, la media y el coeficiente de variacin son iguales, respectivamente, a 200 y 0.1. Luego, la desviacin estndar antes del aumento es igual a (200)(0.1) = 20. Por las propiedades de la media y de la varianza, la media de los sueldos despus de los aumentos es (1.15)(200) + 20 = 250 mientras que la varianza es (1.15)2(20)2 = 529.00 (la desviacin estndar es (1.15)(20) = 23).

Despus de los aumentos el coeficiente de variacin es (1.15)(20)/[1.15(200) + 20] = 23/250 = 0.092. La dispersin disminuy el [(0.1 - 0.092)/(0.1)](100) = 8% con respecto al valor anterior.
1.55. Ejemplo.

En una empresa los salarios para los hombres tiene media $500 y desviacin estndar $50. Para las mujeres, que constituyen el 30% del total de trabajadores, la media de los salarios es $490 y la desviacin estndar 30. Para el prximo mes, la empresa proyecta realizar un aumento general del 15% a hombres y mujeres. Use el coeficiente de variacin para indicar si cambia o no la dispersin de los salarios. Cmo cambia la variacin de los salarios si en lugar de aumentar el 15%, se aumenta $50 a cada hombre y a cada mujer?.

.V

iz

La media y el coeficiente de variacin de los salarios de los empleados de una fbrica son $200 y 0.1, respectivamente. Si a cada empleado se le aumenta el 15% de su sueldo ms $20 por concepto de movilidad, cmo cambia el coeficiente de variacin?.

Carlos Vliz Capuay

Estadstica Descriptiva. 59

Solucin. La media de todos los trabajadores es x T = 0.7 (500) + 0.3( 490) = 497 .

La varianza de todos los salarios es


2 sT = 0.7 (50) 2 + 0.3( 30) 2 + 0.7 (500 497 ) 2 + 0.3( 490 497 ) 2 = 2041 .

La desviacin estndar de todos los salarios es 45.1774. El coeficiente de variacin es 45.1774/497 = 0.0900 (= 9%) Despus de aumentar el 15%, la media es igual a (1.5)(497) = 571.55, la desviacin estndar es (1.5)(45.1774) = 51.9540 y el coeficiente de variacin es 0.0909 (= 9.09%). La dispersin de los salarios aument. Despus de aumentar $50, la media aumenta a 547, la desviacin estndar sigue siendo igual a 45.1774 y el coeficiente de variacin es 45.1774/547 = 0.0826, esto es 8.26%. La dispersin de los salarios disminuy.

Percentiles e intercuartil para un grupo de datos.


Muchas veces se desea describir la posicin de una cierto valor en un conjunto de datos, as por ejemplo, supongamos que se desea conocer si la nota 13, que un alumno ha obtenido en una determinada asignatura, es "grande" o "pequea" dentro de su grupo. Para responder esta inquietud se usan los percentiles. Para introducir la definicin de percentil, ordenemos el conjunto de datos x1 , . x 2 , ..., x n de tal manera que x (1) sea el menor, x ( 2 ) sea el que le sigue y as sucesivamente hasta tener el mayor valor x ( n ) . As se tiene que x (1) x (2 ) ... x (n ) . A cada nmero entre parntesis se le llama rango de la observacin. Por definicin,

el valor x (i ) es el percentil 100[(i 0.5) / n] del conjunto de datos.


1.56. Ejemplo.

Ordenando el siguiente conjunto de datos: 15 18 23 15 16 25 17 19 21 25 se tiene:

15 15 16 17 18 19 21 23 25 25 . El valor x ( 3) = 16 es el percentil 100(3 - 0.5)/10 = 25. Ntese que debajo de 16 existe


aproximadamente el 25% de los datos.

.V

iz

60. Estadstica Descriptiva.

Carlos Vliz Capuay

El valor x (5) = 18 es el percentil 45. Aproximadamente, el 45% de los datos son menores o iguales que 18. El percentil 35 corresponde al dato cuyo rango es 4. Esto es, el percentil 35 es 17. En efecto, (i 0.5)100 10( 35) , de donde i = + 0.5 = 4. 10 100 Luego, el percentil 35 es x ( 4 ) = 17. 35 =

En general, de la definicin se tiene que el percentil k es la observacin con rango (nk/100) + 0.5. Cuando este valor no es entero, se toma el promedio de los datos cuyos rangos son prximos a este nmero.
OBSERVACIONES.

1. Aproximadamente, el k% de los datos es menor o igual que el percentil k. 2. El percentil 50 es igual a la mediana, pues para ste el rango es n(50)/100 + 0.5 = n/2 + 0.5, valor que corresponde al dato central cuando n es impar y al promedio de los dos datos centrales cuando n es par. 3. A x (i ) se le llama tambin cuantil de orden (i - 0.5)/n. Denotaremos con C k al percentil k. A partir de la suavizacin, y = F(x), de la ojiva correspondiente a la frecuencia acumulada relativa de un grupo de datos (figura 1.22 b) se observa que F(Ck) es aproximadamente igual a k/100.

As, F(C25) 25/100 = 0.25, F(C50) 50/100 = 0.5, etc.


1 F 0.75 0.50

rea rea 25%

rea

25% 25%

rea 25%

25

50

.V
0.25

75

(a)
Figura 1.22. Centiles.

iz

C C C 25 50 75

(b)

Carlos Vliz Capuay

Estadstica Descriptiva. 61

A los percentiles 25, 50 y 75 se les llama primer cuartil, segundo cuartil y tercer cuartil, respectivamente.
1.57. Ejemplo.

Si los sueldos de 15 personas son, respectivamente, 100, 300, 400, 1300, 1370, 1450, 1500, 1650, 1670, 1710, 1800, 1900, 1950, 2000, 2050, se tiene que: El percentil 25 (primer cuartil) corresponde al rango (25)(15)/100 + 0.5 = 4.25. Como el rango no es entero, el percentil 25 es el valor [ x (4 ) + x (5) ] / 2 = [1300 + 1370] / 2 = 1335. el percentil 75 corresponde al rango (75)(15)/100 + 0.5 = 11.75. Luego, el percentil 75 es el valor [ x (11) + x (12) ] / 2 = [1800 + 1900] / 2 = 1850.
1.58. Ejemplo.

Los tiempos respectivos, en minutos, que 10 personas demoran en ir de A a B son: 81 77 76 86 79 79 80 89 77 78 85 76 88 78 83. Ordenando los datos:
76 76 77 77 78 78 79 79 80 81 83 85 86 88 89

La mediana es el valor cuyo rango es 15/2 +0.5 = 8. Luego, la mediana es x (8) = 79 . El primer y tercer cuartil corresponden a los valores cuyos rangos son: 15/4 + 0.5 = 4.25 y 15(3/4) + 0.5 = 11.75. Como los rangos no son enteros el primer y tercer cuartil se aproximan con: [ x ( 4 ) + x (5) ] / 2 = 77.5 y [ x (11) + x (12 ) ] / 2 = 84.5 . Utilizando los percentiles es posible formar intervalos cuyas longitudes suelen considerarse como ndices de dispersin de los datos. El intervalo que ms se usa es el que tiene como extremos el primer y tercer cuartil; la longitud de ste se llama rango intercuartil. En el ejemplo, el rango intercuartil es 84.50 - 77.50 = 7.00. Las ventajas del rango intercuartil, como medida de dispersin, son: la rapidez en su clculo y la resistencia ante fluctuaciones de los datos extremos. Un dato extremo puede cambiar sensiblemente pero no el rango intercuartil.

.V

iz

62. Estadstica Descriptiva.

Carlos Vliz Capuay

Clculo de los percentiles para datos agrupados.


A partir de una tabla de frecuencias, obtenida por el mtodo de intervalos de clase, para aproximar el percentil Ck se sigue un procedimiento anlogo al que se realiz para aproximar la mediana, si se tiene en cuenta que debajo de ste existe k% de los datos, aproximadamente,
1. Se ubica el intervalo [a, b[ en donde est el percentil Ck . 2. El valor del percentil es, aproximadamente,

Ck a + (b a )

( k / 100) Fa , Fb Fa

en donde Fa es la frecuencia relativa hasta el valor a , mientras que Fb es la frecuencia relativa hasta b.
1.59. Ejemplo.

A continuacin se presenta la distribucin de las puntuaciones en un examen del idioma ingls de 65 alumnos. En forma aproximada, calcular el intercuartil.
Puntuaciones [50, 55[ [55, 60[ [60, 65[ [65, 70[ [70, 75[ [75, 80[ [80, 85[ [85, 90[ [90, 95[ [95, 100] Ni 1 2 3 2 8 9 7 16 11 6 fi 0.0154 0.0307 0.0461 0.0307 0.1231 0.1385 0.1077 0.2461 0.1693 0.0923 Fi 0.0154 0.0461 0.0922 0.1229 0.2460 0.3845 0.4922 0.7383 0.9076 1.0000

Solucin. Aproximando el primer cuartil C25 y luego el tercer cuartil C75.

El primer cuartil est en el intervalo [75, 80[. Aplicando la expresin general para aproximar un percentil, se tiene

C25 75 + (5)

El tercer cuartil est en el intervalo [90, 95[, luego se tiene

0.2500 0.2460 = 751444 . . 0.3845 0.2460

.V

iz

Carlos Vliz Capuay

Estadstica Descriptiva. 63

C75 90 + (5)

0.7500 0.7383 = 90.3455. 0.9076 0.7383

El intercuartil es 90.3455 - 75.1444 = 15.2011, aproximadamente. Hay 50% de los alumnos que tienen puntuaciones entre 75.1444 y 90.3455.

MEDIDA DE ASIMETRIA: Sesgo de Pearson.


La asimetra de los grficos de distribuciones unimodales se mide con el sesgo de Pearson. Este ndice se calcula teniendo en cuenta que en este tipo de curvas la media aritmtica tiende a situarse, con respecto de la moda, al mismo lado de la cola ms larga. (Figura 1.23). Una medida para el sesgo se obtiene con la diferencia media - moda. Si la diferencia es positiva, la curva tiene una cola a la derecha; si la diferencia es cero la curva es simtrica; si la diferencia es negativa la curva tiene una cola a la izquierda. La medida obtenida depende de las unidades que en cada caso se usen, por ello para comparar la simetra de dos o ms curvas es necesario estandarizar los sesgos, obtenindose la medida que se conoce como el sesgo de Pearson:

C
Figura 1.23.

.V
x
Mx 0

l
x
M 0
M 0 x

En distribuciones que no son muy asimtricas se cumple la relacin emprica


Moda x 3( x Mediana ) .

Usando esta relacin, el sesgo de Pearson se aproxima con

iz

Media Moda Desv. est .

64. Estadstica Descriptiva.

Carlos Vliz Capuay

Sesgo de Pearson

3( Media Mediana ) . Desv. estd .

Esta aproximacin es ms fcil de calcular y como en el caso anterior, es igual a cero cuando la curva de distribucin es simtrica. Si este valor es positivo, la curva de distribucin tiene una cola a la derecha y si es negativo la curva de distribucin tiene una cola a la izquierda. La asimetra o simetra del polgono de frecuencias suele tambin calcularse con

A=
|

C75 + C25 2C50 . C75 C25


| |

25

50

75

Figura 1.24.

Como C75 + C25 2 C50 = ( C 75 C50 ) ( C50 C25 ) , se puede indicar que el polgono de frecuencias es * simtrico, si C75 + C 25 2 C50 = 0, (las longitudes de los intervalos [ C 25 , C50 ] y [ C50 , C 75 ] deben ser iguales). Esto es, si A = 0.

* asimtrico, con cola a la izquierda, si C 75 + C 25 2 C50 < 0. Esto es, si A < 0.


NOTAS.

1. A partir de un conjunto de datos cuyo polgono de frecuencias no es simtrico, se puede lograr un nuevo conjunto de datos cuyo polgono de frecuencias si es simtrico. Para ello se eleva cada dato a una determinada potencia positiva, tal como 1/2, 1/3 o aplicando el logaritmo. La eleccin de la potencia adecuada puede lograrse, en primera instancia, por ensayo y luego, con ayuda del histograma, observar si se ha cumplido el objetivo. 2. Otra medida de la asimetra es el coeficiente de Fisher que se define como
1 =
3 s3

en donde = 3

1 n ( x x ) 3 y s es la desviacin estndar de x1 , ..., x n . n i =1 i

.V

iz

* asimtrico, con cola a la derecha, si C75 + C25 2 C50 > 0. Esto es, si A > 0.

Carlos Vliz Capuay

Estadstica Descriptiva. 65

El coeficiente de Fisher no tiene dimensin y es igual a 0 cuando la distribucin es simtrica. Si la distribucin es unimodal, el coeficiente de Fisher es positivo si sta es asimtrica con cola a la derecha y es negativo en el caso contrario.

MEDIDA DE APUNTAMIENTO O AGUDEZA: Curtosis.


El coeficiente de curtosis de un grupo de datos, es una medida del apuntamiento o aplastamiento de su polgono de frecuencias; se define como
k=
( 0.5)( C75 C 25 ) , C90 C10

en donde C75 es el percentil 75, etc.


Cuando el coeficiente de curtosis tiende a 0.5; esto es, si las diferencia C75 C25 y C90 C10 son aproximadamente iguales, la curva se llama leptocrtica. Si el coeficiente de curtosis tiende a 0; esto es, cuando la diferencia C75 C25 es pequea, respecto de C90 C10 , la curva se llama platicrtica. Si el coeficiente de curtosis es aproximadamente 0.25; esto es, si C90 C10 es aproximadamente el doble de C75 C25 , la curva se llama mesocrtica.
Leptocrtica.
M e s o c rtic a

NOTA.

Otra medida de la curtosis es el coeficiente de apuntamiento de Fisher que se define como 2 = 4


s4

Figura 1.25.

1 n en donde = ( x x ) 4 y s es la desviacin estndar de x1 ,... , x n . 4 n i =1 i Este es un coeficiente sin dimensin. La constante 3 se elige de tal manera que el coeficiente sea nulo cuando la distribucin sea mesocrtica.

.V
3

iz
P la tic rtic a

66. Estadstica Descriptiva.

Carlos Vliz Capuay

El coeficiente de apuntamiento de Fisher es positivo cuando la distribucin es leptocrtica y negativo cuando la distribucin es platicrtica.

GRAFICOS DE CAJAS. (Box Plots).


En los grficos de cajas se representan: la mediana y los cuartiles, permitiendo tener una idea de la dispersin de los datos. Un grfico de cajas es un rectngulo, como el de la siguiente figura,

|
| | | |

|
|

25

75

Figura 1.26.

en donde los lados "laterales" indican los percentiles C25 y C75, respectivamente. En el rectngulo se indica la mediana, con un segmento. De los lados que representan a los . d, percentiles 25 y 75 parten, respectivamente, un segmento hasta el valor L = C25 15 en donde d es el rango intercuartil y un segmento hasta el valor U = C75 + 15 . d. De un grfico de cajas se obtiene informacin acerca de:

La simetra (observando la posicin de la mediana). La longitud de las "colas" (con los segmentos que parten de los lados laterales).

En muchos casos, observaciones inconsistentes son incluidas en un conjunto de datos. Estas observaciones atpicas o discordantes se conocen con el nombre de "outliers" (en el idioma ingls). Un "outlier" aparece generalmente debido a las siguientes causas: a) Por observacin incorrecta, por anotacin incorrecta o por introduccin incorrecta del dato al computador. b) Porque la observacin es de una poblacin diferente a la poblacin de la cual viene el resto de las observaciones.

La dispersin (con el rango intercuartil C75 - C25).

.V

La centralizacin de los datos (con la mediana).

iz

Carlos Vliz Capuay

Estadstica Descriptiva. 67

c) Porque la medida es correcta pero el evento es raro. Una regla prctica indica que una observacin es outlier si es menor que L o mayor que U. Las observaciones de este tipo se representan en el grfico con *.
1.60. Ejemplo.

La siguiente figura representa un grfico de cajas correspondiente a 58 notas de los alumnos de un curso de Historia.

2
|

12

18
|

* 19

*
|

0 Notas

20

Figura 1.27.

Se observa que el "centro" de los datos es 9 (la mediana). El percentil 25 es 8, el percentil 75 es 12. El rango intercuartil es 4 (el 50% de las notas estn entre 9 y 14). Las notas 19 y 20 son datos discordantes o outliers. Los grficos de cajas se usan para comparar la dispersin de dos o ms grupos de datos, cuando stos estn expresados en la misma unidad de medida. Tal caso se presenta en la siguiente representacin, en donde se nota, por ejemplo, que el grupo B tiene un outlier que es mayor que el outlier que se presenta en A. En el grupo A hay mayor dispersin que en el grupo B. El grupo B es ms simtrico que el grupo A. El grupo A tiene una cola a la izquierda.
Grupo A

Grupo B

C
| 40 | 60 | 80 | 100

.V
*

| 0

| 20

Figura 1. 28.

1.9. CARACTERISTICAS DE CONCENTRACION: Indice de Gini.


Para medir la manera como estn concentrados los salarios o la riqueza, en distintos grupos de una poblacin se usa el ndice de concentracin de Gini.

l
* | 120

iz
| 140

68. Estadstica Descriptiva.

Carlos Vliz Capuay

Para establecer el ndice de concentracin de Gini, consideremos la siguiente tabla, en donde se observa la distribucin de 58058 obreros de acuerdo a su salario. En esta tabla, ni es la frecuencia en cada intervalo de clase, Fi es la frecuencia acumulada relativa. La columna indicada con Si expresa la suma total de los ni sueldos que se encuentran en el respectivo intervalo y la columna indicada con qi expresa la proporcin de la masa total monetaria que han ganado los n1 + n2 + ... + ni primeros obreros. Esto es,
i

qi =

j =1

Si
S

en donde S es el total de masa monetaria ganada por todos los obreros.


DISTRIBUCION DE 58058 OBREROS DE ACUERDO A SUS SALARIOS.
inter.de clase [100, 120[ [120, 130[ [130, 140[ [140, 150[ [150, 160[ [160, 170[ [170, 180[ [180, 190[ [190, 200] Total Ni 2413 4342 8642 13300 14500 10200 4093 443 125 58058 Fi 0.0416 0.1164 0.2652 0.4942 0.7440 0.9196 0.9901 0.9978 1.0000 Si 253365 525382 1192596 1888600 2276500 1652400 732647 81955 24875 qi 0.0293 0.0903 0.2284 0.4473 0.7112 0.9027 0.9876 0.9971 1.0000

En la tabla podemos leer, por ejemplo, que el 49.42% de los trabajadores reciben el 44.73% de la masa total de los salarios de los 58058 trabajadores, que el 74.40% de los trabajadores perciben el 71.12% del total de los salarios, etc. Uniendo los puntos (qi , Fi) se obtiene la curva de concentracin de Lorenz, que en la siguiente figura se indica.

en donde S es el total de masa monetaria ganada por todos los obreros.

.V

l
8628320

iz

Carlos Vliz Capuay

Estadstica Descriptiva. 69

F F i

i
A

Curva de Lorenz
F i-1

q i -1 1
Figura 1.29.

El ndice de concentracin de Gini, se define como el doble del rea de la regin comprendida entre la curva de concentracin de Lorenz y la bisectriz principal.
OBSERVACIONES

1. El ndice de Gini es un valor comprendido entre 0 y 1. 2. El mnimo valor del ndice de Gini es igual a 0 y se obtiene cuando todos los grupos, se reparten por igual la masa monetaria. 3. Si un grupo, digamos el primero, gana toda la masa monetaria, se demuestra que el ndice de Gini es igual a 1. Lo anterior indica que si la curva de concentracin tiende a los lados del rectngulo, existe una "fuerte concentracin"; un alto porcentaje de los asalariados se reparte una pequea parte de los salarios mientras que un pequeo porcentaje de ellos se reparte casi la masa total de los salarios. Si la curva de concentracin tiende a la bisectriz del cuadrado se dice que existe "una concentracin dbil"; el ndice de Gini tiende a 0 y los salarios son casi idnticos para toda la masa de trabajadores. Una expresin aproximada del ndice de Gini, se encuentra aproximando el rea A de la regin comprendida entre la bisectriz y la curva de concentracin. Se tiene que
Area A 0.5 Luego,

Indice de Gini = 2(Area A) 1 - [ ( q i + q i 1 )( Fi Fi 1 )]


Para los datos registrados en la tabla de distribucin de los 58058 obreros, el ndice de Gini es igual a 0.4399. La concentracin de los salarios es baja.

[ 0.5( q i + qi 1 )( Fi Fi 1 )] .

.V

iz

70. Estadstica Descriptiva.

Carlos Vliz Capuay

1.10. EJERCICIOS .
1.- Calcular la media, la mediana y la moda de los datos 2 5 5 6 6 6 7 7 60. Comentar los resultados . Cul de las medidas calculadas describe mejor el centro de la distribucin de los datos?. Rpta. x = 115555 . , M 0 = 6, M e = 6. 2. El siguiente conjunto de datos, corresponde a los porcentajes de humedad en diferentes lugares en una determinada regin: 90 63 20 18 12 60 24 28 14 11 85 29 25 8 10 86 16 25 6 11 80 16 20 16 6. a) Calcular la media y la desviacin estndar s b) Qu porcentaje de datos est en el intervalo [ x 2 s , x + 2 s ] ?. Rpta. a) x = 311600 . s' = 27.2597 . 3. A continuacin se presenta la distribucin de 53 tiendas de abarrotes de acuerdo al nmero de empleados que tienen. Nm. de emplead. 2 3 4 5 Nm. de tiendas 11 16 17 9

Usar la informacin de la tabla para calcular la media, la mediana y la desviacin estndar del nmero de empleados. 4. Los siguientes resultados indican el rendimiento de dos marcas de llantas: Llanta A B Mediana, en Km.. 25000 27000

iz

Si las llantas de cualquier marca se venden al mismo precio, qu marca de llanta se recomienda?.

400 392 358 304 108 156 438 60 360 168 448 224 576 384 194 216 120 208 232 72 264 168 128 256 72 136 168 308 340 64 480 114 80 246 224 184 104 112 184 152 152 536 224 464 72 152 168 288 264 208. a) A partir de la tabla de frecuencias, construir el histograma de frecuencias relativas. Graficar el polgono de frecuencias relativas. Indicar las caractersticas de la distribucin. b) Calcular la media, varianza, desviacin estndar y el coeficiente de variacin de los datos. c) Calcular la mediana, utilizando directamente los datos y utilizando la ojiva de la frecuencia acumulada relativa. d) Calcular los percentiles C10, C20, C75, y C90. 6. Se informa que en el saln B las notas de Historia de los alumnos que lo forman se distribuyen tal como lo indica la siguiente tabla y en donde fi son las frecuencias relativas

5. Los datos siguientes corresponden al tiempo, en minutos, que demora una oficina "en darle trmite" a 50 documentos que ha recibido.

.V

Media en Km. 27000 25000

Carlos Vliz Capuay

Estadstica Descriptiva. 71

Notas [8, 12[ [12, 16[ [16, 20]

fi f1 f2 f3

Calcular aproximadamente la media de las notas en B si el 45% tiene una nota inferior a 11 y el 70% tienen una nota inferior a 17. Rpta. Los valores respectivos de las frecuencias relativas son 0.60, 0 y 0.4. La media es 13.2 7. Indicar una lista de 10 nmeros de forma que la desviacin estndar sea lo ms grande posible con la condicin de que: a) cada nmero sea un 1 o un 5. b) cada nmero sea un 1 o un 5 o un 9 y, a lo ms, dos de ellos sean 5. 8. Un investigador toma una muestra de 100 hombres cuyas edades estn comprendidas entre 18 y 24 aos de edad en una ciudad determinada. Otro investigador toma una muestra de 1000 hombres cuyas edades tambin estn entre 18 y 24 aos. a) Habr una muestra con una media mayor que la media de la otra muestra o sern ambas parecidas?. b) Habr una muestra con una desviacin estndar mayor o sern ambas parecidas?. 9. Tres profesores estn comparando las notas de los exmenes finales que han realizado. Cada profesor tiene 99 alumnos. En la clase A, un estudiante obtuvo 1 punto, otro obtuvo 99 puntos, y el resto obtuvieron 50 puntos. En la clase B, 49 estudiantes lograron una puntuacin de 1, un estudiante logr 50 puntos y 49 alumnos llegaron a los 99 puntos. En la clase C, un estudiante logr 1 punto, otro estudiante 2 puntos, otro estudiante 3 puntos y as sucesivamente hasta llegar el estudiante nmero 99 que logr los 99 puntos.

a) La media es 2 y la desviacin estndar es 0. Cmo es el conjunto de datos exactamente?. b) La desviacin estndar es 1. Cmo es el conjunto exactamente?. c) Puede ser la desviacin estndar superior a 1?. 12. Un profesor est haciendo a sus alumnos un examen que tiene una calificacin mxima de 20 puntos. Su sistema es tal, que las notas deben ser necesariamente mltiplos de 5. Al final, una vez corregidos los exmenes obtiene la siguiente distribucin de notas. 40% obtuvieron la nota 20, 30% obtuvieron 15, 20% obtuvieron 10 y 10% obtuvieron 5. a) Si se supone que hay 20 alumnos, se puede hallar la media y la desviacin estndar?. b) Si no se sabe el nmero de alumnos, se puede calcular la media y la desviacin estndar?. 13. La reparticin de un grupo de 75 alumnos de un colegio de acuerdo a su talla en cm, es como se indica en la siguiente tabla. a) Graficar la frecuencia relativa y la frecuencia acumulada relativa.

11. Un conjunto est formado por 10 nmeros. Cada nmero es: o el 1, o el 2 o el 3.

.V

10. En un conjunto de nmeros positivos, puede ser mayor la desviacin estndar que la media en alguna ocasin?.

iz

a) Existe alguna clase que tenga una media de notas superior a las dems o todas las medias son iguales?. b) Existe alguna clase que tenga una desviacin estndar de notas superior a las dems o todas las desviaciones estndar son iguales?.

72. Estadstica Descriptiva.

Carlos Vliz Capuay

b) Usar las marcas de clase para aproximar la media, la mediana y la desviacin estndar. Talla [80, 85[ [85, 90[ [90, 95[ [95, 100[ [100, 105[ [105, 110] Frecuencia 4 14 23 17 11 6

14. A continuacin se presenta la distribucin de los tiempos totales, en minutos, que diferentes estaciones de radio dedican a los avisos comerciales entre las 8:00 a. m. y las 12:00 m. Tiempo [0.5, 6.5[ [6.5, 12.5[ [12.5, 18.5[ [18.5, 24.5[ [24.5, 30.5[ [30.5, 36.5[ [36.5, 42.5[ [42.5, 48.5[ [48.5, 54.5[ [54.5, 60.5] # radios 1 3 18 2 1 10 0 0 2 14

C
Notas [8, 10[ [10, 12[ [12, 14]

15. Los 100 alumnos de una seccin A se distribuyen de acuerdo a sus notas de Historia tal como indica la siguiente tabla (ni indica la frecuencia). ni 28 50 22

De manera aproximada, calcular la nota debajo de la cual est el 40% de las notas. Tambin calcular, aproximadamente, la mediana. Rpta. El percentil 40 es 10.48. 16. Se encontr que en 800 datos la media aritmtica y la desviacin estndar eran 9.496 y 0.345, respectivamente. Una revisin de los resultados mostr que en lugar del valor 9.56 se introdujo 1.56. Recalcular la media aritmtica y la desviacin estndar. Rpta. 9.506, 0.200. 17. Calcular la media de un grupo de 80 datos que ha sido dividido en tres subgrupos: A, B y C, para los cuales se tienen las medias y el nmero de datos correspondiente:

.V

a) Usar las marcas de clase para aproximar la media y la desviacin estndar del tiempo que las estaciones de radio dedican a los avisos comerciales entre las 8:00 a.m. y las 12:00 m. b) Calcular el porcentaje de tiempos de avisos comerciales que estn en el intervalo [ x 3s , x + 3s ] . c) Calcular la mediana, utilizando la ojiva de la frecuencia acumulada relativa.

iz

Carlos Vliz Capuay

Estadstica Descriptiva. 73

x A = 50, N A = #( A) = 10, x B = 80, N B = #( B) = 20 y xC = 60, N C = #(C ) = 50. Rpta. 63.75. 18. Aplicando las propiedades de la media, probar que si x1, ... , xm , es un conjunto de datos cuya media es x , entonces el conjunto de datos y1, ... , ym , obtenidos al realizar la transformacin yi = axi + b , donde a y b son constantes, tienen media y = ax + b. 19. Calcular la media y la desviacin estndar de un grupo de 30 datos que ha sido dividido en dos grupos: A y B, para los cuales se tiene:

x A = 50, N A = 10, s A = 5 y x B = 80, N B = 20, s B = 8. Rpta. La media es 70 y la desviacin estndar, 15.84.


20. El 70% del personal de una compaa son varones y el resto, mujeres. El promedio de los sueldos de los varones es $ 700 y el promedio en el grupo de mujeres es $ 600. Hallar el sueldo promedio del personal de la compaa. 21. La media y la varianza de los tiempos x1,..., xn utilizados en realizar n tareas similares son 14 y 2.89, respectivamente. El costo por realizar cada tarea es yi = 20 + 0.5xi + 0.1xi2 , hallar la media de los costos. 22. En una empresa pblica el promedio de los sueldos de los obreros es 40 unidades monetarias (u.m.) y el de los empleados, 50 u.m. Si la empresa decide aumentar 20 u.m. a cada empleado y obrero; hallar el promedio general de los sueldos actuales (considerando el aumento) si el nmero de obreros es el 10% del nmero de empleados. Rpta. 69.09. 23. Durante el mes de marzo el sueldo promedio de los trabajadores del sector industrial era de $100. Para el mes de abril se considera para cada trabajador un aumento del 30%, con respecto del mes de marzo ms un adicional de $50. Si el coeficiente de variacin en marzo era de 0.25, se puede decir que la distribucin de sueldos en abril es ms homognea?. Rpta. Si, el nuevo coeficiente de variacin es 0.1805. 24. En el mes de enero, el promedio de los salarios de los empleados de una empresa era 40 u.m.; en el mes de febrero, la empresa consider un incremento del 25% en el nmero de empleados y con un salario igual al 80% del promedio de los salarios de los antiguos empleados. En el mes de marzo, la empresa hizo efectivo un aumento del 25% en el salario de cada uno de los empleados, ms una asignacin de 20 u.m. por escolaridad. Hallar el sueldo promedio de los salarios de los empleados en el mes de marzo. 25. El coeficiente de variacin de un grupo de datos es 0.1. Si a cada dato se le aumenta primero el 20% de su valor y luego 5 unidades, el coeficiente de variacin es igual a 0.05. Halle el valor de la media y la varianza de los datos originales. Halle el valor de la media y de la varianza despus del aumento. Rpta. La media y la desviacin estndar originales son: 4.1666, 0.4166. 26. El tiempo que 30 operarios demoraron en ejecutar una tarea fue registrado en minutos, obtenindose: 7.0 9.0 11.4 7.2 10.2 13.5 17.0 14.0 14.5 8.0 9.1 9.4 13.1 8.5 10.4 15.5 12.0 11.0 11.2 9.6 9.2 9.5 15.6 8.4 10.8 13.0 12.5 12.4 10.5 7.8. Construir una distribucin de frecuencias con cinco intervalos de igual longitud y a partir de sta estudiar, usando medidas estadsticas adecuadas las siguientes afirmaciones: a) Calculando una medida central representativa para esta distribucin, se deduce que el tiempo promedio de ejecucin de la tarea por operario llega a superar los 11 minutos. b) La mitad de los operarios no demor ms de 10.8 minutos.

.V

iz

74. Estadstica Descriptiva.

Carlos Vliz Capuay

c) Un operario cualquiera nunca demor un tiempo que excedi al tiempo medio en ms de dos desviaciones estndar. Si se eligiera al azar a uno de los operarios y se deseara predecir el tiempo en que ste ejecut la tarea, de tal manera que el promedio de los cuadrados de los errores fuera mnimo, cul sera el valor de prediccin?. Si se eligiera al azar a uno de los operarios y se deseara predecir el tiempo en que ste ejecut la tarea, de tal manera que el promedio de los de los errores en valor absoluto fuera mnimo, cul sera el valor de prediccin?. 27. La distribucin de mujeres cuyas edades fluctan entre 40 y 50 aos, de acuerdo al nmero de hijos en las comunidades A y B es como se indica en la siguiente tabla. Nmero de mujeres Nmero hijos 0 1 2 3 4 A 6 9 23 28 22 B 8 15 20 15 10

Comparar las distribuciones en A y B usando las medias y los coeficientes de variacin. a) Las mujeres, de qu comunidad, tienen el mayor promedio de hijos?. b) Para que comunidad, la distribucin del nmero de hijos es ms homognea?. 28. En un grupo de datos, el 1 se repite el 25% de las veces y el 2 se repite el 75% restante. Para tal grupo, hallar el valor a que hace que la suma (1 a ) 2 + ... + (1 a ) 2 + (2 a ) 2 + ... + (2 a ) 2 , sea mnima.

Rpta. 1.75
29. Las ciudades A, B, y C (en ese orden) estn unidas en lnea recta por una carretera. La distancia entre las ciudades A y B es 4 km, mientras que entre B y C la distancia es 5 km. Se desea construir un centro de recreo en un punto de la carretera para un total de 200 nios distribuidos de la siguiente manera: 25% de los nios viven en A, 35% de los nios viven en B y el resto vive en C. Cul debe ser la ubicacin del centro de recreo si se considera que el costo de transporte por cada nio es proporcional a la distancia recorrida y el costo total al transportar a todos los nios debe ser mnima?. Rpta. La respuesta corresponde a la mediana de los valores: 0, repetido 50 veces, 4 repetido 70 veces y 9 repetido 50 veces. 30. Usando los datos del ejercicio 5, calcular los percentiles 10, 20, 50 y 75. 31. Usando los datos de la tabla del ejercicio 8, calcular aproximadamente el intercuartil. 32. Durante cuatro aos consecutivos un banco aument su capital en 100%, 150%, 300% y 400%. Indicar la tasa de aumento promedio del capital si al inicio fue 50 millones de dlares. 33. El aumento de la tasa de cambio en el pas durante las cuatro semanas del mes de Junio y con respecto a la semana anterior fue como sigue: 1%, 2%, 3%, y 2%. Calcular, usando la media geomtrica, el aumento promedio de la tasa de cambio. Rpta. El aumento promedio de la tasa de cambio es 1.9975%.

.V

iz

Carlos Vliz Capuay

Estadstica Descriptiva. 75

34. Determinar la tasa de crecimiento promedio de la poblacin en los ltimos tres aos si en 1992 la poblacin fue 18000000, en 1993 fue 2000000 y en 1994 fue 25500000. Indicar por qu la media aritmtica no es adecuada para indicar el cambio promedio de crecimiento. 35. La velocidad con que escriben tres personas el mismo texto es 60, 70 y 65 palabras por minuto, respectivamente. Calcular la velocidad promedio. Rpta. 64.74 palabras por minuto. 36. En la siguiente tabla se registran: el tiempo que emplean 5 obreros en fabricar un artculo as como el tiempo total trabajado por cada uno de ellos. Calcular el tiempo promedio que se utiliza en fabricar un artculo. Obreros 1 2 3 4 5 Tiempo total trab. en minuto. 480 480 480 480 240 Tiempo. usado por artculo en minuto. 0.80 1.00 1.20 1.20 1.50

37. Dos alumnos desarrollaron, cada uno, una prueba que tena 40 "tems". El primero hizo una pregunta cada 2 minutos y el segundo una pregunta cada 2.5 minutos. Calcular el promedio de preguntas desarrolladas cada 5 minutos. Rpta. 2.22 preguntas cada 5 minutos. 38. Una propiedad importante de la media dice que si x1,..., xn tienen media x y si y = f ( x ) es una 1 n funcin cncava hacia abajo entonces f ( x ) f ( xi ) (Desigualdad de Jensen). n i =1 Usando la desigualdad de Jensen, probar que G x , en donde G es la media geomtrica de los datos. 39. Para los datos del ejercicio 5, hallar el sesgo y el coeficiente de curtosis. A qu tipo de curva corresponde?. 40. El ndice de Gini puede usarse tambin para analizar la concentracin de la poblacin de una determinada regin. A partir de la siguiente informacin, analizar la concentracin de la poblacin. Habitantes [500, 1000[ [1000, 1500[ [1500, 2000[ [2000, 2500[ [2500, 3000[ [3000, 3500[

.V
Nmero de distritos 320 130 110 80 30 10

iz

Poblacin total 192000 143000 187000 192000 79500 34500

Vous aimerez peut-être aussi