Vous êtes sur la page 1sur 29

ESTADSTICA DESCRIPTIVA

1





INTRODUCCIN

Definicin de estadstica: es la ciencia que trata de la recoleccin, presentacin, anlisis y uso de
datos para la toma decisiones.

Cuando escuchamos la palabra estadstica, inmediatamente nos imaginamos cosas como:
promedios de bateo, ndices de accidentes, tasas de mortalidad, etc., la historia del desarrollo de la
teora estadstica y su prctica es larga; mucha gente a contribuido al estudio de la estadstica con
refinamientos e innovaciones, que en conjunto constituyen la base terica de lo que se conoce como
estadstica.

Ramas de la Estadstica:

La estadstica puede presentarse en diferentes niveles de dificultad matemtica y puede estar
dirigida hacia varias aplicaciones en distintos campos de la investigacin.

La estadstica para su estudio se divide en dos ramas:

Descriptiva:

Incluye las tcnicas que se relacionan con el resumen y la descripcin de datos numricos, grficas,
tablas y diagramas que muestran los datos y facilitan su interpretacin.

Inferencial:

Se sirve de los resultados de la estadstica descriptiva, para usar tcnicas por medio de las cuales
se toman decisiones sobre una poblacin estadstica basada en una muestra.

- Estadstica Descriptiva.
o Definicin de estadstica descriptiva.

Es la rama de la estadstica que trata con la organizacin, el resumen y la presentacin de los datos;
la moderna tecnologa de las computadoras, en particular las grficas por computadora, han
ampliado en forma considerable el campo de la estadstica descriptiva; las tcnicas de la estadstica
descriptiva pueden aplicarse ya sea a poblaciones enteras o a muestras, tambin utiliza las tablas y
grficas para la presentacin de los datos de una forma lgica y ordenada.


ESTADSTICA DESCRIPTIVA


2
Recopilacin de datos

En general, la estadstica esta ligada con el mtodo cientfico para realizar la recopilacin,
organizacin, resumen, presentacin y anlisis de datos, con dos objetos bien definidos.

- El establecimiento de descripciones, conclusiones e inferencias y
- La toma de decisiones de acuerdo con el mencionado anlisis.

Definicin de poblacin, muestra y muestra aleatoria.

a) Poblacin:

Es una coleccin de todos los elementos que estamos estudiando y acerca de los cuales intentamos
establecer conclusiones.

b) Muestra:

Es una coleccin de algunos de los elementos que componen una poblacin.

c) Muestra aleatoria:

Es una muestra al azar, para que se considere propia y representativa de la poblacin, deber ser al
azar.

LLENA EL SIGUIENTE CUADRO RESUMEN CON LOS DIFERENTES TIPOS DE MUESTREO
ALEATORIO.

TIPO DE
MUESTREO
CARACTERSTICAS VENTAJAS DESVENTAJAS USOS
SIMPLE






ESTRATIFICADO






Mejores
estimaciones
que el simple

CONGLOMERADOS





Costos
reducidos.
Simplificacin
de trabajo de
campo y
Resultados
menos exactos
en el muestreo
aleatorio con el
mismo tamao
Los estudios
son a gran
escala
ESTADSTICA DESCRIPTIVA


3
admistartivo de muestra
SISTEMTICO






Organiza

Una vez recopilados los datos numricos podemos organizarlos para que su anlisis sea ms expedito.
Una manera de organizarlos es utilizando el diagrama de tallos y hojas.

Una tcnica para organizar informacin cuantitativa en forma condensada es el Diagrama de tallos y
hojas este diagrama permite identificar a cada observacin.

En donde el tallo es el o los dgitos principales y las hojas son los dgitos secundarios, el tallo se coloca
a la izquierda de una lnea vertical y los valores de las hojas a la derecha.

En este diagrama no se pierden los datos originales. Es recomendable no elegir menos de 5 ni ms de
20 tallos.

El diagrama puede elaborarse de dos maneras: Con los tallos sencillos y con tallos codificados.

Ejemplo:

El director de produccin de una empresa de telares, es responsable de la fabricacin de alfombras en
ms de 500 telares. Para no tener que medir la productividad diaria (en metros) de cada telar, toma una
muestra diaria de 50 telares de las 500 mquinas.

En la siguiente tabla se presenta la produccin en metros de cada uno de los 50 telares, stas
cantidades son datos sin procesar desde los cuales el director de produccin puede llegar a una
conclusin que abarque la totalidad de los telares en su desempeo del da anterior.

14.2 15.4 16.0 16.6 17.9 15.8 17.0 16.9 16.9 16.8
15.7 16.4 15.2 15.8 15.9 16.1 15.6 15.9 15.6 16.0
16.4 15.8 17.7 16.2 15.6 14.9 16.3 16.3 16.0 17.3
15.0 16.3 14.6 16.8 16.5 15.3 16.1 15.4 15.8 16.2
16.9 14.0 15.2 15.3 16.7 16.8 15.1 16.2 15.6 15.8


De acuerdo con los datos de la tabla de arriba el nmero mnimo de produccin en metros es de 14.2,
as el primer valor del tallo es 14. El nmero mximo es de 17.9 entonces los tallos comienzan desde 14
y continan hasta 17. El primer valor de la tabla es 14.2, el cual tendr un valor de tallo de 14 y un valor
de hoja 2, el segundo valor es 15.7 el cual tendr un valor de tallo de 15 y un valor de hoja 7.
Al organizar cada uno delos datos de igual forma el diagrama de tallos y hojas queda:




ESTADSTICA DESCRIPTIVA


4
Tallos sencillos

Tallos (dgitos
Primarios)
Hojas ( dgitos derivados)
frecuencia
14. 2,9,6,0 4
15. 4,8,7,2,8,9,6,9,6,8,6,0,3,4,8,2,3,1,6,8. 20
16. 0,6,8,9,8,4,1,0,4,2,3,3,0,3,8,5,1,2,9,7,8,2 22
17. 9,0,7,3. 4


Tallos codificados

El diagrama de tallos y hojas anterior contiene solo cuatro troncos y, en consecuencia, no proporciona
facilidad para trabajar los datos. Para evitar ese problema, se necesita incrementar el nmero de troncos
en la tabla; el nmero adecuado de intervalos debe ser de 5 a 20 intervalos.

Tallos (dgitos Primarios) Hojas (dgitos derivados) frecuencia
14. 2,0. 2
14. * 9,6. 2
15. 4,2,0,3,4,2,3,1. 8
15. * 8,7,8,9,6,9,6,8,6,8,6,8. 12
16. 0,4,1,0,4,2,3,3,0,3,1,2,2. 13
16. * 6,8,9,8,8,5,9,7,8. 9
17. 0,3, 2
17. * 9,7. 2

Note que cada uno de los tallos se dividi en dos partes.

El primero para los dgitos unitarios inferiores ( 0,1,2,3,4)
El segundo para los dgitos unitarios superiores ( 5,6,7,8,9) representado por un *.

Dado que los datos anteriores son proporcionados en bruto (es decir, en el orden en que
aparecen), hace falta ordenarlos de manera ascendente:

Tallos ( dgitos Primarios) Hojas (dgitos derivados)
14. 0,2.
14. * 6,9.
15. 0,1,2,2,3,3,4,4.
15. * 6,6,6,6,7,8,8,8,8,8,9,9.
16. 0,0,0,1,1,2,2,2,3,3,3,4,4.
16. * 5,6,7,8,8,8,8,9,9.
17. 0,3.
17. * 7,9.

De esta manera puede observarse con mayor facilidad la forma en que estn distribuidos los datos.


Diagrama de tallos y hojas MINITAB
ESTADSTICA DESCRIPTIVA


5

Resumen de Datos
Para describir los datos necesitamos resumimos en medidas de tendencia central, de dispersin, de
apuntalamiento, de posicionamiento o de sesgo.
Para encontrar estas medidas podemos tratar a los datos como datos no agrupados o datos
agrupados.
Existen dos criterios para optar por datos no agrupados.
Optamos por datos no agrupados cuando:

- Las caractersticas individuales (el peso de cada observacin) se vea reflejado en el
resumen de los datos.
- El nmero de datos es pequeo, estadsticamente n 30.

Definicin datos no agrupados:

Son datos no agrupados cuando se consideran y analizan todos los valores observados tal como se
obtuvieron.

Ventajas:

Resulta ms fcil y rpido trabajar con los datos no agrupados.

Desventajas:

Solo se puede aplicar en pequeas cantidades de datos, ya que en grandes cantidades resultara un
tanto tedioso y por lo mismo existira ms probabilidad de equivocarse.

Definicin Datos agrupados

Son datos que estn organizados (formando grupos). Podemos formar ms o menos grupos,
dependiendo de que tan exacto queramos trabajar, a cada grupo le llamamos clase. Rara vez se
emplean menos de seis clases o ms de quince. La restriccin para agrupar es que todas las clases
tengan la misma amplitud.

Ventajas:

- Facilidad y rapidez al manejo de datos.
- Se notan rpidamente el valor mayor y el valor menor de los datos
- Se puede dividir fcilmente los datos en secciones.
ESTADSTICA DESCRIPTIVA


6
- Se puede observar si algn valor aparece ms de una vez en el ordenamiento.
Desventajas:

- Las caractersticas individuales de los datos no son tomadas en cuenta
- Cuando los clculos son a mano resulta complicado, y es necesario utilizar algn software.
El anlisis descriptivo de la informacin para Datos no agrupados

Medidas de tendencia central

Las medidas de tendencia central se utilizan para indicar un valor que tiende a tipificar o a
ser el ms representativo de un conjunto de nmeros. Las tres medidas de tendencia central que
ms comnmente se emplean son: la media, la mediana y la moda.

Media: La media aritmtica es lo que viene a la mente de la mayora de las personas cuando se
menciona la palabra promedio, tambin se le denomina valor esperado o esperanza matemtica. La
media se calcula al sumar los valores de un conjunto y al dividir el valor de su suma entre el nmero
de valores del mismo.

La media aritmtica o promedio, se obtiene de la siguiente manera.

Media de la Muestra:
n
x
x
n
i

=
=
1
Media de la poblacin.
N
x

=


Ejemplo:

Considere 8 mediciones 5, 8, 8, 11, 11, 11, 14, 16.

5 . 10
8
84
8
16 14 11 11 11 8 8 5
= =
+ + + + + + +
= x


Mediana: La mediana representada por Md o P50, es el valor central de una serie cuando los
valores se ordenan segn su magnitud, y es aquel que divide a una serie de tal forma que 50% de
los valores son menores o iguales que l, y el 50% de los valores son mayores o iguales que l.

Si se ordena un conjunto de datos xi de manera ascendente, la ubicacin de la mediana puede
obtenerse mediante la siguiente frmula:

X
(1/2)(n+1)
el subndice indica la posicin del dato.


Para los datos del ejemplo anterior ordenados de 5 a 16, la mediana se ubica en la posicin:

ESTADSTICA DESCRIPTIVA


7
( ) ( ) 5 . 4 ) 9 ( 2 / 1 ) 1 8 ( 2 / 1
x x x = =
+


Esto quiere decir que el centro de los datos est a la mitad del dato 4 y el dato 5. Es decir, el valor
de la mediana los valores x4 y x5. Para el ejemplo, x4=11 y x5=11.

por lo tanto

11
2
11 11
2
~
5 4
=
+
=
+
=
x x
x

Moda: Se denota por M o Mo y es el valor que con ms frecuencia se presenta en un conjunto de
datos, es muy fcil de determinarlo, basta con observar detenidamente al conjunto de datos y ver
cul es el que ms se repite; sin embargo, no es muy til porque puede ocurrir que una distribucin
tenga dos o ms valores que se repitan con la misma frecuencia, en tal caso se tiene dos o mas
modas, tambin puede ocurrir que no exista ningn valor que se repita y entonces no habr moda.

En el ejemplo, el valor que se repite ms veces es el 11 que aparece 3 veces, por lo tanto:

Mo = 11

En este caso, se observa que los valores de la media, mediana y moda se encuentran muy
cercanos, incluso Mo x =
~
. Sin embargo, esto no siempre ocurre.


Comparacin entre la media, la mediana y la moda:


NOMBRE SMBOLO VENTAJAS DESVENTAJAS
Media
X
Refleja cada valor.
Es la ms usada en
anlisis estadsticos
Puede ser excesivamente
influenciada por valores
extremos.
Mediana
x
~

.Menos sensible a
valores extremos que
la media
Difcil de calcular si hay
muchos datos.
No tiene propiedades
algebraicas.
Moda Mo
Fcil de calcular.
Valor Tpico
Ms valores reunidos
en este punto que en
cualquier otro.
1. No se presta para el
anlisis estadstico.

Puede existir ms de una
moda o ninguna.

Medidas de dispersin

Las medidas de dispersin indican si los valores estn relativamente cercanos uno del otro o si se
encuentran dispersos, otra manera de interpretar las medidas de dispersin es si los valores de las
observaciones son homogneos.

ESTADSTICA DESCRIPTIVA


8
Las medidas de dispersin ms comunes son: rango (amplitud), desviacin media, varianza,
desviacin estndar y coeficiente de variacin. Todas estas medidas excepto el rango toman la
media como punto de referencia. En cada caso un valor cero indica que no hay dispersin y mientras
mayor sea el valor de estas medidas es mayor la dispersin de los datos.

Rango: Es la diferencia entre el valor mayor y menor del conjunto de datos.

mn mx
x x R Rango = =

Desviacin media: Es el promedio del valor absoluto de las desviaciones de los datos con respecto
a la media.

Para una poblacin: Para una muestra:

N
x
DM


n
x x
DM

=

Varianza:

Mide las diferencias entre los puntos observados y la media utilizando el artificio de elevar stos al
cuadrado para penalizar aquellos datos que se encuentran alejados de la media y suavizar las
diferencias de los datos que se encuentren prximos a la media.
La desviacin estndar presenta grandes ventajas sobre la varianza, pues sus unidades fsicas son
las mismas que las de las observaciones, mientras que las de la varianza son unidades fsicas
cuadradas.


Para una poblacin: Para una muestra:

( )
N
x


=
2
2

o
( )
1
2
2

=

n
x x
s

Por otra parte, la desviacin estndar es la ms usada en el anlisis estadstico.

Desviacin Estndar: Es la raz cuadrada positiva de la varianza.

Para una poblacin: Para una muestra:

2
o o =
2
s s =

Una interpretacin de la desviacin estndar es si la distribucin es aproximadamente normal, el
intervalo:
a) x

s, contiene aproximadamente 68% de las observaciones.


b) x

2s, contiene aproximadamente 95% de las observaciones.


c) x

3s, contiene aproximadamente casi todas las observaciones (99.7%).


ESTADSTICA DESCRIPTIVA


9


Coeficiente de variacin: Es una medida relativa de dispersin, la cual nos permite comparar dos
distribuciones.

Relaciona la desviacin estndar y la media al expresar la primera como un porcentaje de la
segunda.




Para una poblacin: Para una muestra:

( ) 100

o
= CV ( ) 100
x
s
CV =

Ejemplo:

Considerando que los datos del ejemplo anterior constituyen una poblacin, sus medidas de
dispersin se calculan como sigue:

Con n = 8 y las siguientes mediciones 5, 8, 8, 11, 11, 11, 14, 16.

Rango = R = 16-5 = 11

5 . 10
8
84
8
16 14 11 11 11 8 8 5
= =
+ + + + + + +
= x


x x
i
x x

/ /
i
x x

2
) ( x x

5 10.5 -5.5 5.5 30.25
8 10.5 -2.5 2.5 6.25
8 10.5 -2.5 2.5 6.25
11 10.5 0.5 0.5 6.25
11 10.5 0.5 0.5 0.25
11 10.5 0.5 0.5 0.25
14 10.5 3.5 3.5 12.25
16 10.5 5.5 5.5 30.25
= 84 = 0 = 21 = 86


6 . 2
8
21
n
) (
DM
1
= =

=

=
n
i
i
x x


2857 . 12
7
86
1
) (
2
2
= =

=

n
x x
s


= = = 2857 . 12
2
s
s

ESTADSTICA DESCRIPTIVA


10
% 100 *
5 . 10
100 * = = =
x
s
CV


Medidas de posicionamiento
Cuartiles, deciles y percentiles

Cuartiles

La mediana (ya sea de una poblacin o de una muestra) divide los datos en dos partes iguales.
Tambin es posible dividir los datos en ms de dos partes. Cuando se divide un conjunto ordenado
de datos en cuatro partes iguales los puntos de divisin se conocen como cuartiles. El primer cuartil
inferior, Q1, es el valor que tiene aproximadamente la cuarta parte (25%) de las observaciones por
debajo de l, y el 75% restante, por encima de l. El segundo cuartil, Q2, tiene aproximadamente la
mitad (50%) de las observaciones por debajo de l. El segundo cuartil es exactamente igual a la
mediana. El tercer cuartil cuartil superior, Q3, tiene aproximadamente las tres cuartas partes (75%)
de las observaciones por debajo de l. Al igual que en el caso de la mediana, es posible que los
cuartiles no sean nicos. Por simplicidad, si ms de una observacin satisface la definicin de un
cuartil, entonces se utiliza el promedio de ellas como cuartil.

En general, la frmula para calcular el encontrar la ubicacin del k-simo cuartil de una serie de
datos es:

|
.
|

\
|
+
=
2
1
4
kn k
x Q

Ejemplo:

Para los datos de la seccin anterior: 5, 8, 8, 11, 11, 11, 14 y 16.

El primer cuartil es:

5 . 2
2
1
4
) 8 ( 1 1
x x Q = =
|
.
|

\
|
+

Lo que significa, que el primer cuartil es el promedio de los datos x2 y x3,
entonces

8
2
8 8
2
3 2
1
=
+
=
+
=
x x
Q

El tercer cuartil es:

5 . 6
2
1
4
) 8 ( 3 3
x x Q = =
|
.
|

\
|
+

Lo que significa, que el tercer cuartil es el promedio de los datos x6 y x7,
entonces

5 . 12
2
14 11
2
7 6
3
=
+
=
+
=
x x
Q
ESTADSTICA DESCRIPTIVA


11

Deciles

La definicin de los deciles, es similar al de los cuartiles, nicamente, que en este caso, los datos
son divididos en 10 partes. Por ejemplo, el primer cuartil tiene el 10% de los datos debajo de l y el
90% arriba de l.

En general, la frmula para calcular el encontrar la ubicacin del k-simo decil de una serie de datos
es:

|
.
|

\
|
+
=
2
1
10
kn k
x D

Ejemplo:

Para los mismos datos, el primer decil es:

3 . 1
2
1
10
) 8 ( 1 1
x x D = =
|
.
|

\
|
+

Lo que significa, que el primer decil, puede calcularse con la interpolacin de
los datos x1 y x2, entonces

9 . 5 3 . * ) 5 8 ( 5 3 . * ) (
1 2 1 1
= + = + = x x x D

El tercer decil es:

9 . 2
2
1
10
) 8 ( 3 3
x x D = =
|
.
|

\
|
+


Lo que significa, que el tercer decil, se obtiene con la interpolacin de los datos x2 y x3, entonces

8 9 . * ) 8 8 ( 8 9 . * ) (
2 3 2 3
= + = + = x x x D

Percentiles

En el caso de los percentiles, los datos se dividen en 100 partes. El vigsimo percentil, tiene el 20%
de los datos debajo de l y el 80% de los datos, arriba de l.

La frmula para calcular el encontrar la ubicacin del k-simo percentil de una serie de datos es:

|
.
|

\
|
+
=
2
1
100
kn k
x P
Ejemplo:

Tomando los datos anteriores, el dcimo percentil se obtiene de la siguiente manera:

ESTADSTICA DESCRIPTIVA


12
3 . 1
2
1
100
) 8 ( 10 10
x x P = =
|
.
|

\
|
+

Lo que significa, que el dcimo percentil, puede calcularse con la
interpolacin de los datos x1 y x2, entonces

9 . 5 3 . * ) 5 8 ( 5 3 . * ) (
1 2 1 10
= + = + = x x x P




Medidas de asimetra

Sesgo:

Grado de concentracin de una distribucin de datos en uno o en otro extremo.

Coeficiente de sesgo:

=
1
) (
3
__
3
n
x x f
o

negativo sesgo
positivo sesgo
simetra
_ 0
_ 0
0
3
3
3
<
>
==
o
o
o


La diferencia entre los valores de la media, la mediana y la moda, nos permiten saber la forma de la
distribucin.





Coeficiente de asimetra de Pearson

El coeficiente de asimetra de Pearson mide la desviacin de la simetra.
Asimetra Poblacional =
( )
o

~
3
Asimetra Muestral =
S
x x |
.
|

\
|

~
3
__


ESTADSTICA DESCRIPTIVA


13
De acuerdo con esta expresin, el sesgo puede variar de -3 a 3. un valor cercano a -3 indica un
sesgo negativo y viceversa. Un valor de 0, ocurre cuando la media y la mediana son iguales, indica
que la distribucin es simtrica.

Coeficiente de asimetra calculado con software



(
(

|
|
.
|

\
|

=

3
) 2 )( 1 ( ) 2 )( 1 ( n n
n
n n
n
sk

Curtosis

Es una medida de forma o apuntamiento basado en el cuarto momento con respecto a la media.
Esta medida determina el grado de concentracin que presentan los valores en la regin central de
la distribucin. Por medio del Coeficiente de Curtosis, podemos identificar si existe una gran
concentracin de valores (Leptocrtica), una concentracin normal (Mesocrtica) una baja
concentracin (Platicrtica).


Coeficiente de curtosis:

=
1
) (
4
__
4
n
x x f
o
Tomando, pues, la distribucin normal como referencia, una distribucin puede ser:











normal la que apuntada menos 3
normal n distribuci la 3
normal la que apuntada ms 3
4
4
4
ca Platicurti
a Mesocurtic
ca Leptocurti
<
=
>
o
o
o
ESTADSTICA DESCRIPTIVA


14
Datos agrupados

Determinacin de clases

Los tres mtodos ms comnmente usados para determinar las clases (categoras o nmero de
intervalos) en que se agruparn los datos son:
- Mtodo Lgico: Tallos y hojas.
- Mtodo del Experto: predeterminacin del nmero de clases.
- Utilizacin de algn algoritmo: Sturges, n .

Los cuales, se describirn a continuacin, aplicando cada mtodo a los datos del siguiente ejemplo:

Ejemplo:

El director de produccin de una empresa de telares, es responsable de la fabricacin de alfombras
en ms de 500 telares. Para no tener que medir la productividad diaria (en metros) de cada telar,
toma una muestra diaria de 50 telares de las 500 mquinas.

En la siguiente tabla se presenta la produccin en metros de cada uno de los 50 telares, stas
cantidades son datos sin procesar desde los cuales el director de produccin puede llegar a una
conclusin que abarque la totalidad de los telares en su desempeo del da anterior.

14.2 15.4 16.0 16.6 17.9 15.8 17.0 16.9 16.9 16.8
15.7 16.4 15.2 15.8 15.9 16.1 15.6 15.9 15.6 16.0
16.4 15.8 17.7 16.2 15.6 14.9 16.3 16.3 16.0 17.3
15.0 16.3 14.6 16.8 16.5 15.3 16.1 15.4 15.8 16.2
16.9 14.0 15.2 15.3 16.7 16.8 15.1 16.2 15.6 15.8

Mtodo Lgico Tallos y hojas

Es una alternativa para agrupar los datos de la muestra. Podemos construir un diagrama de tallos y
hojas y de manera natural respeta la restriccin de que la amplitud sea la misma para cada clase.

a) El tallo (dgito primario), consiste en uno o ms de los primeros dgitos.
b) La hoja (dgito derivado), consiste en el nmero o nmeros restantes.

El diagrama es similar al histograma y puede verse de inmediato en donde se estn agrupando la
mayora de los datos.

El diagrama puede elaborarse de dos maneras: Con los tallos sencillos y con tallos codificados.





ESTADSTICA DESCRIPTIVA


15
Tallos (dgitos
Primarios)
Hojas ( dgitos derivados)
frecuencia
14. 2,9,6,0 4
15. 4,8,7,2,8,9,6,9,6,8,6,0,3,4,8,2,3,1,6,8. 20
16. 0,6,8,9,8,4,1,0,4,2,3,3,0,3,8,5,1,2,9,7,8,2 22
17. 9,0,7,3. 4
Total = 50 Datos. 50

Tallos codificados

Tallos (dgitos Primarios) Hojas (dgitos derivados) frecuencia
14. 2,0. 2
14. * 9,6. 2
15. 4,2,0,3,4,2,3,1. 8
15. * 8,7,8,9,6,9,6,8,6,8,6,8. 12
16. 0,4,1,0,4,2,3,3,0,3,1,2,2. 13
16. * 6,8,9,8,8,5,9,7,8. 9
17. 0,3, 2
17. * 9,7. 2
Total = 50 Datos 50 Datos

Note que cada uno de los tallos se dividi en dos partes.

- El primero para los dgitos unitarios inferiores ( 0,1,2,3,4)
- El segundo para los dgitos unitarios superiores ( 5,6,7,8,9)
representado por un *.

De esta manera puede observarse con mayor facilidad la forma en que estn distribuidos los datos.

Una vez construido el diagrama de tallos y hojas vaciamos la informacin en una tabla de
frecuencias.
En la siguiente tabla, se presentan los datos agrupados en las 8 clases, con el lmite inferior, lmite
superior y las frecuencias de cada una de ellas:

Lmites Reales
Frecuencia
Lmite inferior Lmite superior
14.0 14.4 2
14.5 14.9 2
15.0 15.4 8
15.5 15.9 12
16.0 16.4 13
16.5 16.9 9
17.0 17.4 2
17.5 17.9 2
=50
ESTADSTICA DESCRIPTIVA


16

Mtodo del Experto o Utilizando algn algoritmo

La metodologa para ambos casos es la misma

1. Definir el nmero de intervalos k
2. Obtener el rango modificado
Rm = dato mayor dato menor + 1 cifra significativa
3. Dividir el rango modificado entre el nmero de intervalos
4. Obtener la amplitud de la clase. Cerrada a la cifra significativa.

Mtodo de Sturges para determinar el nmero de clases:


1. Obtener el rango modificado "Rm".

Rm = 17.9 14.0 + 0.1 Rm = 4

2. Determinar el nmero de clases "k" mediante el nmero de Sturges.

k = 1 + 3.322 log (50)

k = 6.64 7

3. Obtener la amplitud de clase (amplitud del intervalo) "A": A = Rm / k A= 4 / 7 = 0.57

4. A= 0.6

Se redondea a dcimas, por ser la cifra significativa con que fueron proporcionados los datos.

Una vez obtenidos los valores de Rm, k y A, se establecen los lmites de clase. Siendo el lmite
inferior de la primera clase, el valor inferior, en este caso 14.0. Posteriormente se le suma a este
valor la amplitud (A), esto es: 14.0 + 0.6 = 14.6, este valor es el lmite inferior de la segunda clase, y
as sucesivamente.

Lmite superior de la primera clase = Lmite inferior de la segunda clase 0.1 = 14.6 0.1 = 14.5

El lmite superior de las clases superiores se obtiene sumando a cada lmite superior de la clase
inmediata inferior el valor de A.

En la siguiente tabla se presentan las 7 clases establecidas con este mtodo y sus respectivas
frecuencias:




ESTADSTICA DESCRIPTIVA


17
Lmites Reales
Frecuencia
Lmite inferior Lmite superior
14.0 14.5 2
14.6 15.1 4
15.2 15.7 11
15.8 16.3 18
16.4 16.9 11
17.0 17.5 2
17.6 18.1 2
=50

Nota: Cuando el nmero de datos es pequeo, el nmero de clases k, puede obtenerse tambin
como k = n , obtenindose valores muy cercanos al nmero de Sturges calculado en el paso 2 de
este mtodo.

Mtodo del Experto Predeterminando el nmero de clases

En este mtodo el procedimiento es el mismo para el mtodo de Sturges, con la nica diferencia de
que el nmero de clases lo determina el analista de acuerdo a las necesidades del estudio,
basndose nicamente en su criterio y experiencia.

Ejemplo:

Suponiendo que para los mismos valores de los mtodos anteriores, el analista decide agrupar los
datos en 6 clases. Es decir k = 6.

1. Obtener el rango modificado "Rm".

Rm = 17.9 14.0 + 0.1

Rm = 4

2. Obtener la amplitud de clase (amplitud del intervalo) "A":

A = Rm / k

k = 6

A = 4 / 6 = 0.67 0.7

Se redondea a dcimas, por ser la cifra significativa con que fueron proporcionados los datos.

El lmite inferior y superior de cada clase, se obtiene de la misma manera que en el mtodo de
Sturges.

ESTADSTICA DESCRIPTIVA


18
La tabla resultante con este mtodo, agrupando los datos en las 6 clases correspondientes, queda
de la siguiente manera:

Lmites Reales
Frecuencia
Lmite inferior Lmite superior
14.0 14.6 3
14.7 15.3 7
15.4 16.0 17
16.1 16.7 13
16.8 17.4 8
17.5 18.1 2
=50

Una vez definidos los lmites reales construimos la tabla de frecuencias

Tabla de frecuencias

Una tabla de frecuencias es aqulla que concentra y organiza las clases y contiene:

Lmites de clase:

Los lmites de clase obtenidos en la seccin anterior, son los lmites nominales de clase, sin
embargo, tambin es necesario establecer los lmites exactos para cada clase. A continuacin se
describe la diferencia entre estos dos tipos de lmites:

Limites reales:

Superior o inferior, indican los valores incluidos dentro de la clase.

Limites exactos:

Se determinan identificando los puntos que estn a la mitad entre los lmites superior de cada clase
y el lmite inferior de la prxima clase. Estos se determinan para evitar la ambigedad en cuanto a
dnde ubicar un dato cuyo valor coincida con un lmite nominal.

Marca de clase (M-C) o punto medio de clase (PM):

Es el promedio de los lmites superior e inferior de cada clase (ya sean los nominales o los exactos).

Frecuencia (f):

Es el nmero de datos que se ubican dentro de cada clase.

Frecuencia acumulada (Fa):
ESTADSTICA DESCRIPTIVA


19
Es la suma de la frecuencia de cada clase, con la frecuencia de todas las clases anteriores. Por
ejemplo, la frecuencia acumulada de la segunda clase, es la suma de frecuencias de la primera y la
segunda clase.

Frecuencia relativa de ocurrencia (fr):

Es la fraccin de los datos de la muestra que se encuentra en determinada clase, se obtiene de la
siguiente manera: fr = f / n

Frecuencia relativa acumulada (Fra):

Es la suma de la frecuencia relativa de cada clase, con la frecuencia relativa de todas las clases
anteriores. Por ejemplo, la frecuencia relativa acumulada de la cuarta clase, es la suma de
frecuencias relativas de las clases 1-3 y la frecuencia relativa de la cuarta clase.

Ejemplo:

A continuacin se presenta la tabla de frecuencias correspondiente al ejemplo de los tres mtodos
aplicados para agrupar los datos.

a) Tallos y hojas

Lmite real Lmite exacto M.C f Fa Fr Fra
14.0-14.4 13.95-14.45 14.2 2 2 2/50 2/50
14.5-14.9 14.45-14.95 14.7 2 4 2/50 4/50
15.0-15.4 14.95-15.45 15.2 8 12 8/50 12/50
15.4-15.9 15.45-15.95 15.7 12 24 12/50 24/50
16.0-16.4 15.95-16.45 16.2 13 37 13/50 37/50
16.5-16.9 16.45-16.95 16.7 9 46 9/50 46/50
17.0-17.4 16.95-17.45 17.2 2 48 2/50 48/50
17.5-17.9 17.45-17.95 17.7 2 50 2/50 50/50
= 50 = 50/50 = 1.0


b) Sturges

Lmite nominal Lmite exacto M.C f Fa Fr Fra
14.0-14.5 13.95-14.55 14.25 2 2 2/50 2/50
14.6-15.1 14.55-15.15 14.85 4 6 4/50 6/50
15.2-15.7 15.15-15.75 15.45 11 17 11/50 17/50
15.8-16.3 15.75-16.35 16.05 18 35 18/50 35/50
16.4-16.9 15.35-16.95 16.65 11 46 11/50 46/50
17.0-17.5 16.95-17.55 17.25 2 48 2/50 48/50
17.6-18.1 17.55-18.15 17.85 2 50 2/50 50/50
= 50 = 50/50 = 1.0
ESTADSTICA DESCRIPTIVA


20

c) Predeterminando el nmero de clases

Lmite nominal Lmite exacto M.C f Fa Fr Fra
14.0-14.6 13.95-14.65 14.3 3 3 3/50 3/50
14.7-15.3 14.65-15.35 15.0 7 10 7/50 10/50
15.4-16.0 15.35-16.05 15.7 17 27 17/50 27/50
16.1-16.7 16.05-16.75 16.4 13 40 13/50 40/50
16.8-17.4 16.75-17.45 17.1 8 48 8/50 48/50
17.5-18.1 17.45-18.15 17.8 2 50 2/50 50/50
= 50 = 50/50 = 1.0


El anlisis descriptivo de la informacin para Datos Agrupados

Medidas de tendencia central

En esta seccin, se presentan las frmulas para obtener las medidas de tendencia central (media,
mediana y moda) para datos agrupados, aplicando cada frmula para el siguiente caso.

Se tiene informacin acerca de 100 obreros y su salario mensual percibido. En la siguiente tabla se
presentan 6 intervalos y el nmero de trabajadores que corresponde a cada categora con base en
su percepcin mensual.

SALARIO
MENSUAL
NMERO
DE OBREROS
2400 - 2599 7
2600 - 2799 20
2500 - 2999 33
3000 - 3199 25
3200 - 3399 11
3400 - 3599 4
TOTAL 100

La tabla de frecuencias correspondiente, queda como sigue:

Lmite real Lmite exacto M.C f Fa Fr Fra
2400 - 2599 2399.5 2599.5 2499.5 7 7 7/100 7/100
2600 - 2799 2599.5 2799.5 2699.5 20 27 20/100 27/100
2500 - 2999 2799.5 2999.5 2899.5 33 60 33/100 60/100
3000 - 3199 2999.5 3199.5 3099.5 25 85 25/100 85/100
3200 - 3399 3199.5 3399.5 3299.5 11 96 11/100 96/100
3400 - 3599 3399.5 3599.5 3499.5 4 100 4/100 100/100
= 100 = 100/100 = 1.0

El concepto de cada una de las medidas de tendencia central es el mismo para datos no agrupados
y agrupados, lo nico que cambia es la frmula para obtenerlas.
ESTADSTICA DESCRIPTIVA


21

Media

Para una poblacin: Para una muestra:

n
MC f
x

=
*

N
MC f

=
*




Mediana
A
fc
Faa
n
LE x
INF
(
(
(

+ =
)
2
(
~


LEINF = Lmite exacto inferior de la clase que contiene la mediana.

n = nmero de datos.

Faa = Frecuencia acumulada de la clase que est antes de la clase que contiene a la mediana.

fc = Frecuencia de la clase que contiene la mediana.

A = Amplitud de clase.

Moda

A
d d
d
LE Mo
INF
) (
2 1
1
+
+ =


LEINF = Lmite exacto inferior de la clase que contiene la moda.

d1 = Diferencia absoluta de la frecuencia de la clase modal y de la clase anterior.

d2 = Diferencia absoluta de la frecuencia de la clase modal y de la clase siguiente.

A = Amplitud

Ejemplo:

Media

ESTADSTICA DESCRIPTIVA


22
5 . 2949
100
294950
= = x

Mediana

2938.9 200 *
33
27 )
2
100
(
2799.5 =
(
(
(

+ = x
~

Moda


2923.3 200 * )
8 13
13
( 2799.5 Mo =
+
+ =


Medidas de dispersin

Rango:

Se define como la diferencia entre el lmite exacto superior de la clase ms alta y el lmite exacto
inferior de la clase ms baja.

Desviacin media

Para la poblacin: Para una muestra:

N
MC f
DM

=
) (

n
x MC f
DM

=
) (

x = punto medio de la clase.
Varianza

( ) | |
poblacin
N
MC f


=
2
2
) (
o

( ) | |
muestra
n
x MC f
s
1
) (
2
2


=




Desviacin estndar

poblacin
2
o o =

muestra
s s
2
=



Ejemplo:
ESTADSTICA DESCRIPTIVA


23

A continuacin se calculan las medidas de dispersin para los salarios de los trabajadores, para lo
cual, se presenta un resumen de la tabla de frecuencias, agregando algunas columnas que se
requieren para este efecto:



Salario Mensual
MC f x MC ( )
2
x MC ( )
2
) ( x MC f

2400 2599 2499.5 7 -450 202500 1417500
2600 - 2799 2699.5 20 -250 62500 1250000
2500 - 2999 2899.5 33 -50 2500 82500
3000 - 3199 3099.5 25 150 22500 562500
3200 - 3399 3299.5 11 350 122500 1347500
3400 - 3599 3499.5 4 550 302500 1210000
= 5870000


Rango = 3599.5 2399.5 = 1200

( )
50 . 2949
100
294950
*
___
= = =

n
MC f
x


196
100
19600
) (
2
__
= =
(
(

|
.
|

\
|

n
x MC f
DM

93 . 59292
1 100
5870000
1
) (
2
__
2
=

(
(

|
.
|

\
|

n
x MC f
s

5 . 243 93 . 59292
2
= = = s s


Medidas de posicin

Cuartiles
El k-simo cuartil en datos agrupados es:

A
fc
Fa
kn
LE Q
INF k
*
4
|
|
|
|
.
|

\
|

+ =
ESTADSTICA DESCRIPTIVA


24
Deciles

El k-simo decil, se obtiene como:

A
fc
Fa
kn
LE D
INF k
*
10
|
|
|
|
.
|

\
|

+ =
Percentiles

El k-simo percentil est dado por:

A
fc
Fa
kn
LE P
INF k
*
100
|
|
|
|
.
|

\
|

+ =
En todas las frmulas anteriores:

Fa = frecuencia acumulada de la clase anterior.

fc = Frecuencia de la clase.

A = Amplitud de clase.

Ejemplo:

Obtener P90 para el salario mensual de los trabajadores.

5 . 3290 200 *
11
85 -
100
100 * 90
3199.5 P
90
=
|
|
|
|
.
|

\
|
|
.
|

\
|
+ =


Medidas de sesgo

=
1
) (
3
__
3
n
x x f
o

Medidas de apuntalamiento

=
1
) (
4
__
4
n
x x f
o

ESTADSTICA DESCRIPTIVA


25

Grficas de estadstica descriptiva

Las grficas de distribuciones de frecuencias son de utilidad debido a que resaltan y aclaran los
patrones que no se pueden distinguir fcilmente en las tablas. Atraen la atencin del que las
observa hacia los patrones existentes en los datos. Las grficas pueden tambin ayudarnos a
resolver problemas concernientes a las distribuciones de frecuencia. Nos permitirn estimar algunos
valores con solo una mirada y nos proporcionarn una verificacin visual sobre la precisin de
nuestras soluciones.

Las grficas ms comunes para representar los datos son: Histograma, polgono de frecuencias,
grfica de pastel y ojiva.

Representacin grfica de Datos no agrupados

Una representacin grfica de los datos no agrupados es a travs del diagrama de caja ste se
elabora siguiendo los siguientes pasos:

1. Trace una recta numrica que empiece en el dato menor y termine en el dato mayor.
2. Encuentre el cuartil 1 y 3 y trace dos lneas perpendiculares a la recta numrica que pasen
por los cuartiles encontrados y construya una caja.
3. Trace la mediana y la media .

Ejemplo

El director de produccin de una empresa de telares, es responsable de la fabricacin de alfombras en
ms de 500 telares. Para no tener que medir la productividad diaria (en metros) de cada telar, toma una
muestra diaria de 50 telares de las 500 mquinas.

En la siguiente tabla se presenta la produccin en metros de cada uno de los 50 telares, stas
cantidades son datos sin procesar desde los cuales el director de produccin puede llegar a una
conclusin que abarque la totalidad de los telares en su desempeo del da anterior.


14.2 15.4 16.0 16.6 17.9 15.8 17.0 16.9 16.9 16.8
15.7 16.4 15.2 15.8 15.9 16.1 15.6 15.9 15.6 16.0
16.4 15.8 17.7 16.2 15.6 14.9 16.3 16.3 16.0 17.3
15.0 16.3 14.6 16.8 16.5 15.3 16.1 15.4 15.8 16.2
16.9 14.0 15.2 15.3 16.7 16.8 15.1 16.2 15.6 15.8
ESTADSTICA DESCRIPTIVA


26





Representacin grfica de Datos agrupados.

Histograma

Un histograma consiste en una serie de rectngulos, cuyo ancho es proporcional al alcance
(intervalo que abarcan) de los datos que se encuentran dentro de una clase, y cuya altura es
proporcional al nmero de elementos que caen dentro de la clase. Si las clases que utilizamos en la
distribucin de frecuencias son del mismo ancho, entonces las barras verticales del histograma
tambin tiene el mismo ancho. La altura de la barra correspondiente a cada clase representa el
nmero de observaciones de la clase. Como consecuencia a lo anterior, el rea contenida en cada
rectngulo (ancho por altura) ocupa un porcentaje del rea total de todos los rectngulos igual al
porcentaje de la frecuencia de la clase correspondiente con respecto a todas las observaciones
hechas.

Por lo general, se sealan en el eje horizontal las clases y en el eje vertical se colocan el nmero de
observaciones que es la frecuencia.

Ejemplo:
Se tiene informacin acerca de 100 obreros y su salario mensual percibido. En la siguiente tabla se
presentan 6 intervalos y el nmero de trabajadores que corresponde a cada categora con base en
su percepcin mensual.

SALARIO
MENSUAL
NMERO
DE OBREROS
2400 - 2599 7
2600 - 2799 20
2500 - 2999 33
3000 - 3199 25
3200 - 3399 11
3400 - 3599 4
TOTAL 100
ESTADSTICA DESCRIPTIVA


27

La tabla de frecuencias correspondiente, queda como sigue:

Lmite real Lmite exacto M.C f Fa Fr Fra
2400 - 2599 2399.5 2599.5 2499.5 7 7 7/100 7/100
2600 - 2799 2599.5 2799.5 2699.5 20 27 20/100 27/100
2500 - 2999 2799.5 2999.5 2899.5 33 60 33/100 60/100
3000 - 3199 2999.5 3199.5 3099.5 25 85 25/100 85/100
3200 - 3399 3199.5 3399.5 3299.5 11 96 11/100 96/100
3400 - 3599 3399.5 3599.5 3499.5 4 100 4/100 100/100

Histograma




Polgono de frecuencias

Aunque se utilizan menos, los polgonos de frecuencias son otra forma de representar grficamente
las distribuciones. Para construir un polgono de frecuencias sealamos stas en el eje vertical y los
valores de la variable que estamos midiendo en el eje horizontal, del mismo modo que lo hicimos en
el histograma. A continuacin, graficamos cada frecuencia de clase trazando un punto sobre su
marca de clases (punto medio de clase) y conectamos los resultantes puntos sucesivos con una
lnea recta para formar un polgono.

Ejemplo:


HISTOGRAMA DE FRECUENCIAS
0
5
10
15
20
25
30
35
2399.5 2599.5 2799.5 2999.5 3199.5 3599.5
LIMITES EXACTOS INFERIORES
T
R
A
B
A
J
A
D
O
R
E
S
2399.5 2399.5 2399.5 2399.5 2399.5 2399.5 2399.5

ESTADSTICA DESCRIPTIVA


28


Grfica de pastel

Tambin se le denomina grfica de sectores o grfica circular. Esta grfica resulta muy til para
representar una distribucin de frecuencias relativas.

Una fcil y comprensible de representar las frecuencias relativas en una grfica de sectores consiste
en considerar solo los porcentajes, puesto que las reas en el crculo corresponden directamente a
las frecuencias relativas; es muy fcil apreciar que rea es la mayor y que sector es el ms pequeo.

Su nombre se debe, a que las clases se representan como rebanadas de un pastel y su tamao
corresponde a la frecuencia de la clase, convertida sta al porcentaje del total que le corresponde y
multiplicada por 3.6 ya que un circulo consta de 360 y 3.6 es la centsima parte del circulo. Para
hacer la grfica de manera manual se requiere del uso de un transportador.

Ejemplo:











0
5
10
15
20
25
30
35
2299.5 2499.5 2699.5 2899.5 3099.5 3299.5 3499.5 3699.5
T
R
A
B
A
J
A
D
O
R
E
S

LIMITES EXACTOS INFERIORES
POLIGONO DE FRECUENCIAS
Nmero de obreros Frecuencia relativa Porcentaje (%) ngulo
7 0.07 7 25.2
20 0.20 20 72
33 0.33 33 118.8
25 0.25 25 90
11 0.11 11 39.6
4 0.40 4 14.4
= 360
ESTADSTICA DESCRIPTIVA


29



Ojiva

Es una grfica de distribucin de frecuencias acumuladas. Nos permite ver cuntas observaciones
estn por encima de ciertos valores, en lugar de hacer un mero registro del nmero de elementos
que hay dentro de los intervalos.

Se construye graficando el lmite inferior exacto en el eje horizontal y la frecuencia acumulada o la
frecuencia relativa acumulada de cada clase en el eje vertical.




Ejemplo:





7%
20%
33%
25%
11%
4%
DIAGRAMA DE PASTEL
0
0.1
0.2
0.3
0.4
0.5
0.6
0.7
0.8
0.9
1
2299.5 2399.5 2599.5 2799.5 2999.5 3199.5 3599.5
F
R
E
C
U
E
N
C
I
A

A
C
U
M
U
L
A
D
A

LIMITE EXACTO INFERIOR
OJIVA

Vous aimerez peut-être aussi