Académique Documents
Professionnel Documents
Culture Documents
Estadística descriptiva 1
Práctica 2
ESTADÍSTICA DESCRIPTIVA
Objetivos:
Índice:
1. Tablas de frecuencias
2. Estadísticos
3. Representación gráfica de variables
4. Ejercicios complementarios
1. Tablas de frecuencias
Una de las formas más simples de resumir la información de un conjunto de datos
es por medio de una tabla de frecuencias, que consiste en calcular para cada valor de
una variable el número (frecuencia) de casos en que aparece.
Estadísticos
OZONO
N Válidos 300
Perdidos 0
OZONO
Porcentaje Porcentaje
Frecuencia Porcentaje válido acumulado
Válidos Normal 144 48,0 48,0 48,0
Alto 156 52,0 52,0 100,0
Total 300 100,0 100,0
La tabla nos indica que hay 300 casos válidos y ninguno perdido, que la variable
ozono tiene dos valores posibles Normal y Alto (en realidad son las etiquetas
asociadas a los valores 0 y 1, respectivamente). Hay 144 casos (48%) en los que ozono
toma el valor Normal y 156 (52%) el valor Alto.
Ejercicio 1
• Ordena los datos por la variable ozono con Datos/Ordenar casos o haciendo
clic con el botón derecho del ratón sobre su nombre en la ventana del editor de
datos y comprueba que las frecuencias anteriores son correctas.
• Obtener la tabla de frecuencias de la variable provin.
• Obtener la tabla de frecuencias de la variable sulfato. ¿Qué utilidad tiene esta
última tabla? Razona su conveniencia en este caso.
2. Estadísticos
Los estadísticos son valores calculados con los datos de una variable cuantitativa
y miden alguna de las características de la distribución muestral. Las principales
características son: tendencia central, posición, dispersión, asimetría y apuntamiento.
Se usan para saber en torno a qué valor central se distribuyen los valores de una
variable. Las medidas más habituales son:
Son las que indican el valor que ocupa una determinada posición en una
distribución.
La medida más simple de localización es la mediana que también es una medida
de tendencia central, puesto que el 50% de los datos son menores o iguales que ella y el
50% de los datos son mayores o iguales.
Los cuartiles Q1,Q2 y Q3, son tres valores que dividen a la distribución en cuatro
partes iguales. El primer cuartil tiene un 25% de casos menores o iguales que dicho
valor; el segundo cuartil coincide con la mediana y el tercer cuartil deja un 25% de
valores superiores o iguales a él. Para obtenerlos, se calcula primero las posiciones de
los cuartiles p(Q1) y p(Q3) y a partir de ellas se extraen los valores correspondientes. Las
posiciones del primer y tercer cuartil (el segundo coincide con la mediana) son:
p(Q1)=(n+1)/4 y p(Q3)=3(n+1)/4. Obtenidas las posiciones, si son enteras, se buscan
los valores que las ocupan en la muestra ordenada. Si p(Qx) da un valor decimal se usa
la fórmula siguiente:
vi (1 − α ) + v f α
siendo α la parte fraccionaria de p(Qx) y vi, vf los valores muestrales que ocupan las
posiciones más cercanas por defecto y por exceso a p(Qx), respectivamente.
Los deciles (9 en total) y percentiles (99 en total) dividen a la distribución en diez
y cien partes iguales, respectivamente. Su forma de cálculo es similar a la de los
cuartiles.
1 1
∑ (∑ xi2 − n x )
2
s2 = ( xi − x ) 2 =
n −1 i n −1 i
desviación típica o estándar (s) está medida en las mismas unidades que la variable y
es la raíz cuadrada positiva de la varianza.
coeficiente de variación es una medida de dispersión relativa. Es el cociente entre la
desviación típica y el valor absoluto de la media. Es decir:
s
CV =
x
3( x − Mediana) ≈ x − Moda
de esta forma podemos obtener una medida de la asimetría usando cualquiera de los dos
términos de la expresión anterior. Un valor aproximadamente de 0 indica una
distribución aproximadamente simétrica. Si este valor es positivo significa que la media
se halla por encima (a la derecha) de la moda y mediana y decimos en ese caso que la
distribución es asimétrica a la derecha; si el valor es negativo la posición de la media
está a la izquierda de la moda y mediana y decimos que la distribución es asimétrica a la
izquierda. Si se quiere comparar la asimetría de varias distribuciones con distintas
unidades de medida, se usa la desviación típica. Así, la expresión anterior quedaría:
3( x − Mediana) x − Moda
Asim = ≈
s s
1
m3 = ∑ ( xi − x ) 3
n i
3
n xi − x
CAsim = ∑
(n − 1)(n − 2) i s
4
n(n + 1) xi − x 3(n − 1) 2
K= ∑ −
(n − 1)(n − 2)(n − 3) i s (n − 2)(n − 3)
Ejercicio 2
Considerar los datos siguientes: 3,4,5,2,3,4,5,6,4,7
• Calcula con ayuda de una calculadora la media, rango, desviación estándar, CV,
los cuartiles, rango intercuartílico y los percentiles 30 y 80.
• Calcula la medida de asimetría Asim para decidir qué tipo de asimetría presentan
estos datos.
Ejercicio 3
• Obtener los estadísticos del ejercicio anterior utilizando SPSS y comprobar la
coincidencia con los cálculos hechos con la calculadora.
Gráficos de sectores
VALENCIA
ALICANTE
CASTELLON
También es posible que los sectores representen otra cosa, como la media de los
valores de otra variable, el valor máximo, etc...; esto se consigue con la opción Otra
función resumen. Se puede también editar el gráfico haciendo doble clic sobre él, con
posibilidad de cambiar colores, tramas, desgajar sectores, etc.
Prof3
71,00 / 36,1%
Prof1
69,20 / 35,2%
Prof2
56,30 / 28,7%
Ejercicio 4
• Construye los gráficos de sectores de la variable provin anteriores con SPSS.
Diagramas de barras
Sobre un eje horizontal se representan los distintos valores de una variable discreta
o categórica. Sobre cada valor se levanta un rectángulo vertical cuya base está separada
de las contiguas. En un eje de escala vertical se representa una característica numérica
de la variable como el número de casos, o bien otra función resumen que puede estar
asociada a otra variable, etc.
Los diagramas de barras permiten utilizar mayor número de valores que los
gráficos de sectores. Son más versátiles que los gráficos de sectores y al igual que con
éstos también se pueden conseguir efectos especiales como 3D, giros e iluminaciones.
Para generar un diagrama de barras con SPSS se utilizan los menús
Gráficos/Barras y Gráficos/Interactivos/Barras. Consultar la ayuda de SPSS para
una descripción más detallada.
Ejercicio 5
• Construye un diagrama de barras como el de la figura siguiente.
Histogramas
40 100
80
30
60
20
40
10
Frecuencia
20
Desv. típ. = ,54
Desv. típ. = ,54
Media = 5,92
Media = 5,9
0 N = 300,00
0 N = 300,00
4,
4,
5,
5,
5,
5,
6,
6,
6,
6,
7,
7,
7,
7,
4,4 - 4,8 5,1 - 5,5 5,8 - 6,1 6,5 - 6,8 7,1 - 7,5
50
75
00
25
50
75
00
25
50
75
00
25
50
75
68,82,70,79,101,83,95,70,88,69,78,85,92,73,82,70,84,68,82,74
Tomando como hoja el dígito de las unidades y como tallo las decenas, podríamos
construir el diagrama siguiente:
6: 889
7: 0003489
8: 2223458
9: 25
10: 1
Diagrama de tallo y hojas (peso).
1,00 4 . 7
1,00 4 . 8
6,00 5 . 000111
7,00 5 . 2223333
8,00 5 . 44445555
14,00 5 . 66666667777777
14,00 5 . 88889999999999
18,00 6 . 000000000111111111
9,00 6 . 222233333
14,00 6 . 44444445555555
4,00 6 . 6777
2,00 6 . 89
1,00 7 . 1
1,00 Extremes (>=7,5)
Los casos extremos (si se consideran así) son advertidos por el gráfico. En el
ejemplo anterior, existe un caso extremo cuyo valor del ph es mayor o igual a 7,5.
También observamos que un mismo tallo ha sido dividido en varias filas. El usuario no
puede alterar este gráfico que es más robusto que el histograma.
Diagramas de caja
A diferencia de los otros gráficos ya vistos, los diagramas de caja hacen énfasis en
las medidas de posición. Es muy útil para hacer comparaciones entre muestras de
distintas poblaciones.
Un diagrama de caja consiste en un rectángulo cuya longitud es el rango
intercuartílico, dividido por un segmento a la altura de la mediana y complementado por
dos líneas (llamadas bigotes) que parten de los extremos del rectángulo, cuya longitud
no supera 1,5 veces el rango intercuartílico y que intentan alcanzar los valores mínimo y
máximo observados. Para obtener un diagrama de caja con SPSS se selecciona el menú
Gráficos/Diagrama de cajas. Por ejemplo:
8
222
45
191
209
5
PH
4
N= 100 100 100
Provincia
Aquí, cada provincia está representada por una caja que muestra los niveles de ph.
Se puede observar diferencias en cuanto la situación de la mediana y a la
dispersión. Por ejemplo, se observa que en Valencia los niveles de ph son inferiores a
los de Castellón y que presentan una ligera mayor dispersión. Los casos extremos -si los
hay- se representan por símbolos especiales a cuyo lado aparece el número de caso.
También nos da idea de la simetría de los datos, por ejemplo una mediana descentrada -
dentro del rectángulo- nos indicaría una asimetría. En este ejemplo podemos decir que
las distribuciones son bastante simétricas tanto en Valencia, Castellón como en
Alicante. El diagrama de cajas puede ser editado para su modificación, haciendo doble
clic sobre sus elementos. Se puede alterar título, pie, anotaciones, leyenda y los valores
y etiquetas de los ejes; las líneas como los ejes, las líneas de referencia y los bordes, la
escala, el relleno y trama de la caja y los casos atípicos y extremos.
Ejercicio 6
• Construye un histograma de la variable sulfato de los casos de la provincia
de Valencia. El número de clases debe ser 12.
• Construye un diagrama de tallo y hojas de la variable sulfato de los casos de
la provincia de Valencia. Identifica los casos extremos y sus valores.
• Construye un diagrama de cajas de la variable sulfato para comparar entre
las provincias de Valencia, Castellón y Alicante. Identifica los casos extremos y
sus valores.
Diagramas de dispersión
5. Ejercicios complementarios
2.- Abre el archivo judges.sav. Las variables representan a los jueces que han
puntuado en unas pruebas de clasificación para las olimpiadas.
a) Construye un gráfico de sectores, en el que cada sector represente la media de
las puntuaciones otorgadas por un juez.
b) Construye un diagrama de barras en los que cada barra represente la media de
las puntuaciones otorgadas por los jueces de Rusia, Rumania y China,
respectivamente.