Vous êtes sur la page 1sur 54

ESTADISTICA DESCRIPTIVA

RODRIGO MELLA ADASME


ING. CIVIL EN MINAS
• La Estadística Descriptiva nace de la necesidad de
extraer y sumir la información relevante contenida en
grandes volúmenes de datos.

• Esta necesidad está motivada por la incapacidad de la


mente humana para comprender la información contenida
en conjuntos grandes de datos por la mera visión de
listados de dichos datos.
• Conjunto de métodos y técnicas que permiten
recopilar, presentar, analizar y tomar decisiones
respecto de un conjunto de datos.

• Es una ciencia que nos proporciona un conjunto


de métodos y técnicas que nos permite
recolectar, clasificar, analizar, presentar y
describir datos en forma adecuada a fin de tomar
decisiones frente a una incertidumbre o predecir
o afirmar algo de la población en estudio.
DIVISION DE LA ESTADISTICA

DESCRIPTIVA INFERENCIAL

Es el conjunto de métodos Es el conjunto de métodos y/o


estadísticos que implican la técnicas que nos proporciona la
recolección, clasificación, teoría necesaria para afirmar algo
presentación y caracterización de acerca de la población o tomar
un conjunto de datos, con el fin de decisiones generales en base a una
analizarlos y describirlos. información parcial obtenida
mediante técnicas descriptivas. Es la
que permite tomar decisiones y/o
predecir fenómenos con respecto a
las características de la población en
estudio.
POBLACION MUESTRA
Es el conjunto de todos los Es una parte representativa o
elementos (personas, animales, subconjunto representativo
plantas, objetos, etc.) que de la población. Al número
contienen una o más características de elementos de la muestra
observables. Cada elemento de una se le denomina tamaño de la
población de le denomina unidad muestra y al procedimiento
estadística o unidad análisis. de obtener la muestra se le
llama muestreo.

PARÁMETRO
Es una medida descriptiva que
resume alguna característica de
la población.
DATOS
Son valores recopilados de cualquier
número de observaciones VARIABLES
relacionadas sobre una o más Son características
características de una población o definidas sobre las
de una muestra. unidades de análisis que
conforman una población
FUENTES DE DATOS y que pueden tomar
Son los registros existentes y/o diferentes valores. Todas
métodos (encuestas, estudios las variables tienen una
experimentales, etc.) que sirven escala de registro llamada
para obtener información con unidad de medida.
fines de trabajo estadístico.
DEFINICIÓN DE VARIABLE.
VARIABLE
Característica de interés de los miembros de una
población que toma distintos valores.

CUALITATIVAS CUANTITATIVAS
Sus valores Son medibles, sus valores
corresponden a corresponden a números reales
conceptos, atributos o
cualidades no son DISCRETAS CONTINUAS
medibles
Sólo toman Toman infinitos valores
algunos valores de un intervalo de
reales. números reales.
7
EJEMPLO Nº1: Responda a las siguientes cuestiones sobre el
tipo de variable cuando clasificamos a los alumnos de una
clase:
1. La variable deporte que practican es: 4. La variable peso es:
(a) Cualitativa (b) Discreta (a) Cualitativa (b) Discreta
(c) Continua (c) Continua

2. La variable número de hermanos es: 5. La variable color de su pelo


(a) Cualitativa (b) Discreta (c) es:
Continua (a) Cualitativa (b) Discreta
(c) Continua
3. La variable Tiempo que ven
televisión en una semana es: 6. La variable altura es:
(a) Cualitativa (b) Discreta (c) (a) Cualitativa (b) Discreta
Continua (c) Continua
Datos sin agrupar Datos agrupados
Tablas de frecuencias

Medidas de tendencia central,


Medidas de dispersión, gráficos.
• Es una técnica estadística para organizar datos
en clases y cada una se les aplica la frecuencia
correspondiente.

• Sirve para visualizar y organizar los datos.

• Facilita la comprensión de la información


contenida en la muestra.
Tabla para datos cualitativos Frecuencia absoluta
Nivel educacional ni fi %fi
i
Basica 10 0.303 30.3
Media 11 0.333 33.3
Universitaria 12 0.363 36.3
Total 33 1 100
Frecuencia
Tabla para datos cuantitativos discretos acumulada
Número de ni fi %fi Ni Fi %Fi
cargas
familiares
0 15 0.357 35.7 15 0.357 35.7
1 17 0.404 40.4 32 0.761 76.1
2 10 0.238 23.8 42 1 100
Total 42 1 100 Frecuencia
11
relativa
ORGANIZACIÓN Y PRESENTACIÓN DE
DATOS
Representación tabular de la información 3º) Se obtienen las frecuencias
de variables de tipo categórico relativas (fi) para cada clase, las
cuales están definidas por el
• Cuando la variable es de tipo cociente , donde n es el número
categórico, la organización y total de datos.
presentación de los datos se hace de la
siguiente manera: 4º) Se obtienen las frecuencias
relativas porcentuales (%) para
1º) Se determina el número de clases que cada clase, las cuales son las
la variable está tomando. frecuencias relativas multiplicadas
por 100.

2º) Se obtienen las frecuencias absolutas


(ni) para cada clase, las cuales son el 5º) Se obtienen las frecuencias
número de veces que se presenta cada acumuladas (Ni) para cada clase,
clase. la cual es igual a la suma de las
frecuencias absolutas de los datos
anteriores.
FRECUENCIA RELATIVA
FRECUENCIA ABSOLUTA
ACUMULADA
Donde N, es el tamaño de la muestra
N i  ni  ni 1
FRECUENCIA RELATIVA
PORCENTUAL
% f i  f i • 100%

FRECUENCIA RELATIVA FRECUENCIA ACUMULADA


ACUMULADA PORCENTUAL

Fi  f i  f i 1 % Fi  Fi • 100%
Ejemplo 3.1
• Se ha realizado un estudio del numero de
empleados de 15 fiambrerías de una zona de
Buenos Aires con los siguientes resultados:

4; 5; 4; 3; 3; 6; 4; 5; 3; 3; 4; 5; 3; 6.

• Construir la tabla estadística empleando


frecuencias absolutas simples y acumuladas y,
también, frecuencias relativas en porcentaje,
simples y acumuladas.
Nº Frecuencia Frecuencia Frecuencia relativa Frecuencia
empleados absoluta absoluta simple en % (%fi) relativa
por tienda simple (ni) acumulada acumulada
(Ni) en % (%Fi)

3 5 5 5/ 15 = 0.33(x 100) = 33,3


33.3%
4 4 9 4/15 = 0.26 (x 100) = 60
26.6%
5 3 12 3/15 = 0.2 (x 100) = 20% 80

6 3 15 3/15 = 0.2 (x 100) = 20% 100


Se han tomado las ventas en miles de pesos de 40
supermercados de nuestro país correspondiente al mes de
Octubre del año pasado. Los resultados fueron:

168 160 168 175 175 160 165 154 163 165 168
168 158 149 160 161 162 166 163 159 178 169
158 163 171 170 165 150 167 164 162 165 163
156 174 165 173 172 168 168.

a) Identifique la variable y su tipo, así como la población y


la muestra.

b) Construya la tabla de distribución de frecuencias de la


información obtenida.
• La tabla siguiente (incompleta) resume las notas obtenidas por 80
alumnos de un instituto en selectividad. Responder:

1. El número de Suspendidos es:


(a) 20 (b) 30 (c) 40

2. El número de sobresalientes es:


(a) 10 (b) 12 (c) 14

3. La proporción de Notables es:


(a) 0.20 (b) 0.25 (c) 16

4. La suma de las frecuencias absolutas fi es:


(a) 100 (b) 80 (c) Otro valor
VARIABLES

Cualitativa Discreta Continua

Gráfico DE BARRAS • Histograma


• Polígono de
frecuencias.

OJIVA

GRAFICO CIRCULAR
• es una representación gráfica mediante rectángulos
adyacentes donde en el eje horizontal se representan los
intervalos de clase y en el eje vertical se representa los
valores de las frecuencias (absolutas o relativas).

• El histograma se construye dibujando barras contiguas


que tienen como base la amplitud de cada intervalo y
como alturas las frecuencias respectivas.
1. HISTOGRAMA . Variable NOTAS.

6
frecuencia absoluta

0
3.8 - 4.2 4.2 - 4.6 4.6 - 5.0 5.0 - 5.4 5.4 – 5.8
intervalos de clase
• Para la construcción de un polígono de frecuencias, se
marcan los puntos medios de cada uno los intervalos en
la parte superior de cada barra del histograma de
frecuencias, los cuales se unen con segmentos de recta.
2. POLÍGONO DE FRECUENCIAS. VARIABLE NOTAS

8 4.4

7
Frecuencia absoluta

6 4.0

5 5.2
4.8
4

2
5.6
1

0 0 0
marcas de clase
• Una grafica similar al polígono de frecuencias es la ojiva,
pero esta se obtiene de aplicar parcialmente la misma
técnica a una distribución acumulativa y de igual manera
que estas, existen las ojivas mayor que y menor que.

• Una gráfica de distribución de frecuencias acumuladas es


llamada una ojiva. Se trazan los límites reales superiores
contra las frecuencias acumuladas.
3. OJIVA. Variable Notas

30
FRECUENCIA ACUMULADA

25
25
24
20
19

15
14

10

5 6

0
4,2 4,6 5 5,4 5,8
LIMITE SUPERIOR INTERVALO DE CLASE
Gráficos Variable Cualitativa.
Gráfico de Barra "Año de Ingreso"

Ingreso n %f 12

10
1999 2 8
8
2000 8 32

n
6

2001 5 20 4

2002 10 40 2

0
25 100 1999 2000 2001 2002
Categorías

1999 Gráfico barras


8%
2002
40% 2000
32%

2001 Gráfico circular


20%
Gráficos variable discreta
35
Ramos n %f N %F
2 1 4 1 4 30 Gráfico de BARRAS
3 3 12 4 16 25

4 8 32 12 48 20

%
5 3 12 15 60 15

6 4 16 19 76 10
7 3 12 22 88 5
8 3 12 25 100 0
25 100 2 3 4 5 6 7 8
2 Ramos
8
4% 3
12%
12%

7 30
12%
25 OJIVA
20

6 4 15
N

16% 32%
10

5
5
12%
0
Gráfico Circular 2 3 4 5 6 7 8
ramos
• MODA
MEDIDAS DE • MEDIANA
TENDENCIA CENTRAL • MEDIA (GEOMETRICA)
• MEDIA (ARITMETICA)

• RANGO
MEDIDAS DE • DESVIACION MEDIA
DISPERSION • VARIANZA Y DESVIACION
ESTANDAR
• COEFICIENTE DE VARIACION

• DECILES
MEDIDAS DE
POSICION • CUARTILES
• PERCENTILES
• Son estadísticos que proporcionan valores
representativos de la muestra, de tal manera que
todos los datos muéstrales caen en torno a estos
valores.

• Son valores de la variable que están situados en


el centro o alrededor del punto medio de un
conjunto de datos. Este valor también se le
denomina indicador estadístico o estadístico o
estadígrafo.
• La media aritmética de una variable se define
como la suma ponderada de los valores de la
variable por sus frecuencias relativas y lo
denotaremos por y se calcula mediante la
expresión:

Xi representa el valor de la variable o en su caso la marca de


clase.
a) Para datos cuantitativos no agrupados

donde x es el valor del dato no agrupado, n es el total de


los datos y el símbolo Σ significa sumar.

b) Para datos cuantitativos agrupados

donde xi es la marca de clase del intervalo i, n es el total


de los datos y el símbolo Σ significa sumar los productos
entre paréntesis.
VENTAJAS Y DESVENTAJAS DE LA MEDIA
ARITMETICA

• Ventajas de la media • Desventajas de la media


aritmética aritmética
a) Es una medida que tiene en
cuenta toda la información • No es conveniente utilizarla
suministrada. cuando los datos se
aglomeran en los extremos
b) Es la más estable de las del conjunto de datos
medidas de tendencia ordenados habiendo poca
central. información en las partes
centrales de la distribución.
c) Puede ser utilizada como
dato para análisis • Los datos están fuertemente
estadísticos posteriores. sesgados. En este caso se
prefiere utilizar la mediana.
Se han tomado las ventas en miles de soles de 40
supermercados de nuestro país correspondiente al mes
de Octubre del año pasado. Los resultados fueron:

168 160 168 175 175 160 165 154 163 165
168 168 158 149 160 161 162 166 163 159
178 169 158 163 171 170 165 150 167 164
162 165 163 156 174 165 173 172 168 168.

Obtener la media aritmética de dichos resultados.


• En una clase de 10 alumnos se han registrado las
siguientes las calificaciones: 6 alumnos un 5, 3 alumnos
un 7 y un alumno un 9. Obtener la nota media.
• es el valor central de la variable, es decir, supuesta la muestra
ordenada en orden creciente o decreciente, el valor que divide
en dos partes la muestra.

• Para calcular la mediana debemos tener en cuenta si la


variable es discreta o continua.

• Cálculo de la mediana en el caso discreto: Tendremos en


cuenta el tamaño de la muestra.

• Si n es impar, hay un término central, el término que


será el valor de la mediana.

• Si n es par, hay dos términos centrales, la mediana será la


media de esos dos valores
• Ejemplo
N par N impar

1,4,6,7,8,9,12,16,20, 24,25,27 1,4,6,7,8,9,12,16,20, 24,25,27,30


n=12 n=13
Términos centrales el 6º y 7º 9 Término central el 7º , 12
y 12
Me=12
Me=
• Cálculo de la mediana en el caso continúo:
• Si la variable es continua, la tabla vendrá en intervalos,
por lo que se calcula de la siguiente forma:

• Nos vamos a apoyar en un gráfico de un histograma de


frecuencias acumuladas. De donde la mediana vale:
donde ai es la amplitud del intervalo.
• Supongamos los pesos de un grupo de 50 personas
se distribuyen de la siguiente forma:
Li-1 Li Ni Ni
45 55 6 6
55 65 10 16
65 75 19 35
75 85 11 46
85 95 4 50
• Como el tamaño de la muestra es n=50, buscamos el
intervalo en el que la frecuencia acumulada es mayor que
50/2=25, que en este caso es el 3º y aplicamos la fórmula
anterior. Luego la mediana será

Me=
VENTAJAS Y DESVENTAJAS DE LA MEDIANA
MUESTRAL
• Ventajas de la mediana • Desventajas de la
muestral mediana muestral

• La mediana se utiliza • Es una medida que no


cuando los datos están tiene en cuenta los valores
fuertemente sesgados. que toman las variables en
los extremos de los datos
• No está afecta a los valores ordenados en la muestra.
extremos de los datos.

• Se utiliza también en las


variables categóricas
ordinales.
• es un valor o medida de tendencia central en una muestra
de datos de variables tanto categóricas como
cuantitativas que se repite con mayor frecuencia, y se
representa por el símbolo Mo. Si el conjunto de datos
tiene una moda se llama unimodal, si tiene dos modas
se llama bimodal, y al conjunto de datos que tiene más
de dos modas se llama multimodal.
a) Para datos
categóricos (o
cualitativos)
nominales u
ordinales: Se
determina la
categoría (o las
categorías) que
más se repite (o
repiten).
• b) Para datos
cuantitativos no
agrupados y
cuantitativos
discretos
agrupados: Se
determina el valor (o
los valores) del
conjunto de datos que
más se repite (o
repiten).
c) Para datos
cuantitativos
continuos
agrupados:
Cuando la
información se
encuentra
agrupada en
intervalos de
igual tamaño la
moda se calcula
con la siguiente
expresión.
Ejemplo:

A pesar que el
valor 444.44 no
es un dato real de
la información
asumimos
ese parámetro
como el de mayor
ocurrencia.
VENTAJAS Y DESVENTAJAS DE LA MODA
MUESTRAL

• Ventajas de la moda • Desventajas de la moda


muestral muestral

a) Se puede calcular tanto • Es muy difícil de


para datos categóricos interpretar o comparar
como para los cuando la distribución es
cuantitativos. multimodal.

b) No está afectada por los


valores extremos de los
datos ordenados.
• Las medidas de dispersión indican que tan lejos o tan
cerca se encuentran unos datos de otros en una
distribución de frecuencia. La medida representativa mas
utilizada para analizar la dispersión de datos es la media.
Las más importantes son:

• Rango
• La desviación media
• La desviación típica o estándar
• El coeficiente de variación
• La varianza.
• Es la medida de dispersión que indica la distancia entre el
valor mayor y menor en un grupo de datos.

• Se denota como R. Realmente no es una medida muy


significativa e la mayoría de los casos, pero
indudablemente es muy fácil de calcular.

R = Xmax – Xmin
Xmax, Xmin son el máximo y el mínimo valor de
la variable X, respectivamente.
• La desviación media,
mide la distancia
absoluta promedio
entre cada uno de
los datos, y el
parámetro que
caracteriza la
información.
Usualmente se
considera la
desviación media
con respecto a la
media aritmética:
• es una medida de variación que mide la dispersión
cuadrática de los datos con respecto a la media
aritmética, y se representa por el símbolo s2. Su unidad
de medida es el cuadrado de la unidad de medida
utilizada para medir los datos.
• es la raíz cuadrada de la varianza muestral, y se
representa por la letra s; es decir:

• Es la más completa entre las medidas de dispersión


porque interviene la unidad de medida que se usa para
medir los datos y el número total de ellos.
• Es una medida de dispersión relativa que proporciona una
estimación de la magnitud de la desviación estándar
respecto a la magnitud de la media, y generalmente está
expresado en porcentaje, y se representa por las letras CV.
Matemáticamente, esto se expresa por:

• Es útil para comparar distribuciones con unidades de


medida diferentes para ver así cuál de ellas es más
variable.

• Una desventaja del coeficiente de variación es que deja de


ser útil cuando la media muestral es un valor cercano a
cero.
• El peso medio de los alumnos de una clase es 58,2kg y
su desviación típica 4kg. Por otra parte la altura media es
de 175cm, y su desviación típica es de 5cm. Calcular el
coeficiente de variación y comparar la dispersión de
ambos grupos.

Vous aimerez peut-être aussi