Académique Documents
Professionnel Documents
Culture Documents
ESTADÍSTICA DESCRIPTIVA
1.1 INTRODUCCIÓN
Estadística Descriptiva
Recolecta, presenta y caracteriza un conjunto de datos (por ejemplo, edad de una
población, altura de los estudiantes de una escuela, temperatura de los días de un
determinado mes del año, etc.) con el fin de describir apropiadamente las diversas
características de ese conjunto; consiste sobre todo en la presentación de datos en
forma de tablas y gráficas; esto es, sin intentar inferir nada que vaya más allá de los
datos como tales.
Estadística Inferencial
Se deriva de muestras, de observaciones hechas sólo acerca de una parte de un
conjunto numeroso de elementos y esto implica que su análisis requiere de
generalizaciones que van más allá de los datos. Como consecuencia, la
característica más importante del reciente crecimiento de la estadística ha sido un
cambio en el énfasis de los métodos, los cuales son utilizados para hacer
generalizaciones. La Estadística Inferencial investiga o analiza una población
partiendo de una muestra tomada.
a) Medición Nominal
En este nivel de medición se establecen categorías distintivas que no implican un
orden específico. Por ejemplo, si la unidad de análisis es un grupo de personas, para
clasificarlas se puede establecer la categoría sexo con dos niveles, masculino (M) y
femenino (F), los encuestados sólo tienen que señalar su género, no se requiere de
un orden real. Para su identificación y posterior análisis de datos se puede asignar
números: 1= M, 2=F.
b) Medición Ordinal
Se establecen categorías con dos o más niveles que implican un orden inherente
entre si. La escala de medición ordinal es cuantitativa porque permite ordenar a los
Jorge Tuapanta
2
Estadística descriptiva
c) Medición de Intervalo
La medición de intervalo posee las características de la medición nominal y ordinal.
Establece la distancia entre una medida y otra. La escala de intervalo se aplica a
variables continuas pero carece de un punto cero absoluto. El ejemplo más
representativo de este tipo de medición es un termómetro, cuando registra cero
grados centígrados de temperatura indica el nivel de congelación del agua y cuando
registra 100 grados centígrados indica el nivel de ebullición, el punto cero es
arbitrario no real, lo que significa que en este punto no hay ausencia de temperatura.
d) Medición de Razón
Una escala de medición de razón incluye las características de los tres anteriores
niveles de medición (nominal, ordinal e intervalo). Determina la distancia exacta entre
los intervalos de una categoría. Adicionalmente tiene un punto cero absoluto, es
decir, en el punto cero no existe la característica o atributo que se mide. Las
variables de ingreso, edad, número de hijos, etc. son ejemplos de este tipo de
escala. El nivel de medición de razón se aplica tanto a variables continuas como
discretas.
Jorge Tuapanta
3
Estadística descriptiva
Los datos son información que se recoge, esto puede ser opinión de las personas
sobre un tema, edad o sexo de encuestados, dónde viven, cuántas personas viven
en una casa, qué tipo de sangre tiene un grupo de personas, etc.
Hay datos que pueden ser de mucha utilidad a diferentes profesionales en la toma de
decisiones, para resolver problemas o para mostrar resultados de investigaciones.
Una vez que se haya recogido toda la información, se procede a crear una base de
datos, donde se registran todos los datos obtenidos.
Algunas veces, si los datos son muy complicados, se codifican, esto quiere decir que
se le coloca una palabra clave que identifica un título muy largo. Cuando ya está
elaborada la base de datos se parece a una tabla.
Para disponer la información de manera óptima, se genera una tabla en la que, la
primera columna presenta los valores, que se representa con la letra x, en la
segunda columna se dispondrán las frecuencias, que se representa con la letra f , en
la tercera columna la frecuencia relativa, que se denota por fr y está definida como
f
fr , donde n es el tamaño de la muestra; en la cuarta columna aparece la
n
frecuencia relativa porcentual y en la última la frecuencia acumulada, ver tabla 1.1.
x f fr fr % F.A
1 6 0,0400 4 6
2 11 0,0733 7,333 17
3 12 0,0800 8,000 29
4 30 0,2000 20,000 59
5 40 0,2667 26,667 99
6 25 0,1667 16,667 124
7 14 0,0933 9,333 138
8 9 0,0600 6,000 147
9 3 0,0200 2,000 150
Total 150 1,0000 100,0
Jorge Tuapanta
4
Estadística descriptiva
Jorge Tuapanta
5
Estadística descriptiva
Clases
[100,180[
[180,260[
[260,340[
[340,420 [
[420,500[
[500,580[
Clases Distribución
[100,180[ 100 116 123 141 150 151 159 162 170 176 177
[180,260[ 181 188 192 199 205 227 232 235 240 246 250
[260,340[ 266 271 276 278 279 279 294 295 297 303 309 319 320
321 324 325 335 337
[340,420 [ 363
[420,500[ 429 435 474
[500,580[ 570
2. Los gastos semanales se concentran entre 100 y 340 dólares. En total 40, o
88.89 % de los gastos semanales se concentran en éste intervalo.
3. La mayor concentración está en la clase de 260 a 340 dólares. El valor central de
la clase es 300 dólares ((260+340)/2 = 300), por tanto se puede decir que el gasto
semanal típico es 300 dólares.
4. La menor concentración está entre 340 y 580 dólares. En total 5 que es el
11.11 %
PASO 5: Contar el número de elementos en cada clase
Al número de elementos de cada clase se le llama frecuencia de clase ( f ). Por
consiguiente, la tabla de frecuencias de gastos semanales en dólares, quedaría de la
siguiente forma, ver tabla 1.5.
Clases f
[100,180[ 11
[180,260[ 11
[260,340[ 18
[340,420 [ 1
[420,500[ 3
[500,580[ 1
TOTAL 45
Jorge Tuapanta
7
Estadística descriptiva
HISTOGRAMA
Es un resumen gráfico de los valores producidos por las variaciones de una
determinada característica, representando la frecuencia con que se presentan
distintas categorías dentro de dicho conjunto.
Los histogramas nos permiten resumir grandes cantidades de datos; además
podemos hacer un análisis de los datos evidenciando esquemas de comportamiento
y pautas de variación que son difíciles de captar en una tabla numérica.
La figura 1, muestra un histograma de los gastos semanales de las 45 familias.
12 11 11
10
8
6
4 3
2 1 1
0
140 220 300 380 460 540
GASTOS SEMANALES POR CLASES
Jorge Tuapanta
8
Estadística descriptiva
Para elaborar el histograma también se pudo haber cogido los intervalos de clase(
100 a 180; 180 a 260,..etc), y no los puntos medios de cada clase. Hágalo y
compare.
POLIGONO DE FRECUENCIAS
Un polígono de frecuencias es similar al histograma. Está formado por segmentos
de rectas que unen a los puntos medios de las clases y la frecuencia de clase. El
polígono de frecuencias añade dos clases con frecuencias cero: una antes de la
primera clase y otra después de la última. El resultado es que se "sujeta" la línea por
ambos extremos al eje horizontal y lo que podría ser una línea separada del eje se
convierte, junto con éste, en un polígono, ver figura 2.
15
FRECUENCIAS
10
0
60 140 220 300 380 460 540 620
GASTOS SEMANALES POR CLASES
Jorge Tuapanta
9
Estadística descriptiva
Las medidas de tendencia central más usuales son: la media aritmética, la mediana y
la moda.
MEDIA ARITMÉTICA
La media aritmética de n valores, es igual a la suma de todos ellos dividida entre n .
Se denota por ̅ . Esto es:
n
x i
X i 1
n
Cuando los datos tienen más de una frecuencia, para obtener la media aritmética se
agrega otra columna a la tabla estadística con el producto de las observaciones y sus
frecuencias. Es decir, si se cuenta con una distribución de datos entonces se aplica
la fórmula:
n
f i xi
X i 1
n
Las características de la media aritmética son:
1. La media aritmética es la única medida de tendencia central donde la suma de las
desviaciones de cada valor, respecto de la media, siempre es igual a cero. Es decir:
n
(x
i 1
i X )0
MEDIANA
La mediana es el punto central de una serie de datos ordenados de forma
ascendente o descendente. De acuerdo al número de casos o datos, hay dos formas
para calcular la mediana: para número impar y para número par.
Jorge Tuapanta
10
Estadística descriptiva
MODA
La moda de un conjunto de datos numéricos es el valor que más se repite, es decir,
el que tiene el mayor número de frecuencias absolutas. La moda puede ser no única
e inclusive no existir.
La moda es una medida de tendencia central muy importante, porque permite
planificar, organizar y producir para satisfacer las necesidades de la mayoría.
EJEMPLO
Obtener la moda de los siguientes datos: -3, 3, -2, 0, 3, -1, -2, 4, 5, -2, 0, 1.
Jorge Tuapanta
11
Estadística descriptiva
Solución.
Ordenando de forma ascendente: -3, -2, -2, -2, -1, 0, 0, 1, 3, 3, 4, 5.
El valor que más se repite es el -2, por lo tanto ese valor es su moda.
EJEMPLO
Obtener la moda de los siguientes datos: 6, 2, -1, -5, 3, -3, -2, 5, 0, -4, 4, 1.
Solución.
Ordenando de forma ascendente: -5, -4, -3, -2, -1, 0, 1, 2, 3, 4, 5, 6.
Ningún valor se repite es, decir su moda no existe.
Las características de la moda son:
1. En su cálculo no se incluyen todos los valores de la variable.
2. El valor de la moda puede ser afectado grandemente por el método de
designación de los intervalos de clases.
3. No está definida algebraicamente.
4. Puede ser calculada en distribuciones de frecuencia que tengan clases abiertas.
5. No es afectada por valores extremos.
MEDIDAS DE DISPERSIÓN
Jorge Tuapanta
12
Estadística descriptiva
R LSU C LIPC
La principal limitación del rango es que considera solamente los valores extremos de
los datos, y no proporciona información respecto a los demás valores.
DESVIACIÓN MEDIA
La desviación media mide el monto medio en que varían los valores de una
población o muestra, con respecto a su media. La desviación media para una
n
x i x
muestra está dada por: DM i 1
Jorge Tuapanta
13
Estadística descriptiva
x
n
2
i x
S2 i 1
n 1
1. Mientras más alejados estén los valores de su media mayor será el valor de la
varianza y mientras más concentrados se encuentren alrededor de su media,
menor será el valor de la varianza.
2. La varianza nunca es negativa, ya que se está sumando cantidades elevadas al
cuadrado.
3. El valor mínimo que puede tomar es cero, el cual se logra cuando todos los
valores son iguales entre sí, es decir, que no existe variabilidad entre ellos.
x
n
2
i x
S i 1
n 1
2
n
xi
x x i i 1
n n
2
x
2
Se demuestra que i
i 1 i 1 n
Jorge Tuapanta
14
Estadística descriptiva
2
n
xi
x i i 1
n
2
n
S 2 i 1 → VARIANZA
n 1
2
n
xi
x i i 1
n
2
n
S i 1
→ DESVIACIÓN ESTÁNDAR
n 1
f X 2
f X 2
n
S
2
→ VARIANZA
n 1
f X 2
f X 2
n
S → DESVIACIÓN ESTÁNDAR
n 1
Donde:
f es la frecuencia de clase
EJEMPLO 1
Jorge Tuapanta
15
Estadística descriptiva
xi xi x | xi x | x i x
2
74 0 10,5 19,5
x 74
x i x
10,5
x 9,25 , DM i 1
1,31
i
n 8 n 8
x x
n n
2 2
i x i x
19,5
S2 i 1
2,79 , S i 1
2,79 1,67
n 1 7 n 1
EJEMPLO 2
Clases f
[100,180[ 11
[180,260[ 11
[260,340[ 18
[340,420 [ 1
[420,500[ 3
[500,580[ 1
Jorge Tuapanta
16
Estadística descriptiva
f X 2
(11660) 2
f X 2
n
3438800
45
S2 9490.10
n 1 44
f X 2
f X 2
n
S 9490.10 97.42
n 1
COEFICIENTE DE VARIACIÓN
S
El coeficiente de variación se define como: CV 100
x
EJEMPLO
Las mediciones realizadas con un micrómetro 1 tienen una media de 3.92 mm y una
desviación estándar de 0.0152 mm, y las realizadas con el micrómetro 2 tienen una
media de 1.54 pulgadas y una desviación estándar de 0.0086 pulgadas. ¿Cuál de
estos dos instrumentos es relativamente más preciso?
Solución
0.0152
Para el micrómetro 1, el coeficiente de variación es: CV 100 0.39%
3.92
0.0086
Para el micrómetro 2, el coeficiente de variación es: CV 100 0.56%
1.54
Por lo tanto, las mediciones hechas con el micrómetro 1 son relativamente más
precisas.
Jorge Tuapanta
18