Vous êtes sur la page 1sur 8

1.

Población y Muestra

Una población es el conjunto completo de todos los objetos que interesan a un investigador. El
tamaño de la población, N, puede ser muy grande o incluso infinito. Una muestra es un
subconjunto observado de valores poblacionales que tiene un tamaño muestral que viene dado
por n.

Ejemplos de poblaciones son:


• Todos los votantes inscritos en un país.
• Todos los estudiantes de una universidad.
• Todas las familias que viven en una ciudad.
• Todas las acciones que cotizan en una bolsa de valores.
• Todas las reclamaciones que recibe en un año dado una compañía de seguros médicos.
• Todas las cuentas pendientes de cobro de una empresa.

Nuestro objetivo final es hacer afirmaciones basadas en datos muestrales que tengan alguna
validez sobre la población en general. Necesitamos, pues, una muestra que sea representativa
de la población. ¿Cómo podemos lograrlo? Uno de los principios importantes que debemos
seguir en el proceso de selección de la muestra es la aleatoriedad.

Muestreo aleatorio
El muestro aleatorio simple es un método que se emplea para seleccionar una muestra de n
objetos de una población en el que cada miembro de la población se elige estrictamente al
azar, cada miembro de la población se elige con la misma probabilidad y todas las muestras
posibles de un tamaño dado, n, tienen la misma probabilidad de ser seleccionadas. Este
método es tan frecuente que generalmente se suprime el adjetivo simple y la muestra resultante
se denomina muestra aleatoria.

Parámetro y estadístico
Un parámetro es una característica específica de una población. Un estadístico es una
característica específica de una muestra.

Ejercicios 1:
1.1 Ponga un ejemplo de un parámetro en cada una de las siguientes poblaciones:
a) Las rentas de todas las familias que viven en una ciudad.
b) Los rendimientos anuales de todas las acciones que cotizan en una bolsa de valores.
c) Los costes de todas las reclamaciones que recibe en un año dado una compañía de
seguros médicos.
d) Los valores de todas las cuentas pendientes de cobro de una empresa.

1.2 Su universidad ha encuestado a sus estudiantes para averiguar el tiempo semanal medio
que dedican a navegar por Internet.
a) ¿Cuál es la población?
b) ¿Cuál es la muestra?
c) ¿Cuál es el estadístico?
d) ¿Es el valor de 6,1 horas un parámetro o un estadístico?
1.3 Una compañía aérea sostiene que menos de un 1 por ciento de los vuelos programados
que despegan del aeropuerto de Nueva York sale tarde. Se ha observado que el 1,5 por ciento
de una muestra aleatoria de 200 vuelos salió más tarde de la hora prevista.
a) ¿Cuál es la población?
b) ¿Cuál es la muestra?
c) ¿Cuál es el estadístico?
d) ¿Es 1,5 por ciento un parámetro o un estadístico?

Estadística descriptiva e inferencial


La estadística descriptiva está formada por los métodos gráficos y numéricos que se utilizan
para resumir y procesar los datos y transformarlos en información. La estadística inferencial
constituye la base para hacer predicciones, previsiones y estimaciones que se utilizan para
transformar la información en conocimiento.

Ejercicios:
1.4 Suponga que es dueño de una tienda de alimentación.
a) Ponga un ejemplo de una pregunta que podría responderse utilizando la estadística
descriptiva.
b) Ponga un ejemplo de una pregunta en la que sería útil estimar un parámetro.
c) Ponga un ejemplo de una pregunta sobre una posible relación entre dos variables que
tienen
interés para su tienda de alimentación.
d) Ponga un ejemplo de una cuestión en la que hay que hacer una predicción.

1.5 Averigüe si debe utilizarse la estadística descriptiva o la inferencial para obtener la


siguiente información:
a) Un gráfico que muestra el número de botellas defectuosas producidas durante el
turno de día a lo largo de una semana.
b) Una estimación del porcentaje de empleados que llegan tarde a trabajar.
c) Una indicación de la relación entre los años de experiencia de los empleados y la
escala salarial.

2. Variables

Se llama variable a una característica que se observa en una población o muestra, y a la cual
se desea estudiar. La variable puede tomar diferentes valores dependiendo de cada individuo.
Una variable se puede clasificar de la siguiente manera.

Ejercicios 2:
2.1 Indique si cada una de las siguientes variables es cualitativa o cuantitativa y sus niveles
a. Número de mensajes de correo electrónico enviados diariamente por un planificador
financiero.
b) Coste efectivo de los libros de texto de un estudiante para un cuatrimestre.
c) Su factura mensual de electricidad.
d) Las categorías de profesores universitarios (profesor, profesor asociado, profesor
ayudante, profesor colaborador).
e) ¿Tiene usted una entrada de temporada?
f) ¿Vive en Iquique?
g) Cuánto le costó la entrada al cine?

2.2 En una encuesta reciente se pidió al profesorado de una universidad que respondiera a una
serie de preguntas. Indique el tipo de datos de cada pregunta.
a) Indique su nivel de satisfacción con la carga docente (muy satisfecho;
moderadamente satisfecho; neutral; moderadamente insatisfecho; muy insatisfecho).
b) ¿Cuántos artículos ha publicado en revistas con evaluación anónima durante el último
año?
c) ¿Ha asistido a la última reunión del consejo de departamento?
d) ¿Cree usted que el proceso

2.3 Se ha formulado una serie de preguntas a una muestra de clientes de una tienda de
helados. Identifique el tipo de datos que se pide en cada pregunta.
a) ¿Cuál es su sabor favorito?
b) ¿Cuántas veces al mes toma helado?
c) ¿Tiene hijos de menos de 10 años que vivan en casa?
d) ¿Ha probado el último sabor de helado?

3. Descripción Numérica de los datos

Medidas de la tendencia central: Las medidas de la tendencia central normalmente se calculan


a partir de datos muestrales más que a partir de datos poblacionales.

A menudo podemos averiguar si los datos tienden a estar centrados o a agruparse en torno a
algún valor construyendo un histograma. Las medidas de la tendencia central suministran
información numérica sobre una observación «típica» de los datos. En este apartado
analizamos la media, la mediana, la moda y la simetría de los datos.

(a) Media aritmética


La media aritmética (o media simplemente) de un conjunto de datos es la suma de los valores
de los datos dividida por el número de observaciones. Si el conjunto de datos es toda la
población de datos, la media poblacional, k, es un parámetro que viene dado por:
N

∑x i
x1 + x2 + x3 + ...x N
µ= i=1
=
N N
donde N=tamaño de la población y ∑ significa «la suma de». Si el conjunto de datos
procede de una muestra, entonces la media muestral, x , es un estadístico que viene dado por
n

∑x i
x1 + x2 + x3 + ...xn
x= i=1
=
n n
donde n=tamaño de la muestra y ∑ significa «la suma de».

(b) Mediana
La mediana es la observación que ocupa el lugar central de un conjunto de observaciones
ordenadas en sentido ascendente (o descendente). Si el tamaño de la muestra, n, es un número
impar, la mediana es la observación que se encuentra en el medio. Si el tamaño de la muestra,
n, es un número par, la mediana es la media de las dos observaciones que se encuentran en el
medio. La mediana se encontrará en la 0,50(n+1) primera posición ordenada

(c) Moda
La moda, si existe, es el valor que aparece con más frecuencia.

Ejercicios 3:
3.1 Lea el contexto luego determine las medidas de tendencia central, interpretando sus
resultados.
(a) La Komen Race for the Cure Series es la serie de carreras de 5.000 metros más
multitudinaria del mundo. La Susan G. Komen Breast Cancer Foundation recauda fondos para
financiar la lucha contra el cáncer de mama y para darla a conocer; apoya los proyectos de
educación, selección y tratamiento en comunidades de todo el mundo; alaba a las mujeres que
han sobrevivido y honra a las que han perdido la batalla contra la enfermedad. Halle las
medidas de la tendencia central de una muestra de cinco tiempos (en minutos) que hicieron los
participantes en una reciente Race for the Cure: 45 53 45 50 48
(b) En una muestra aleatoria de ocho empresas estadounidenses, los beneficios por acción han
experimentado este año las siguientes variaciones porcentuales en comparación con el año
pasado: 0% 0% 8,1% 13,6% 19,4% 20,7% 10,0% 14,2%
(c) Los sueldos anuales de una muestra de cinco empleados son $390.000, $370.500,
$350.200, $400.400 y $500.000.

Queremos insistir en que la elección de la medida de la tendencia central depende del contexto
o del problema. Con eso no queremos decir que siempre deba preferirse la mediana a la
media cuando la población o la muestra está sesgada. Hay veces en las que la media seguiría
siendo la medida preferida aunque la distribución estuviera sesgada. Consideremos el caso de
una compañía de seguros que es muy probable que se enfrente a una distribución de las
reclamaciones sesgada hacia la derecha. Si quiere saber cuál es la cuantía de las
reclamaciones más representativa, se prefiere la mediana. Pero supongamos que quiere saber
cuánto dinero necesita presupuestar para cubrir las reclamaciones. En ese caso, se prefiere la
media.

(d) En una muestra aleatoria de 5 semanas se observó que una agencia de cruceros recibía el
siguiente número de programas semanales especiales de cruceros al Caribe: 20 73 75 80 82
i) Calcule la media, la mediana y la moda.
ii) ¿Qué medida de la tendencia central describe mejor los datos?

(e) El director de unos grandes almacenes tiene interés en saber cuántas reclamaciones recibe
el departamento de atención al cliente sobre la calidad de los aparatos eléctricos que venden
los almacenes. Los registros de un periodo de 5 semanas muestran el siguiente número de
reclamaciones semanales: 13 15 8 16 8
i) Calcule el número medio de reclamaciones semanales.
ii) Calcule el número mediano de reclamaciones semanales.
iii) Halle la moda.
iv) Interprete
(f) Diez economistas recibieron el encargo de predecir el crecimiento porcentual que
experimentará el índice de precios de consumo el próximo año. Sus predicciones fueron 3,6 3,1
3,9 3,7 3,5 3,7 3,4 3,0 3,7 3,4
i) Calcule la media muestral.
ii) Calcule la mediana muestral.
iii) ¿Cuál es la moda?
iv) Interprete

Medidas de Dispersión:
La media no es por sí sola una descripción completa o suficiente de los datos. En este apartado
presentamos números descriptivos que miden la variabilidad o dispersión de las observaciones
con respecto a la media. En concreto, incluimos el rango, el rango intercuartílico, la varianza,
la desviación típica y el coeficiente de variación. También describimos los datos numéricamente
por medio del resumen de cinco números, con un breve análisis de las reglas básicas para
ayudarnos a hallar el porcentaje de observaciones que se encuentran a diversas distancias de
la media.
No existen dos cosas exactamente iguales. Éste es uno de los principios básicos del control de
calidad estadístico. En todas las áreas hay variaciones. En los deportes, el jugador estrella de
baloncesto puede anotar cinco canastas de 3 puntos en un partido y ninguna en el siguiente o
puede jugar 40 minutos en un partido y sólo 24 en el siguiente. La variación es obvia en el
sector de la música; el tiempo meteorológico varía mucho de un día a otro e incluso de una
hora a otra; las calificaciones de un examen varían de unos alumnos a otros dentro de un
mismo curso con un mismo profesor; la presión sanguínea, el pulso, el nivel de colesterol y la
ingesta de calorías de una persona varían diariamente.
Aunque dos conjuntos de datos tuvieran la misma media, las observaciones individuales de uno
de ellos podrían variar con respecto a la media más que las del segundo. Consideremos los dos
conjuntos siguientes de datos muestrales:
Muestra A 1 2 1 36
Muestra B 8 9 10 13
Aunque la media es 10 en ambas muestras, es evidente que los datos de la muestra A están
más alejados de 10 que los de la muestra B. Necesitamos números descriptivos para medir esta
dispersión.

Rango y rango intercuartílico

Rango
Rango es la diferencia entre la observación mayor y la menor.

Cuanto mayor es la dispersión de los datos con respecto al centro de la distribución, mayor es
el rango. Como el rango sólo tiene en cuenta la observación mayor y la menor, puede estar
muy distorsionado si hay una observación excepcionalmente extrema. Aunque el rango mide la
dispersión total de los datos, puede ser una medida insatisfactoria de la variabilidad
(dispersión) debido a que los casos atípicos, o bien muy altos o bien muy bajos, influyen en él.
Una manera de evitar esta dificultad es ordenar los datos en sentido ascendente o descendente,
descartar algunos de los números más altos y algunos de los más bajos y hallar el rango del
resto. El rango intercuartílico mide la dispersión del 50 por ciento intermedio de los datos.
Rango intercuartílico
El rango intercuartílico (RIC) mide la dispersión que hay en el 50 por ciento central de los
datos; es la diferencia entre la observación de Q3 , el tercer cuartil (o sea, el 3er percentil) y la
observación de Q1 , el primer cuartil (o sea, el 2º percentil ). Por lo tanto,
RIC = Q3 − Q1
donde Q3 se encuentra situado en la 0,75(n+1) primera posición cuando los datos están
ordenados en sentido ascendente y Q1 está situado en la 0,25(n+1) primera posición cuando
los datos están ordenados en sentido ascendente.

Varianza y desviación típica


Aunque el rango y el rango intercuartílico miden la dispersión de los datos, ambas medidas
sólo tienen en cuenta dos de los valores de los datos. Necesitamos una medida que considere
cada uno de los valores de los datos. Esa medida promediaría la distancia total (∑ ) entre
cada observación y la media. Esta distancia sería negativa en el caso de los valores menores
que la media (y la distancia no es negativa). Si se eleva al cuadrado cada una de estas
( )
2
diferencias, xi − x , cada observación (tanto por encima como por debajo de la media)
contribuye a la suma de los términos al cuadrado. La media de la suma de los términos al
cuadrado se llama varianza.

Varianza
Con respecto a la varianza, la varianza poblacional, σ , es la suma de los cuadrados de las
2

diferencias entre cada observación y la media poblacional dividida por el tamaño de la


población, N:
N

∑( x − µ )
2
i
σ2 = i=1
N
La varianza muestral, s , es la suma de los cuadrados de las diferencias entre cada
2

observación y la media muestral dividida por el tamaño de la muestra, n, menos 1.

∑( x − x)
n
2
i
s2 = i=1
n −1

Desviación típica
Con respecto a la desviación típica, la desviación típica poblacional, p, es la raíz cuadrada
(positiva) de la varianza poblacional y se define de la forma siguiente:
N

∑( x − µ )
2
i
σ = σ2 = i=1
N

La desviación típica muestral, s , es

∑( x − x)
n
2
i
s = s2 = i=1
n −1
Coeficiente de variación
El coeficiente de variación expresa la desviación típica en porcentaje de la media.

Coeficiente de variación
El coeficiente de variación, CV, es una medida de la dispersión relativa que expresa la
desviación típica en porcentaje de la media (siempre que la media sea positiva).

El coeficiente de variación poblacional es:


σ
CV = x100%, si µ > 0
µ
El de variación muestran es:
s
CV = x100%, si x > 0
x

Ejercicios 4:
(a) Un profesor enseña a dos grandes grupos de introducción al marketing y selecciona
aleatoriamente una muestra de calificaciones de los exámenes realizados por los dos grupos.
Halle el rango, la desviación típica y CV de cada muestra:
Grupo 1 50 60 70 80 90
Grupo 2 72 68 70 74 66

(b) Calcule la varianza, la desviación típica y CV de los siguientes datos muestrales:


(b1) 6 8 7 10 3 5 9 8
(b2) 10 8 11 7 9
(b3) 1 2 3 2 2 3 2 3 1 1 1 2 1 2 1

(c) El tiempo (en segundos) que tardó una muestra aleatoria de empleados en realizar una
tarea es:
23 35 14 37 28 45
12 40 27 13 26 25
37 20 29 49 40 13
27 16 40 20 13 66
a) Halle el tiempo medio.
b) Halle la desviación típica.
c) Halle el coeficiente de variación.

Ejercicio 5:
A partir de los datos entregados en la tabla redacte un interpretación considerando todos
media, moda, mediana, desviación típica y CV:
media moda mediana desviación típica CV
Ejercicio Media Moda Mediana Des Tipica

(a) Evaluaciones
de una prueba de 4,8 4,6 5 1,4
estadística

(b) Peso de
jugadores de 82,2 kg 79 kg 84 kg 12,2 kg
fútbol

(c) Medidas de las


cabezas de 0,7 mm 0,5 mm 0,7 mm 0,8 mm
tornillos

(d) Número de
2 2 2 3
hijos por casa