Unidad 1 - Parte 1 - 1143

DEPARTAMENTO DE CIENCIAS MATEMATICAS Y FISICAS
Unidad 1 – Parte 1.
La Investigación Científica
Es el nombre general que obtiene el largo y complejo proceso en el cual los avances
científicos son el resultado de la aplicación del método científico para resolver
problemas o tratar de explicar determinadas observaciones.
Se han descrito diferentes tipos de investigación entre disciplinas, así como una
terminología específica. Las definiciones más comúnmente aceptadas son las usadas
para referirse al incremento en el nivel de interacción entre las disciplinas:
Multidisciplinariedad: en este nivel de investigación la aproximación al objeto de
estudio se realiza desde diferentes ángulos, usando diferentes perspectivas
disciplinarias, sin llegar a la integración.
Interdisciplinariedad: este nivel de investigación se refiere a la creación de una
identidad metodológica, teórica y conceptual, de forma tal que los resultados sean
más coherentes e integrados.
Rudecindo Ortega 02950 / matfis@uct.cl/ Fono (45) 2205615 - (45) 2205412 / http://www.uct.cl / / Temuco / Chile
Elementos de Estadística Descriptiva.
Concepto de Estadística
 Se llama estadística a la ciencia que estudia el método científico para recoger,

analizar y resumir datos, así como para obtener conclusiones válidas y tomar
decisiones razonables.
 En todo proceso estadístico se efectúan las siguientes etapas:

1. Recogida de datos.
2. Organización y presentación.
3. Caracterización.
4. Análisis y conclusiones.
Concepto Básicos
Llamaremos:
 Individuos o elementos a las personas u objetos que contienen cierta
información que se desea estudiar.
 Población, colectivo o universo al conjunto de todos los elementos que

cumplen una o varias características y que por lo tanto son el objeto de
nuestro estudio.
 Muestra a un subconjunto de la población, y tamaño al número de elementos

de esa muestra.
Posibles estudios en una población
Por lo general, cuando queremos efectuar un estudio a una determinada población,

podemos hacerlo de dos formas:
 Censo: Obtenemos los datos de todos y cada uno de los miembros de la

población.
 Muestreo al azar: Obtenemos los datos de una muestra representativa de la

población elegida aleatoriamente.
Variables: Tipos de Características en una Población
Las variables a estudiar se pueden clasificar en:
 Cualitativa o atributos: Toma valores no numéricos. Estas variables pueden

estar en escala:
a) Nominal: aquellas variables cualitativas a las que sólo es posible dar
nombre.
b) Ordinal: aquellas variables cualitativas a las que, además de dar nombre es
posible ordenar
 Cuantitativa: Toma valores numéricos. A su vez se subdividen en:

a) Discretas: Sólo pueden tomar valores finito o numerable de valores
(generalmente enteros)
b) Continuas: Pueden tomar cualquier valor en un intervalo (que puede ser
finito o infinito)
Ejemplo 1: Clasificar las siguientes variables:
a) Número de accidentes laborales en un día.

b) Temperatura medida en grados centígrados en un observatorio cada hora.
c) Vida media de los ascensores de una empresa.
d) Ingresos medios de los ingenieros comerciales al año.
e) Las contestaciones en una encuesta:  Difícil  Fácil  Muy Fácil
f) Ventas mensuales de una empresa.
g) Tasa de interés mensual de un instrumento.
h) Ganancias brutas percibidas por una empresa.
i) Grado de satisfacción con la calidad de un producto.
j) Las contestaciones en una encuesta: __ Si __ No
Análisis Unidimensional.
La información obtenida por cualquiera de los mecanismos antes mencionados es
necesario resumirla de la mejor manera para que pueda ser analizada correctamente,
dicho resumen puede hacerse de tres formas diferentes, todas ellas complementarias
entre sí:
1. Resumen en tablas de frecuencia

2. Resumen gráfico
3. Resumen numérico
1. Distribución de los Datos Resumidos en Tablas de Frecuencias
Definiremos:
Tamaño de la muestra: n el número de elementos observados o tamaño de la
muestra (en el caso de que sea finita)
Datos: x1, x2, …, xi, … a los valores de la variable aleatoria obtenidos en la muestra,
en los cuales puede haber valores repetidos.
Frecuencia absoluta o repetición: ni, el número de veces que se repite el valor xi.
ni
Frecuencia relativa: fi = n , el cociente de la frecuencia absoluta y el tamaño de la
muestra n.
Frecuencia acumulada absoluta: Ni = n1 + n2 + … + ni , el número de datos que hay

iguales o inferiores al dato xi.
Ni
Frecuencia acumulada relativa: Fi = n , el cociente de la frecuencia acumulada
absoluta entre el tamaño de la muestra n.
Definición: llamaremos distribución de frecuencias al conjunto de valores que ha

tomado una variable con sus frecuencias correspondientes. Suele representarse por
pares (xi; ni) ó (xi; fi).
Cuando el número de datos es suficientemente grande, conviene agruparlos en

clases o intervalos al igual que cuando son continuos, de la siguiente forma:
 Para determinar el número de intervalos o clases se utiliza la regla de Sturges,

que consiste en calcular:
1 + 3,322 log n (donde n es el tamaño de la muestra)
 Dado un intervalo, llamaremos Li al extremo superior del intervalo, y Li–1 al

extremo inferior. Por lo general consideraremos intervalos del tipo (Li–1, Li].
 Representaremos la distribución de frecuencias agrupada en intervalos por el par

(Li–1 – Li; ni).
Llamaremos longitud del intervalo a ci = Li  Li1 (En algunos casos, lo cual es

preferible, la longitud del intervalo es constante para todos los intervalos, y lo
representamos como c)
Llamaremos rango o recorrido a Re = max{xi} – min{xi}, la diferencia entre el mayor y
el menor valor de la variable (En el caso de la longitud de los intervalos sea c
constante se tiene que Re = {nº de intervalos}  c)
Llamaremos marca de clase a un representante de cada intervalo, que por lo general

Li 1  Li
es el punto medio del intervalo (Li1, Li], esto es, xi = 2 .
ni
di 
Llamaremos densidad de frecuencia de un intervalo a ci utilizada cuando los
intervalos no tienen la misma longitud.
Ejemplo 2: Se tiene la siguiente información referida al número de reclamos por día

recibidos por una empresa de servicios, valorados durante un mes en una empresa:
4 3 5 5 1 4 0 1 2 5 1 5 1 0 2 3 4 1 0 1 4 2 1 2 4 3 4 0 4 1
Resumir la información en una tabla de frecuencias e interpretarla.
Ejemplo 3: Se registra el tiempo (en segundos) que tarda un equipo de trabajo

administrativo, conformado por 12 personas, en realizar una determinada tarea:
53, 61, 55, 62, 51, 66, 74, 58, 81, 63, 62, 58, 60, 57, 60, 61, 54, 59, 64, 77
Resumir la información en 5 clases o intervalos, determinando la marca de cada

clase y sus frecuencias e interpretar los resultados.
2. Resumen a través de Representaciones Gráficas
Existen muchos tipos de gráficos, dependiendo de una serie de factores como: el tipo
de variable a resumir o lo que se quiere resaltar, entre otros.
Para fenómenos cualitativos o atributos
2.1 Gráficos Sectoriales o de Pastel: En ellos las áreas de cada sector son
proporcionales a la cantidad de datos de cada uno de ellos.
2.2 Gráficos de barra: En ellos cada barra es proporcional a la cantidad de

datos que hay en cada una de las categorías de la variable en estudio.
Ejemplo 4: Una encuesta a 200 consumidores a los que se les pide valorar su nivel
de satisfacción con un producto alimentación, resumido en la siguiente tabla:
1 nada satisfecho 81
2 poco satisfecho 69
3 ni satisfecho ni insatisfecho 32
4 Bastante satisfecho 12
5 muy satisfecho 6
Resumir gráficamente esta información e interpretarla.
Para fenómenos cuantitativos y/o variables aleatorias
2.3 Si la distribución no está agrupada en intervalos:
a) Diagrama de barras: Si son frecuencias no acumuladas: Consiste en poner en

el eje de la abscisa los valores de la variable x, y en el eje de ordenadas las
frecuencias.
Ejemplo 5: Utilizando la información del ejemplo 2, representar gráficamente

el resumen de frecuencias absolutas/relativas.
b) Diagrama de escalera : Si son frecuencias acumuladas: Consiste en poner en

el eje de abscisas los valores de la variable x, y en el eje de ordenadas las
frecuencias acumuladas
el resumen de frecuencias absolutas/relativas acumuladas.
2.4 Si la distribución está agrupada en intervalos:
a) Histograma de frecuencias. El histograma dependerá de que la longitud del

intervalo sea constante o variable:
1) Si la longitud del intervalo es constante: Consiste en representar:

 sobre el eje X: los intervalos de las variables (Li1  Li)
 sobre el eje Y: las frecuencias de los intervalos. (ni )
2) Si la longitud del intervalo no es constante: Consiste en representar:

 sobre el eje X: los intervalos de las variables (Li1  Li)
ni
di 
 sobre el eje Y: las densidades de las frecuencias ci .
“El histograma puede hacerse con cualquier tipo de frecuencia (absolutas, relativa,
acumulada absoluta o acumulada relativa)”
el resumen de frecuencias absolutas/relativas.

el resumen de frecuencias absolutas/relativas acumuladas.
b) Polígono de frecuencias u ojiva: Se obtiene de la siguiente manera:
1) La longitud del intervalo es constante:

Unimos los puntos del supremo de cada intervalo en el eje X con la
frecuencia sobre el eje Y (esto es, la línea que une los puntos (L0, 0), (L1, n1), …, (LN ,
nN))
2) La longitud del intervalo no es constante:

Unimos los puntos del supremo de cada intervalo en el eje X con la densidad
de frecuencia sobre el eje Y (esto es, la línea que une los puntos (L0, 0), (L1, d1), …,
(LN , dN))
Ejemplo 9: Utilizando los gráficos del ejemplo 7, representar los respectivos

polígonos de frecuencias
2.5 Diagramas de Cajas.
El gráfico dibuja la distribución de los datos a través de los cuartiles asociados a la
variable, en el contexto de su rango.
3. Medidas Numéricas de Resumen
3.1 Medidas de Tendencia Central o de Centralización
La misión de estas medidas es dar una idea del valor central, alrededor del cual se
reparten los valores de la muestra obtenida.
a) Definiremos como Media Aritmética, representada como x a:
 Si los datos no están agrupados:

x 1 + x2 +…+ x n 1 n
x̄= = ∑ xj
n n j=1
(n es el tamaño de la muestra y xj son los valores que toma la muestra)
 Si los datos están agrupados:

k
n1 x 1 +n2 x 2 +…+n k x k
x̄= =f 1 x 1 + f 2 x 2 +…+f k x k= ∑ f j x j
n j =1
(k es el número de clases, xj son las marcas de clase y fj son las frecuencias relativas)
Ejemplo 10: Los sueldos mensuales de cuatro trabajadores de una empresa son
380.000, 700.000, 910.000 y 1.840.000 pesos. Hallar la media. ¿Es representativa?
Propiedades de la media:
n
∑ (x j− x̄ )=0
 Se verifica que j=1 , donde n es el número de datos. (En el caso de que
K
n j  (x j  x)  0
los datos estén distribuidos por clases: j 1 , donde K es el número de clases)
 La media se ve afectada por cambios de escala y de origen.
 La media se ve afectada por los valores extremos (outliers)
Ejemplo 11: Utilizando la tabla resumen del ejemplo 2, calcular e interpretar la

media aritmética.

media aritmética.
b) Definiremos como Mediana, (representada como: Me o ~ x ) al valor que separa a

la muestra en dos partes, deja por encima de ella al 50% de los datos y por
debajo de ella al otro 50%. La calcularemos como:

x n+1
i) Si N es impar: Me = 2 (esto es, el valor central)
xn+x
n
2 +1
2
ii) Si N es par: Me = 2 (esto es, el punto medio entre los dos valores
centrales)
 Si los datos están agrupados en clases:
i) Si las clases son valores: La clase central.

ii) Si las clases son intervalos: El intervalo central o mediano. Sin embargo, para
calcular el valor de la mediana existe una fórmula en el caso de que los intervalos
tengan igual longitud, dada por:
n
−N i−1
2
Li−1 + ci
Me = ni (donde ci = Li  Li1 la amplitud del intervalo)

mediana.

mediana.
c) Definiremos la Moda como el valor más frecuente en la muestra. (La moda no

tiene por qué existir y no tiene por qué ser única)
i) Si los datos no están agrupados: Será el valor que más se repite

ii) Si los datos están agrupados en clases:
ii.1) Si las clases son valores: el valor (o valores) con mayor frecuencia.
ii.2) Si las clases son intervalos: el intervalo (o intervalos) de mayor frecuencia,
aceptando como representante su marca de clase.
Ejemplo 15: Utilizando la información del ejemplo 2 calcular e interpretar la
moda.
Ejemplo 16: Utilizando la información del ejemplo 3 calcular e interpretar la

moda.
3.2 Medidas de Tendencia no Central o de Posición
A veces es necesario dividir la distribución en grupos homogéneos de distinto

tamaño, no necesariamente la mitad, para lo cual se utilizan las medidas de
posición. Las más importantes son: Cuartiles (divide la distribución en 4 grupos
iguales), Deciles (divide la distribución en 10 partes iguales) o Percentiles (dividen
la distribución en 100 partes iguales).
Representación:
0___________________________________________________________________________100
Cálculo:
i) Si la variable no está agrupada en clases, es decir es discreta, será el valor
correspondiente al porcentaje de la medida de posición estudiada.
ii) Si los datos están agrupados en clases entonces se utiliza la siguiente
expresión, que es una generalización de la fórmula de la mediana, dado que
la mediana es un caso particular de medida de posición (Me = C2 = D5 =
P50)
n∗p
P n∗ p =Li−1 +
100
(
100
−N i−1
ni
ci )
Ejemplo 17: Utilizando la información del ejemplo 2 calcular e interpretar: cuartil
3, decil 2 y percentil 63.
Ejemplo 18: Utilizando la información del ejemplo 3 calcular e interpretar: cuartil
1, decil 4 y percentil 82.
3.3 Medidas de Dispersión
En el apartado 3.1 definimos una serie de medidas de tendencia central cuyo objeto
era sintetizar toda la información de la muestra. Vamos a ver hasta que punto, para
una determinada distribución de frecuencias, estas medidas de tendencia central son
representativas como síntesis de toda información. A la mayor o menor separación de
los valores respecto de su valor central, que se pretende que sea su síntesis, se le
llama dispersión o variabilidad. Existen dos tipos de medidas de dispersión:
3.3.1 Medidas de dispersión absolutas: Medidas en las unidades de la muestra.

________________________________________________________________________________
i) Definiremos la Varianza S 2x a:
n
1
S
2
x n ∑ ( x j − x̄ )2
= j=1 (n  Tamaño de la muestra)
 Si los datos están agrupados es clases:
K K
1
Sx
2
n
∑ j ( j ) ∑ f j ( x j− x̄ )2
n x − x̄ 2
=
= j=1 j=1 (K  Número de clases)
Proposición: Existen fórmulas alternativas para la varianza:

n
1
2
Sx ∑ x 2j − x̄ 2
= n j=1 (n  Tamaño de la muestra)
 Si los datos están agrupados es clases:
K K
1
S
2
x ∑ n x 2 − x̄2 = ∑ f j x 2j − x̄ 2
n j=1 j j
= j=1 (K  Número de clases)
 A la varianza no le afectan los cambios de origen, pero sí los cambios de escala.

ii) Definiremos la Desviación Típica a la raíz cuadrada de la varianza
S x =√ S2x
Ejemplo 19: Utilizando la información del ejemplo 2 calcular e interpretar

Varianza y Desviación Típica.
Ejemplo 20: Utilizando la información del ejemplo 3 calcular e interpretar Varianza y

Desviación Típica.
3.3.2 Medidas de dispersión relativas: No poseen unidades.

___________________________________________________________________________________
Son coeficientes que poseen la ventaja de ser adimensionales. Suelen ser válidos para
comparar dos distribuciones con distintas medidas de centralización y dispersión, así
como distribuciones expresadas en distintas unidades.
Sx
i) Llamaremos Coeficiente de Variación de Pearson a CV x = x 100
x́
(número de veces que S contiene a x̄ )
Propiedades del Coeficiente de Variación:

Cuanto menor sea el coeficiente en valor absoluto, menor será la dispersión y por
tanto será mayor la representatividad de x̄ .
Ventajas: Utiliza toda la información de la muestra.

Inconvenientes: Es representativo si x̄ tiende a 0. Varía con los cambios de origen.
Ejemplo 21: Utilizar los resultados obtenidos para el ejemplo 3 y calcular e

interpretar el coeficiente de variación.
Ejemplo 22: La cantidad de dinero invertido en un instrumento financiero por parte
de dos empresas se resume de la siguiente manera:
Empresa A (en millones de pesos): Media = 15,16; Varianza = 31,13
Empresa B (en dólares): Media = 4,16; Varianza = 3,02
Compara la inversión realizada por ambas empresas, comentar los resultados.
3.4 Medidas de Forma
En los apartados anteriores sintetizábamos la información, utilizábamos medidas de

posición y estudiábamos la dispersión de distribuciones de frecuencias. Ahora bien,
por lo general necesitamos conocer más información sobre el comportamiento de
dichas distribuciones. En este apartado estudiaremos las distribuciones según la
forma de su representación gráfica.
Las medidas de forma se dividen en:
a) Medidas de Asimetría
Las medidas de asimetría se dirigen a elaborar un indicador que permita
establecer el grado de simetría (o asimetría) que presenta la distribución, sin
necesidad de llevar a cabo su representación gráfica.
i) Medidas de Asimetría Absolutas

Tomaremos como medida de asimetría absoluta:
n
ni
m3 = ∑ ( xi − x̄ )3
así, si
N i =1
m 3 =0 : DISTRIBUCIÓN SIMETRICA
m3 > 0 : DISTRIBUCION ASIMETRICA POSITIVA ( o a derechas ).
m3 < 0 : DISTRIBUCION ASIMETRICA NEGATIVA ( o a izquierdas ).
¿
¿ {¿ {¿ ¿ ¿
ii) Medidas de Asimetría Relativas

Llamaremos coeficiente de asimetría de Fisher a
n
n
m3
∑ ( x i − x̄ )3 Ni
i =1
g1 = =
S3 n ni 3
( ∑ ( x i − x̄ )2
i =1 N ) 2
 Sigue la misma regla de signos de m3.

 g1 es invariante frente a cambios de escala y origen.
 Como todas las medidas relativas no posee unidades.
 Todas ellas siguen la misma regla de signos de m3.
Ejemplo 23: Utilizar los datos del ejemplo 3 y valorar gráfica y numéricamente la
simetría de la distribución.
b) Medidas de curtosis o apuntamiento

Las medidas de curtosis se aplican a distribuciones campaniformes (Normales),
tratan de estudiar la distribución de frecuencias en la zona central de la
distribución. La idea del apuntamiento de una distribución surge de la
comparación de frecuencias de los valores centrales de la distribución
considerada con la frecuencia de dichos valores en una distribución tipo con
media y varianza iguales a las de la distribución que se compara. Esta
distribución tipo es la llamada distribución Normal, que corresponde a
fenómenos muy corrientes en la naturaleza, y cuya representación gráfica es
una campana de Gauss, que estudiaremos con detalle en la segunda unidad y
que está dada por la función:
2
1 ( x −s)
−
1 2 s2
f ( x )= e
s √2 p
i) Llamaremos coeficiente de apuntamiento o de curtosis a
{
g 2=0 : MESOCURTICA
m4
g2 = 4 −3 as, si g2 > 0 : LEPTOCURTICA
S
g2 < 0 : PLATICURTICA
 g2 es invariante frente a cambios de escala y origen.

 Es una medida relativa, esto es, no posee unidades.
Ejemplo 24: Utilizando la información del ejemplo 3, calcular e interpretar la
curtosis de la distribución en estudio, tanto gráfica como numéricamente.

Unidad 1 - Parte 1 - 1143

Transféré par

Informations du document

Titre original

Copyright

Formats disponibles

Partager ce document

Partager ou intégrer le document

Options de partage

Avez-vous trouvé ce document utile ?

Ce contenu est-il inapproprié ?

Droits d'auteur :

Formats disponibles

Unidad 1 - Parte 1 - 1143

Transféré par

Droits d'auteur :

Formats disponibles

DEPARTAMENTO DE CIENCIAS MATEMATICAS Y FISICAS

 Se llama estadística a la ciencia que estudia el método científico para recoger,

 En todo proceso estadístico se efectúan las siguientes etapas:

 Población, colectivo o universo al conjunto de todos los elementos que

 Muestra a un subconjunto de la población, y tamaño al número de elementos

Posibles estudios en una población

Por lo general, cuando queremos efectuar un estudio a una determinada población,

 Censo: Obtenemos los datos de todos y cada uno de los miembros de la

 Muestreo al azar: Obtenemos los datos de una muestra representativa de la

Las variables a estudiar se pueden clasificar en:

 Cualitativa o atributos: Toma valores no numéricos. Estas variables pueden

 Cuantitativa: Toma valores numéricos. A su vez se subdividen en:

Ejemplo 1: Clasificar las siguientes variables:

a) Número de accidentes laborales en un día.

1. Resumen en tablas de frecuencia

Frecuencia acumulada absoluta: Ni = n1 + n2 + … + ni , el número de datos que hay

Definición: llamaremos distribución de frecuencias al conjunto de valores que ha

Cuando el número de datos es suficientemente grande, conviene agruparlos en

 Para determinar el número de intervalos o clases se utiliza la regla de Sturges,

 Dado un intervalo, llamaremos Li al extremo superior del intervalo, y Li–1 al

 Representaremos la distribución de frecuencias agrupada en intervalos por el par

Llamaremos longitud del intervalo a ci = Li  Li1 (En algunos casos, lo cual es

Llamaremos marca de clase a un representante de cada intervalo, que por lo general

Ejemplo 2: Se tiene la siguiente información referida al número de reclamos por día

Ejemplo 3: Se registra el tiempo (en segundos) que tarda un equipo de trabajo

Resumir la información en 5 clases o intervalos, determinando la marca de cada

Para fenómenos cualitativos o atributos

2.2 Gráficos de barra: En ellos cada barra es proporcional a la cantidad de

Resumir gráficamente esta información e interpretarla.

2.3 Si la distribución no está agrupada en intervalos:

a) Diagrama de barras: Si son frecuencias no acumuladas: Consiste en poner en

Ejemplo 5: Utilizando la información del ejemplo 2, representar gráficamente

b) Diagrama de escalera : Si son frecuencias acumuladas: Consiste en poner en

2.4 Si la distribución está agrupada en intervalos:

a) Histograma de frecuencias. El histograma dependerá de que la longitud del

1) Si la longitud del intervalo es constante: Consiste en representar:

2) Si la longitud del intervalo no es constante: Consiste en representar:

Ejemplo 8: Utilizando la información del ejemplo 3, representar gráficamente

b) Polígono de frecuencias u ojiva: Se obtiene de la siguiente manera:

1) La longitud del intervalo es constante:

2) La longitud del intervalo no es constante:

Ejemplo 9: Utilizando los gráficos del ejemplo 7, representar los respectivos

3. Medidas Numéricas de Resumen

3.1 Medidas de Tendencia Central o de Centralización

a) Definiremos como Media Aritmética, representada como x a:

 Si los datos no están agrupados:

 Si los datos están agrupados:

Ejemplo 11: Utilizando la tabla resumen del ejemplo 2, calcular e interpretar la

Ejemplo 12: Utilizando la tabla resumen del ejemplo 3, calcular e interpretar la

b) Definiremos como Mediana, (representada como: Me o ~ x ) al valor que separa a

 Si los datos no están agrupados:

 Si los datos están agrupados en clases:

i) Si las clases son valores: La clase central.

Ejemplo 13: Utilizando la tabla resumen del ejemplo 2, calcular e interpretar la

Ejemplo 14: Utilizando la tabla resumen del ejemplo 3, calcular e interpretar la

c) Definiremos la Moda como el valor más frecuente en la muestra. (La moda no

i) Si los datos no están agrupados: Será el valor que más se repite

Ejemplo 16: Utilizando la información del ejemplo 3 calcular e interpretar la

3.2 Medidas de Tendencia no Central o de Posición

A veces es necesario dividir la distribución en grupos homogéneos de distinto

3.3 Medidas de Dispersión

3.3.1 Medidas de dispersión absolutas: Medidas en las unidades de la muestra.

Proposición: Existen fórmulas alternativas para la varianza: