Vous êtes sur la page 1sur 18

DEPARTAMENTO DE CIENCIAS MATEMATICAS Y FISICAS

Unidad 1 – Parte 1.

La Investigación Científica

Es el nombre general que obtiene el largo y complejo proceso en el cual los avances
científicos son el resultado de la aplicación del método científico para resolver
problemas o tratar de explicar determinadas observaciones.
Se han descrito diferentes tipos de investigación entre disciplinas, así como una
terminología específica. Las definiciones más comúnmente aceptadas son las usadas
para referirse al incremento en el nivel de interacción entre las disciplinas:
Multidisciplinariedad: en este nivel de investigación la aproximación al objeto de
estudio se realiza desde diferentes ángulos, usando diferentes perspectivas
disciplinarias, sin llegar a la integración.
Interdisciplinariedad: este nivel de investigación se refiere a la creación de una
identidad metodológica, teórica y conceptual, de forma tal que los resultados sean
más coherentes e integrados.

Rudecindo Ortega 02950 / matfis@uct.cl/ Fono (45) 2205615 - (45) 2205412 / http://www.uct.cl / / Temuco / Chile
Elementos de Estadística Descriptiva.

Concepto de Estadística

 Se llama estadística a la ciencia que estudia el método científico para recoger,


analizar y resumir datos, así como para obtener conclusiones válidas y tomar
decisiones razonables.

 En todo proceso estadístico se efectúan las siguientes etapas:


1. Recogida de datos.
2. Organización y presentación.
3. Caracterización.
4. Análisis y conclusiones.

Concepto Básicos

Llamaremos:
 Individuos o elementos a las personas u objetos que contienen cierta
información que se desea estudiar.

 Población, colectivo o universo al conjunto de todos los elementos que


cumplen una o varias características y que por lo tanto son el objeto de
nuestro estudio.

 Muestra a un subconjunto de la población, y tamaño al número de elementos


de esa muestra.

Posibles estudios en una población

Por lo general, cuando queremos efectuar un estudio a una determinada población,


podemos hacerlo de dos formas:

 Censo: Obtenemos los datos de todos y cada uno de los miembros de la


población.

 Muestreo al azar: Obtenemos los datos de una muestra representativa de la


población elegida aleatoriamente.

Rudecindo Ortega 02950 / matfis@uct.cl/ Fono (45) 2205615 - (45) 2205412 / http://www.uct.cl / / Temuco / Chile
Variables: Tipos de Características en una Población

Las variables a estudiar se pueden clasificar en:

 Cualitativa o atributos: Toma valores no numéricos. Estas variables pueden


estar en escala:
a) Nominal: aquellas variables cualitativas a las que sólo es posible dar
nombre.
b) Ordinal: aquellas variables cualitativas a las que, además de dar nombre es
posible ordenar

 Cuantitativa: Toma valores numéricos. A su vez se subdividen en:


a) Discretas: Sólo pueden tomar valores finito o numerable de valores
(generalmente enteros)
b) Continuas: Pueden tomar cualquier valor en un intervalo (que puede ser
finito o infinito)

Ejemplo 1: Clasificar las siguientes variables:

a) Número de accidentes laborales en un día.


b) Temperatura medida en grados centígrados en un observatorio cada hora.
c) Vida media de los ascensores de una empresa.
d) Ingresos medios de los ingenieros comerciales al año.
e) Las contestaciones en una encuesta:  Difícil  Fácil  Muy Fácil
f) Ventas mensuales de una empresa.
g) Tasa de interés mensual de un instrumento.
h) Ganancias brutas percibidas por una empresa.
i) Grado de satisfacción con la calidad de un producto.
j) Las contestaciones en una encuesta: __ Si __ No

Análisis Unidimensional.
La información obtenida por cualquiera de los mecanismos antes mencionados es
necesario resumirla de la mejor manera para que pueda ser analizada correctamente,
dicho resumen puede hacerse de tres formas diferentes, todas ellas complementarias
entre sí:

1. Resumen en tablas de frecuencia


2. Resumen gráfico
3. Resumen numérico

Rudecindo Ortega 02950 / matfis@uct.cl/ Fono (45) 2205615 - (45) 2205412 / http://www.uct.cl / / Temuco / Chile
1. Distribución de los Datos Resumidos en Tablas de Frecuencias
Definiremos:
Tamaño de la muestra: n el número de elementos observados o tamaño de la
muestra (en el caso de que sea finita)

Datos: x1, x2, …, xi, … a los valores de la variable aleatoria obtenidos en la muestra,
en los cuales puede haber valores repetidos.

Frecuencia absoluta o repetición: ni, el número de veces que se repite el valor xi.
ni
Frecuencia relativa: fi = n , el cociente de la frecuencia absoluta y el tamaño de la
muestra n.

Frecuencia acumulada absoluta: Ni = n1 + n2 + … + ni , el número de datos que hay


iguales o inferiores al dato xi.
Ni
Frecuencia acumulada relativa: Fi = n , el cociente de la frecuencia acumulada
absoluta entre el tamaño de la muestra n.

Definición: llamaremos distribución de frecuencias al conjunto de valores que ha


tomado una variable con sus frecuencias correspondientes. Suele representarse por
pares (xi; ni) ó (xi; fi).

Cuando el número de datos es suficientemente grande, conviene agruparlos en


clases o intervalos al igual que cuando son continuos, de la siguiente forma:

 Para determinar el número de intervalos o clases se utiliza la regla de Sturges,


que consiste en calcular:
1 + 3,322 log n (donde n es el tamaño de la muestra)

 Dado un intervalo, llamaremos Li al extremo superior del intervalo, y Li–1 al


extremo inferior. Por lo general consideraremos intervalos del tipo (Li–1, Li].

 Representaremos la distribución de frecuencias agrupada en intervalos por el par


(Li–1 – Li; ni).

Llamaremos longitud del intervalo a ci = Li  Li1 (En algunos casos, lo cual es


preferible, la longitud del intervalo es constante para todos los intervalos, y lo
representamos como c)

Rudecindo Ortega 02950 / matfis@uct.cl/ Fono (45) 2205615 - (45) 2205412 / http://www.uct.cl / / Temuco / Chile
Llamaremos rango o recorrido a Re = max{xi} – min{xi}, la diferencia entre el mayor y
el menor valor de la variable (En el caso de la longitud de los intervalos sea c
constante se tiene que Re = {nº de intervalos}  c)

Llamaremos marca de clase a un representante de cada intervalo, que por lo general


Li 1  Li
es el punto medio del intervalo (Li1, Li], esto es, xi = 2 .
ni
di 
Llamaremos densidad de frecuencia de un intervalo a ci utilizada cuando los
intervalos no tienen la misma longitud.

Ejemplo 2: Se tiene la siguiente información referida al número de reclamos por día


recibidos por una empresa de servicios, valorados durante un mes en una empresa:
4 3 5 5 1 4 0 1 2 5 1 5 1 0 2 3 4 1 0 1 4 2 1 2 4 3 4 0 4 1
Resumir la información en una tabla de frecuencias e interpretarla.

Ejemplo 3: Se registra el tiempo (en segundos) que tarda un equipo de trabajo


administrativo, conformado por 12 personas, en realizar una determinada tarea:

53, 61, 55, 62, 51, 66, 74, 58, 81, 63, 62, 58, 60, 57, 60, 61, 54, 59, 64, 77

Resumir la información en 5 clases o intervalos, determinando la marca de cada


clase y sus frecuencias e interpretar los resultados.

Rudecindo Ortega 02950 / matfis@uct.cl/ Fono (45) 2205615 - (45) 2205412 / http://www.uct.cl / / Temuco / Chile
2. Resumen a través de Representaciones Gráficas

Existen muchos tipos de gráficos, dependiendo de una serie de factores como: el tipo
de variable a resumir o lo que se quiere resaltar, entre otros.

Para fenómenos cualitativos o atributos

2.1 Gráficos Sectoriales o de Pastel: En ellos las áreas de cada sector son
proporcionales a la cantidad de datos de cada uno de ellos.

2.2 Gráficos de barra: En ellos cada barra es proporcional a la cantidad de


datos que hay en cada una de las categorías de la variable en estudio.

Ejemplo 4: Una encuesta a 200 consumidores a los que se les pide valorar su nivel
de satisfacción con un producto alimentación, resumido en la siguiente tabla:
1 nada satisfecho 81
2 poco satisfecho 69
3 ni satisfecho ni insatisfecho 32
4 Bastante satisfecho 12
5 muy satisfecho 6

Resumir gráficamente esta información e interpretarla.

Rudecindo Ortega 02950 / matfis@uct.cl/ Fono (45) 2205615 - (45) 2205412 / http://www.uct.cl / / Temuco / Chile
Para fenómenos cuantitativos y/o variables aleatorias

2.3 Si la distribución no está agrupada en intervalos:

a) Diagrama de barras: Si son frecuencias no acumuladas: Consiste en poner en


el eje de la abscisa los valores de la variable x, y en el eje de ordenadas las
frecuencias.

Ejemplo 5: Utilizando la información del ejemplo 2, representar gráficamente


el resumen de frecuencias absolutas/relativas.

b) Diagrama de escalera : Si son frecuencias acumuladas: Consiste en poner en


el eje de abscisas los valores de la variable x, y en el eje de ordenadas las
frecuencias acumuladas

Rudecindo Ortega 02950 / matfis@uct.cl/ Fono (45) 2205615 - (45) 2205412 / http://www.uct.cl / / Temuco / Chile
Ejemplo 6: Utilizando la información del ejemplo 2, representar gráficamente
el resumen de frecuencias absolutas/relativas acumuladas.

2.4 Si la distribución está agrupada en intervalos:

a) Histograma de frecuencias. El histograma dependerá de que la longitud del


intervalo sea constante o variable:

1) Si la longitud del intervalo es constante: Consiste en representar:


 sobre el eje X: los intervalos de las variables (Li1  Li)
 sobre el eje Y: las frecuencias de los intervalos. (ni )

2) Si la longitud del intervalo no es constante: Consiste en representar:


 sobre el eje X: los intervalos de las variables (Li1  Li)
ni
di 
 sobre el eje Y: las densidades de las frecuencias ci .
“El histograma puede hacerse con cualquier tipo de frecuencia (absolutas, relativa,
acumulada absoluta o acumulada relativa)”

Rudecindo Ortega 02950 / matfis@uct.cl/ Fono (45) 2205615 - (45) 2205412 / http://www.uct.cl / / Temuco / Chile
Ejemplo 7: Utilizando la información del ejemplo 3, representar gráficamente
el resumen de frecuencias absolutas/relativas.

Ejemplo 8: Utilizando la información del ejemplo 3, representar gráficamente


el resumen de frecuencias absolutas/relativas acumuladas.

b) Polígono de frecuencias u ojiva: Se obtiene de la siguiente manera:

1) La longitud del intervalo es constante:


Unimos los puntos del supremo de cada intervalo en el eje X con la
frecuencia sobre el eje Y (esto es, la línea que une los puntos (L0, 0), (L1, n1), …, (LN ,
nN))

2) La longitud del intervalo no es constante:


Unimos los puntos del supremo de cada intervalo en el eje X con la densidad
de frecuencia sobre el eje Y (esto es, la línea que une los puntos (L0, 0), (L1, d1), …,
(LN , dN))

Ejemplo 9: Utilizando los gráficos del ejemplo 7, representar los respectivos


polígonos de frecuencias

Rudecindo Ortega 02950 / matfis@uct.cl/ Fono (45) 2205615 - (45) 2205412 / http://www.uct.cl / / Temuco / Chile
2.5 Diagramas de Cajas.
El gráfico dibuja la distribución de los datos a través de los cuartiles asociados a la
variable, en el contexto de su rango.

3. Medidas Numéricas de Resumen

3.1 Medidas de Tendencia Central o de Centralización

La misión de estas medidas es dar una idea del valor central, alrededor del cual se
reparten los valores de la muestra obtenida.

a) Definiremos como Media Aritmética, representada como x a:

 Si los datos no están agrupados:


x 1 + x2 +…+ x n 1 n
x̄= = ∑ xj
n n j=1
(n es el tamaño de la muestra y xj son los valores que toma la muestra)

 Si los datos están agrupados:


Rudecindo Ortega 02950 / matfis@uct.cl/ Fono (45) 2205615 - (45) 2205412 / http://www.uct.cl / / Temuco / Chile
k
n1 x 1 +n2 x 2 +…+n k x k
x̄= =f 1 x 1 + f 2 x 2 +…+f k x k= ∑ f j x j
n j =1
(k es el número de clases, xj son las marcas de clase y fj son las frecuencias relativas)

Ejemplo 10: Los sueldos mensuales de cuatro trabajadores de una empresa son
380.000, 700.000, 910.000 y 1.840.000 pesos. Hallar la media. ¿Es representativa?

Propiedades de la media:
n
∑ (x j− x̄ )=0
 Se verifica que j=1 , donde n es el número de datos. (En el caso de que
K

n j  (x j  x)  0
los datos estén distribuidos por clases: j 1 , donde K es el número de clases)
 La media se ve afectada por cambios de escala y de origen.
 La media se ve afectada por los valores extremos (outliers)

Ejemplo 11: Utilizando la tabla resumen del ejemplo 2, calcular e interpretar la


media aritmética.

Ejemplo 12: Utilizando la tabla resumen del ejemplo 3, calcular e interpretar la


media aritmética.

b) Definiremos como Mediana, (representada como: Me o ~ x ) al valor que separa a


la muestra en dos partes, deja por encima de ella al 50% de los datos y por
debajo de ella al otro 50%. La calcularemos como:

 Si los datos no están agrupados:


x n+1
i) Si N es impar: Me = 2 (esto es, el valor central)

Rudecindo Ortega 02950 / matfis@uct.cl/ Fono (45) 2205615 - (45) 2205412 / http://www.uct.cl / / Temuco / Chile
xn+x
n
2 +1
2

ii) Si N es par: Me = 2 (esto es, el punto medio entre los dos valores
centrales)

 Si los datos están agrupados en clases:

i) Si las clases son valores: La clase central.


ii) Si las clases son intervalos: El intervalo central o mediano. Sin embargo, para
calcular el valor de la mediana existe una fórmula en el caso de que los intervalos
tengan igual longitud, dada por:

n
−N i−1
2
Li−1 + ci
Me = ni (donde ci = Li  Li1 la amplitud del intervalo)

Ejemplo 13: Utilizando la tabla resumen del ejemplo 2, calcular e interpretar la


mediana.

Ejemplo 14: Utilizando la tabla resumen del ejemplo 3, calcular e interpretar la


mediana.

c) Definiremos la Moda como el valor más frecuente en la muestra. (La moda no


tiene por qué existir y no tiene por qué ser única)

i) Si los datos no están agrupados: Será el valor que más se repite


ii) Si los datos están agrupados en clases:

ii.1) Si las clases son valores: el valor (o valores) con mayor frecuencia.
ii.2) Si las clases son intervalos: el intervalo (o intervalos) de mayor frecuencia,
aceptando como representante su marca de clase.
Rudecindo Ortega 02950 / matfis@uct.cl/ Fono (45) 2205615 - (45) 2205412 / http://www.uct.cl / / Temuco / Chile
Ejemplo 15: Utilizando la información del ejemplo 2 calcular e interpretar la
moda.

Ejemplo 16: Utilizando la información del ejemplo 3 calcular e interpretar la


moda.

3.2 Medidas de Tendencia no Central o de Posición

A veces es necesario dividir la distribución en grupos homogéneos de distinto


tamaño, no necesariamente la mitad, para lo cual se utilizan las medidas de
posición. Las más importantes son: Cuartiles (divide la distribución en 4 grupos
iguales), Deciles (divide la distribución en 10 partes iguales) o Percentiles (dividen
la distribución en 100 partes iguales).
Representación:

0___________________________________________________________________________100

Cálculo:
i) Si la variable no está agrupada en clases, es decir es discreta, será el valor
correspondiente al porcentaje de la medida de posición estudiada.
ii) Si los datos están agrupados en clases entonces se utiliza la siguiente
expresión, que es una generalización de la fórmula de la mediana, dado que
la mediana es un caso particular de medida de posición (Me = C2 = D5 =
P50)

n∗p
P n∗ p =Li−1 +
100
(
100
−N i−1
ni
ci )
Ejemplo 17: Utilizando la información del ejemplo 2 calcular e interpretar: cuartil
3, decil 2 y percentil 63.

Rudecindo Ortega 02950 / matfis@uct.cl/ Fono (45) 2205615 - (45) 2205412 / http://www.uct.cl / / Temuco / Chile
Ejemplo 18: Utilizando la información del ejemplo 3 calcular e interpretar: cuartil
1, decil 4 y percentil 82.

3.3 Medidas de Dispersión

En el apartado 3.1 definimos una serie de medidas de tendencia central cuyo objeto
era sintetizar toda la información de la muestra. Vamos a ver hasta que punto, para
una determinada distribución de frecuencias, estas medidas de tendencia central son
representativas como síntesis de toda información. A la mayor o menor separación de
los valores respecto de su valor central, que se pretende que sea su síntesis, se le
llama dispersión o variabilidad. Existen dos tipos de medidas de dispersión:

3.3.1 Medidas de dispersión absolutas: Medidas en las unidades de la muestra.


________________________________________________________________________________

i) Definiremos la Varianza S 2x a:
 Si los datos no están agrupados:
n
1
S
2
x n ∑ ( x j − x̄ )2
= j=1 (n  Tamaño de la muestra)
 Si los datos están agrupados es clases:
K K
1
Sx
2
n
∑ j ( j ) ∑ f j ( x j− x̄ )2
n x − x̄ 2
=
= j=1 j=1 (K  Número de clases)

Proposición: Existen fórmulas alternativas para la varianza:


 Si los datos no están agrupados:
n
1
2
Sx ∑ x 2j − x̄ 2
= n j=1 (n  Tamaño de la muestra)
 Si los datos están agrupados es clases:

Rudecindo Ortega 02950 / matfis@uct.cl/ Fono (45) 2205615 - (45) 2205412 / http://www.uct.cl / / Temuco / Chile
K K
1
S
2
x ∑ n x 2 − x̄2 = ∑ f j x 2j − x̄ 2
n j=1 j j
= j=1 (K  Número de clases)

 A la varianza no le afectan los cambios de origen, pero sí los cambios de escala.


ii) Definiremos la Desviación Típica a la raíz cuadrada de la varianza

S x =√ S2x

Ejemplo 19: Utilizando la información del ejemplo 2 calcular e interpretar


Varianza y Desviación Típica.

Ejemplo 20: Utilizando la información del ejemplo 3 calcular e interpretar Varianza y


Desviación Típica.

3.3.2 Medidas de dispersión relativas: No poseen unidades.


___________________________________________________________________________________
Son coeficientes que poseen la ventaja de ser adimensionales. Suelen ser válidos para
comparar dos distribuciones con distintas medidas de centralización y dispersión, así
como distribuciones expresadas en distintas unidades.

Sx
i) Llamaremos Coeficiente de Variación de Pearson a CV x = x 100

(número de veces que S contiene a x̄ )

Propiedades del Coeficiente de Variación:


Cuanto menor sea el coeficiente en valor absoluto, menor será la dispersión y por
tanto será mayor la representatividad de x̄ .

Ventajas: Utiliza toda la información de la muestra.


Inconvenientes: Es representativo si x̄ tiende a 0. Varía con los cambios de origen.

Ejemplo 21: Utilizar los resultados obtenidos para el ejemplo 3 y calcular e


interpretar el coeficiente de variación.

Rudecindo Ortega 02950 / matfis@uct.cl/ Fono (45) 2205615 - (45) 2205412 / http://www.uct.cl / / Temuco / Chile
Ejemplo 22: La cantidad de dinero invertido en un instrumento financiero por parte
de dos empresas se resume de la siguiente manera:
Empresa A (en millones de pesos): Media = 15,16; Varianza = 31,13
Empresa B (en dólares): Media = 4,16; Varianza = 3,02
Compara la inversión realizada por ambas empresas, comentar los resultados.

3.4 Medidas de Forma

En los apartados anteriores sintetizábamos la información, utilizábamos medidas de


posición y estudiábamos la dispersión de distribuciones de frecuencias. Ahora bien,
por lo general necesitamos conocer más información sobre el comportamiento de
dichas distribuciones. En este apartado estudiaremos las distribuciones según la
forma de su representación gráfica.
Las medidas de forma se dividen en:

a) Medidas de Asimetría
Las medidas de asimetría se dirigen a elaborar un indicador que permita
establecer el grado de simetría (o asimetría) que presenta la distribución, sin
necesidad de llevar a cabo su representación gráfica.

i) Medidas de Asimetría Absolutas


Tomaremos como medida de asimetría absoluta:
n
ni
m3 = ∑ ( xi − x̄ )3
así, si
N i =1
m 3 =0 : DISTRIBUCIÓN SIMETRICA
m3 > 0 : DISTRIBUCION ASIMETRICA POSITIVA ( o a derechas ).
m3 < 0 : DISTRIBUCION ASIMETRICA NEGATIVA ( o a izquierdas ).
¿
¿ {¿ {¿ ¿ ¿

ii) Medidas de Asimetría Relativas


Llamaremos coeficiente de asimetría de Fisher a

Rudecindo Ortega 02950 / matfis@uct.cl/ Fono (45) 2205615 - (45) 2205412 / http://www.uct.cl / / Temuco / Chile
n
n
m3
∑ ( x i − x̄ )3 Ni
i =1
g1 = =
S3 n ni 3

( ∑ ( x i − x̄ )2
i =1 N ) 2

 Sigue la misma regla de signos de m3.


 g1 es invariante frente a cambios de escala y origen.
 Como todas las medidas relativas no posee unidades.
 Todas ellas siguen la misma regla de signos de m3.

Ejemplo 23: Utilizar los datos del ejemplo 3 y valorar gráfica y numéricamente la
simetría de la distribución.

b) Medidas de curtosis o apuntamiento


Las medidas de curtosis se aplican a distribuciones campaniformes (Normales),
tratan de estudiar la distribución de frecuencias en la zona central de la
distribución. La idea del apuntamiento de una distribución surge de la
comparación de frecuencias de los valores centrales de la distribución
considerada con la frecuencia de dichos valores en una distribución tipo con
media y varianza iguales a las de la distribución que se compara. Esta
distribución tipo es la llamada distribución Normal, que corresponde a
fenómenos muy corrientes en la naturaleza, y cuya representación gráfica es
una campana de Gauss, que estudiaremos con detalle en la segunda unidad y
que está dada por la función:
2
1 ( x −s)

1 2 s2
f ( x )= e
s √2 p

i) Llamaremos coeficiente de apuntamiento o de curtosis a

{
g 2=0 : MESOCURTICA
m4
g2 = 4 −3 as’, si g2 > 0 : LEPTOCURTICA
S
g2 < 0 : PLATICURTICA

 g2 es invariante frente a cambios de escala y origen.


 Es una medida relativa, esto es, no posee unidades.
Rudecindo Ortega 02950 / matfis@uct.cl/ Fono (45) 2205615 - (45) 2205412 / http://www.uct.cl / / Temuco / Chile
Ejemplo 24: Utilizando la información del ejemplo 3, calcular e interpretar la
curtosis de la distribución en estudio, tanto gráfica como numéricamente.

Rudecindo Ortega 02950 / matfis@uct.cl/ Fono (45) 2205615 - (45) 2205412 / http://www.uct.cl / / Temuco / Chile

Vous aimerez peut-être aussi