Académique Documents
Professionnel Documents
Culture Documents
I. INTRODUCCIÓN
1
Departamento de Evaluación, Medición y Registro Educacional. Nociones Básicas de Estadística.
Universidad de Chile.
2
Escobedo, C. (2008). Apuntes de Estadística para Geógrafos. Universidad de Chile.
III. CONCEPTOS BÁSICOS RELATIVOS A LA ESTADÍSTICA
3.2 Muestra
3.3 Variable
4.1.1 Discretas
4.1.2 Continuas
4.2.1 Nominales
4.2.2 Ordinales
Solución:
La siguiente tabla muestra la solución de cada una de las interrogantes
anteriores.
V. TABLAS DE FRECUENCIA
3
Canavos, G.(1992): PROBABILIDAD Y ESTADÍSTICA, Editorial McGraw-Hill.
ESTADÍSTICA PARA LA GESTIÓN – MÓDULO 1 – IPCHILE VIRTUAL
5.1.4 Frecuencia relativa acumulada
Para una muestra de tamaño n, de la cual se han extraído ‘k’ clases distintas,
una tabla de frecuencia de variable discreta se representa así.
Observe que:
𝑛 𝑛
� 𝑓𝑖 = 𝑛 � ℎ𝑖 = 100%
𝑘=1 𝑘=1
5.2.1 Ejemplo
1 0 3 2 0 5 1 3 5 5
0 2 1 5 5 2 5 4 0 0
5 5 4 4 2 1 3 4 5 1
2 5 5 0 4 5 0 2 5 4
0 2 0 3 5 1 0 0 4 2
Solución
i x fi Fi hi (%) Hi (%)
1 0 11 11 22% 22%
2 1 6 17 12% 34%
3 2 8 25 16% 50%
4 3 4 29 8% 58%
5 4 7 36 14% 72%
6 5 14 50 28% 100%
Total 50 --- 100% ---
5.3.1 Ejemplo
El Banco Estado decide hacer un registro con las 40 cuentas de ahorro personal
con saldo bajo (en miles de pesos). Los resultados son:
Solución
Para resolver se debe utilizar el criterio de Sturges. Se detallan los pasos a
continuación
𝑠 = 1 + 3,3 ∗ log(40)
𝑠 = 6,28
Como este número debe ser entero se utiliza las reglas de aproximación.
𝑠=6
Xmax: 1550
Xmin: 100
𝑋𝑚𝑎𝑥 − 𝑋𝑚𝑛
𝐴𝑖 =
𝑠
En nuestro ejemplo reemplazando las fórmulas tenemos que:
1595 − 100
𝐴𝑖 =
6
𝐴𝑖 = 249,16
𝐴𝑖 = 250
ESTADÍSTICA PARA LA GESTIÓN – MÓDULO 1 – IPCHILE VIRTUAL
Paso 4: Creación de los intervalos.
Si consideramos los 100 y les sumamos los 250 se obtiene los 350.Luego se
repite la misma secuencia, hasta llegar el número de intervalos (para nuestro ejercicio
es 6).
N° de cuentas de Ahorro
Saldo (Miles de $) (fi)
100 - 350
350 - 600
600 - 850
850 - 1100
1100 - 1350
1350 - 1600
Ahora se debe determinar cuántas personas tienen un saldo mayor e igual (límite
inferior) a $100.000 y menor $ 350.000 (límite superior). Se debe seguir con la misma
secuencia. El límite superior del último intervalo considera el menor e igual.
Saldo (Miles de
$) Xi fi Fi hi (%) Hi (%)
100 - 350 225 9 9 23% 23%
350 - 600 475 6 15 15% 38%
600 - 850 725 8 23 20% 58%
850 - 1100 975 3 26 8% 65%
1100 - 1350 1225 8 34 20% 85%
1350 - 1600 1475 6 40 15% 100%
TOTAL 40 100%
f2:6, Esto quiere decir que 6 clientes tienen en su cuenta de ahorro un monto que va
desde los $ 350.000 y menor a los $ 600.000.
F5: 34, Esto quiere decir que 34 clientes tienen en su cuenta de ahorro un monto
menor a los $ 1.350.000.
h1: 23%, Esto quiere decir que 23% de los clientes tiene en su cuenta de ahorro un
monto que va desde $100.000 y menor a los $ 350.000.
H4: 65%, Esto quiere decir que 65% de los clientes tienen en su cuenta de ahorro un
monto menor a los $ 1.100.000.
4
Martín Pliego, F. J. (1994): INTRODUCCIÓN A LA ESTADÍSTICA ECONÓMICA Y EMPRESARIAL. (Teoría y
práctica). Colección Plan Nuevo. Editorial AC.
6.1 Medidas de Tendencia Central para datos Agrupados y no
Balanza 1:
ESTADÍSTICA PARA LA GESTIÓN – MÓDULO 1 – IPCHILE VIRTUAL
Balanza 2:
Sea X, una variable discreta. La siguiente tabla resume los datos obtenidos de
X. En este caso, el valor de la media aritmética estará dado por:
ESTADÍSTICA PARA LA GESTIÓN – MÓDULO 1 – IPCHILE VIRTUAL
Donde xi representa al valor de la clase i-ésima, fi a la frecuencia absoluta de
la clase y n al tamaño de la muestra.
Ejemplo:
Solución:
ESTADÍSTICA PARA LA GESTIÓN – MÓDULO 1 – IPCHILE VIRTUAL
De donde:
Sea X, una variable continua. La siguiente tabla resume los datos obtenidos de
X:
Ejemplo:
Solución
Observación
6.1.4 Mediana
5
Martín Pliego, F. J. (1994): INTRODUCCIÓN A LA ESTADÍSTICA ECONÓMICA Y EMPRESARIAL. (Teoría y
practica). Colección Plan Nuevo. Editorial AC.
1. Si n es impar, entonces, 𝑀𝑒 = 𝑋𝑛+1 correspondiente a la observación central.
Ejemplo
𝑛
• 𝐹𝑖−1 < 2
y en este caso 𝑀𝑒 = 𝑥𝑖
𝑛 𝑥𝑖−1 +𝑥𝑖
• 𝐹𝑖−1 = 2
y en este caso 𝑀𝑒 = 2
ESTADÍSTICA PARA LA GESTIÓN – MÓDULO 1 – IPCHILE VIRTUAL
Ejemplo:
Solución:
n
Vemos que la primera frecuencia acumulada absoluta que supera a 2 = 50, es
F3 = 60, como F2=35 < 50, se tiene Me = x3 =40.
n
Localizamos la primera frecuencia absoluta acumulada que supere a 2(esto
debido a la definición de mediana). Sea Fi sea frecuencia. Lo anterior significa que
n n n
Fi > 2. Además, siFi = 2, entonces la mediana será Me = Xi−1 ´. Si Fi > 2, pero
n
Fi−1 < 2, la mediana se encontrará en el i-ésimo intervalo, esto es, en el
intervaloXi−1 ´ − Xi ´.
n 43
Del ejemplo se tiene que 2 = 2
= 21,5, luego el intervalo mediano es 400-
500. Por lo que:
ESTADÍSTICA PARA LA GESTIÓN – MÓDULO 1 – IPCHILE VIRTUAL
Luego, se puede concluir que: “La mitad, o el 50%, de los empleados,
vende a lo más $483.846 diariamente”.
6.1.7 Moda
Ejemplo
437 446 451 452 467 470 474 483 484 488 500 505 506 507 509 510 510
511 515 518523 527 532 532 534 534 540 544 552 566
Nos damos cuenta que este conjunto de datos posee más de una moda.
Ejemplo:
d1: 15 - 6 = 9
d2: 15 – 13 = 2
7.1 Percentiles
Una medida de posición muy útil para describir una población, es conocida
como 'percentil'. En forma intuitiva podemos decir que es un valor tal que supera
un determinado porcentaje de los miembros de la población.
7.1.1 Cálculo del percentil de orden k para datos agrupados como variable
continua
6
Canavos, G.(1992): PROBABILIDAD Y ESTADÍSTICA, Editorial McGraw-Hill.
• Hi-1=k%, entonces Pk está contenido en el intervalo Xi−1 ´ − Xi ´, la fórmula es
Ejemplo:
Identificamos primero que el intervalo que contiene a P54 es 400- 500, luego
ingresamos los datos a la fórmula:
Equivalencias:
C1= P25
C2 = P50
C3= P75
ESTADÍSTICA PARA LA GESTIÓN – MÓDULO 1 – IPCHILE VIRTUAL
Los quintiles son valores que dividen a la muestra ordenada en forma
ascendente (o descendente) en 5 partes iguales. Un cuartil de orden k, con k = 1,
2,3 y 4 denotado como Qk es aquel valor de la variable que deja atrás al 20%,
40%, 60% y 80% de las observaciones de la variable.
Equivalencias:
Q1= P20
Q2 = P40
Q3= P60
Q4 = P80
Equivalencias:
D1= P10
D2 = P20
D3= P30
D4 = P40
D5 = P50
D6 = P60
D7 = P70
D8 = P80
D9 = P90
8.2 Varianza
La varianza se define como el promedio cuadrático de las desviaciones de
las observaciones respecto del promedio de estos datos. La varianza está
denotada por σx 2 y para datos agrupados se calcula a partir de la fórmula:
7
Canavos, G.(1992): PROBABILIDAD Y ESTADÍSTICA, Editorial McGraw-Hill.
ESTADÍSTICA PARA LA GESTIÓN – MÓDULO 1 – IPCHILE VIRTUAL
Esta última expresión tiene algunas ventajas sobre la anterior, debido a que
se producen menores errores de redondeo al utilizarla.
En muchos textos (especialmente, en los textos de probabilidad e inferencia
estadística) se hace uso de la siguiente expresión para calcular la varianza:
O bien:
Observación
Observaciones generales
• Cuanto más disperso sean los datos, más aumentará el rango, el rango
intercuartil, la varianza, la desviación estándar y el coeficiente de variación.
• Si las observaciones son todas iguales (de manera que no hay variación en
los datos), el rango, el rango intercuartil, la varianza, la desviación estándar
y el coeficiente de variación serán iguales a cero.
Muestra 1 (CI<95)
8
Canavos, G.(1992): PROBABILIDAD Y ESTADÍSTICA, Editorial McGraw-Hill.
ESTADÍSTICA PARA LA GESTIÓN – MÓDULO 1 – IPCHILE VIRTUAL
Cada par de datos (xi, yi) representa a los valores particulares de las
variables X e Y que se observan en un individuo de la muestra.
Ejemplo
Si se agrupan los
valores de la variable X en
tres intervalos, se obtiene una
tabla de frecuencias
bidimensionales como la que
sigue:
ESTADÍSTICA PARA LA GESTIÓN – MÓDULO 1 – IPCHILE VIRTUAL
Nótese que los valores de la primera fila de la tabla bidimensional (celdas
amarillas) corresponden a la distribución de personas según años de estudio, que
tienen como mínimo 18 años y menos de 22. Por ejemplo, en este rango de edad
hay 3 personas que tienen 12 años de estudio, lo que puede comprobarse
fácilmente, contando cuántas personas pertenecen a este rango de edad
(amarillo) y al mismo tiempo tienen 12 años de estudio en la tabla original:
En donde:
•
• n: es el tamaño de la muestra
Ejemplo:
Ejemplo
Del grupo de personas del Sur de Chile del ejemplo anterior, se desea solo
estudiar las características de la variable Edad (X) de aquellas personas que
tienen 14 años de estudio. En la tabla bidimensional, solo se considerará entonces
la columna donde Y = 14:
ESTADÍSTICA PARA LA GESTIÓN – MÓDULO 1 – IPCHILE VIRTUAL
Asimismo, es posible representar aisladamente la distribución de
frecuencias de la variable X condicionada a Y=14, es decir, X/Y=14, como sigue:
Media Marginal:
X: Edad en años.
Y: Estatura en centímetros.
ESTADÍSTICA PARA LA GESTIÓN – MÓDULO 1 – IPCHILE VIRTUAL
Es evidente que existe una relación de dependencia entre estas dos
variables, es más, se esperaría que a medida que X aumenta, aumentase también
Y.
Sabemos que de ‘alguna manera’ estas dos variables están relacionadas,
no sabemos específicamente cómo ni en qué grado, pero existen formas analíticas
y gráficas de averiguarlo.
• Características principales.
Construcción
Ejemplo:
9
Canavos, G.(1992): PROBABILIDAD Y ESTADÍSTICA, Editorial McGraw-Hill.
ESTADÍSTICA PARA LA GESTIÓN – MÓDULO 1 – IPCHILE VIRTUAL
Nótese que, por ejemplo, el par (166, 54), ubicado en la séptima fila,
representa la información de un individuo de la muestra. En este caso una persona
que mide 166cm y pesa 54kg.
Cada par de datos (xi, yi) es representado por un punto P del plano
cartesiano, con abscisa xi y ordenada yi.
9.4 Covarianza
La covarianza Sxy, es una medida que nos hablará de la variabilidad
conjunta de dos variables cuantitativas, en otras palabras, la covarianza indica la
existencia o no de relación entre dos variables numéricas.
Cuando los puntos se reparten de modo más o menos homogéneo entre los
cuadrantes primero y tercero, y segundo y cuarto, se tiene que Sxy cercano a 0.
Eso no quiere decir de ningún modo que no pueda existir relación entre las
dos variables, ya que ésta puede existir como se aprecia en la figura de la
derecha. 10
10
Martín Pliego, F. J. (1994): INTRODUCCIÓN A LA ESTADÍSTICA ECONÓMICA Y EMPRESARIAL. (Teoría y
práctica). Colección Plan Nuevo. Editorial AC.
ESTADÍSTICA PARA LA GESTIÓN – MÓDULO 1 – IPCHILE VIRTUAL
En síntesis
• Si los puntos se reparten con igual intensidad alrededor de (𝑥̅ , 𝑦�) Sxy
cercano a 0 (no hay relación lineal).
Ejemplo
Solución
Considerando la fórmula:
Así pues, es necesario definir una medida de la relación entre dos variables,
y que no esté afectada por los cambios de unidad de medida. Una forma de
conseguir este objetivo es dividir la covarianza por el producto de las desviaciones
típicas de cada variable, ya que así se obtiene un coeficiente adimensional, r, que
se denomina coeficiente de correlación lineal de Pearson: 11
11
Martín Pliego, F. J. (1994): INTRODUCCIÓN A LA ESTADÍSTICA ECONÓMICA Y EMPRESARIAL. (Teoría y
práctica). Colección Plan Nuevo. Editorial AC.
•
• Cuando |r| esté próximo a uno, se tiene que existe una relación lineal
muy fuerte entre las variables.
Figura 1
Figura 2
Figura 4
Ejemplo
Luego la covarianza:
Se concluye que existe una fuerte relación lineal entre las variables, pues r
es muy cercano a 1. Corroboremos lo anterior con un diagrama de dispersión:
Criterio Importante
X. MODELOS DE REGRESIÓN
Uno de los objetivos que se persiguen, al estudiar conjuntamente dos
variables, es encontrar alguna forma de poder predecir los valores de una de ellas
conocido el valor de la otra variable.
En este sentido, es lógico pensar que, si hay una curva en torno a la cual se
agrupan los puntos de un diagrama de dispersión, ésta ha de dar una
aproximación de los valores reales. Un análisis que pretende determinar la curva
que mejor aproxima los datos en un diagrama de dispersión es conocido como
Modelos de Regresión.
12
Martín Pliego, F. J. (1994): INTRODUCCIÓN A LA ESTADÍSTICA ECONÓMICA Y EMPRESARIAL. (Teoría y
práctica). Colección Plan Nuevo. Editorial AC.
ESTADÍSTICA PARA LA GESTIÓN – MÓDULO 1 – IPCHILE VIRTUAL
Con el menor error posible entre Y e �
Y.
Esto significa que si la estatura del padre es 180 cm., la estatura del
hijo pronosticado por el modelo será, aproximadamente, 175,3 cm.
Coeficiente a
Ejemplo:
Obtuvimos que: