Académique Documents
Professionnel Documents
Culture Documents
FACULTAD DE CIENCIAS
NATURALES Y MATEMÁTICAS
2
Profesora
• Gina Verónica Ochoa Jara
• Máster en Seguros y Riesgos Financieros
• Analista de Gestión de Proyectos de Investigación del Centro de
Estudios e Investigaciones Estadísticas FCNM-ESPOL
• Correo electrónico
• vochoa@espol.edu.ec
3
Trabajo
Autónomo
Práctica
Teórica
Libro Guía
• ZURITA, G. (2010), “Probabilidad y Estadística,
Fundamentos y Aplicaciones”, Segunda Edición,
Ediciones de la Facultad de Ciencias Naturales y
Matemáticas ESPOL, Guayaquil, Ecuador.
5
Estadística en la formación de un
ingeniero
• “Ningún recurso es tan escaso en las empresas como el
conocimiento estadístico. No hay conocimiento que
pueda contribuir tanto a mejorar la calidad, productividad
y competitividad de una empresa como el de los métodos
estadísticos”. (Deming)
• “Las herramientas estadísticas básicas deben ser
conocidas y utilizadas por todo el mundo en una
empresa, desde la alta gerencia a los operarios en las
líneas”. (Ishikawa)
7
Materia: Estadística
Profesora: Gina Verónica Ochoa Jara
FACULTAD DE CIENCIAS
NATURALES Y MATEMÁTICAS
9
Dato e Información
DATO INFORMACIÓN
Conceptos básicos
• Población Objetivo: Conjunto bien definido de elementos
que son objeto de medición.
• Unidad de Investigación: Elementos de la Población
Objetivo a los que se les efectúa las medidas bajo
análisis.
• Muestra: Subconjunto de n unidades de investigación
tomadas de la Población Objetivo de tamaño N > n.
• Observación: Cada uno de los valores incluidos en la
Muestra.
• Parámetro: Cantidad numérica calculada a partir de los
elementos de una población.
• Estimador: Cantidad numérica calculada a partir de los
elementos de una muestra.
11
Estadísticos de Orden
• Número de posición que ocupan los elementos de la
muestra, cuando los elementos están ordenados.
Tabla de Frecuencias
• Para tabular datos cuantitativos, y así facilitar la
exploración estadística de los mismos, se requiere definir
algunos términos y efectuar ciertos supuestos. Los
términos que necesariamente deben definirse son: Clase,
Marca de Clase, Frecuencia Absoluta, Frecuencia
Relativa, Frecuencia Acumulada Absoluta y
Frecuencia Acumulada Relativa.
15
1 [a1,a2)
2 [a2,a3)
3 [a3,a4)
. .
. .
. .
k [ak,ak+1)
Ejemplo
• Se tiene una Muestra de tamaño n = 50 datos y el mínimo
X(1) es igual a 42 mientras que el máximo X(50) es 106. Se
requiere determinar Clases para la Muestra.
• Desarrollo.
• Se nos sugiere tomar k = 7, de tal manera que
consideramos pertinente tomar,
…viene Ejemplo
• Restamos el valor máximo del intervalo A menos el
mínimo valor (110 – 40 = 70); y, dividimos ese valor para
el número de clases (70 / 7 = 10) y de esta forma
tenemos la longitud de cada intervalo.
• Esto hace posible que:
1 [a1,a2) (a1+a2)/2
2 [a2,a3) (a2+a3)/2
3 [a3,a4) (a3+a4)/2
. . .
. . .
. . .
k [ak,ak+1) (ak+ak+1)/2
1 [a1,a2) (a1+a2)/2 f1
2 [a2,a3) (a2+a3)/2 f2
3 [a3,a4) (a3+a4)/2 f3
. . . .
. . . .
. . . .
k [ak,ak+1) (ak+ak+1)/2 fk
Gráficos de Frecuencias
• Histograma de Frecuencias: Gráfico bidimensional
de “barras” en cuyo eje horizontal están señaladas
las k clases que se hayan definido, y en el eje
vertical se representan las Frecuencias Relativas de
cada una de ellas.
• Polígono de Frecuencia: Gráfico derivado del
Histograma de Frecuencia que utiliza como vértices
los puntos centrales superiores de las barras del
Histograma.
• Ojiva: Gráfico que ubica en el eje horizontal la
característica cuantitativa X que se está
investigando (coloca sobre el eje las k clases en que
hemos decidido organizar la Muestra de tamaño n),
y en el eje vertical la Frecuencia Acumulada
Relativa.
24
Construcción de la Ojiva
• El gráfico de una Ojiva se construye determinando (k + 1)
puntos y luego conectándolos de manera sucesiva y con
trazos continuos, de la siguiente manera:
• El primer punto tiene coordenadas (a1 , 0) donde a1 es el
extremo inferior de la Primera Clase;
• El segundo punto tiene coordenadas (a2 , F1/n) siendo a2
el extremo inferior de la Segunda Clase;
• El tercer punto tiene coordenadas (a3 , F2/n); y,
• Así sucesivamente hasta llegar al penúltimo punto que
tiene como coordenadas (ak , Fk-1/n); siendo el último
punto el que tiene coordenadas (ak+1 , Fk/n).
25
Ejemplo
• Las calificaciones obtenidas por 20 estudiantes de un
paralelo de Estadística de una institución de educación
superior son las siguientes:
• xT = (21 45 55 65 78 31 38 74
86 48 55 50 58 65 69 82
62 46 53 79)
…viene Ejemplo
• Se tiene una Muestra de tamaño n = 20 datos y el mínimo
X(1) es igual a 21 mientras que el máximo X(20) es 86.
1 [20 , 30)
2 [30 , 40)
3 [40 , 50)
4 [50 , 60)
5 [60 , 70)
6 [70 , 80)
7 [80 , 90
28
1 [20 , 30) 25
2 [30 , 40) 35
3 [40 , 50) 45
4 [50 , 60) 55
5 [60 , 70) 65
6 [70 , 80) 75
7 [80 , 90 85
29
1 [20 , 30) 25 1
2 [30 , 40) 35 2
3 [40 , 50) 45 3
4 [50 , 60) 55 5
5 [60 , 70) 65 4
6 [70 , 80) 75 3
7 [80 , 90 85 2
30
fi/n
0.30
0.25
0.25
0.20
0.20
0.15 0.15
0.15
0.10 0.10
0.10
0.05
0.05
0.00 0.00
0.00
15 [20,30) [30,40) [40,50) [50,60) [60,70) [70,80) [80,90] 95 X
34
fi/n
0.30
0.25
0.25
0.20
0.20
0.15 0.15
0.15
0.10 0.10
0.10
0.05
0.05
0.00
15 [20,30) [30,40) [40,50) [50,60) [60,70) [70,80) [80,90] 95 X
35
0.9 0.90
0.8
0.75
0.7
0.6
0.55
0.5
0.4
0.3 0.30
0.2
0.15
0.1
0.05
0
20 30 40 50 60 70 80 90 X
36
Cuartiles
• Primer Cuartil (Q1)
• Valor de X tal que el veinticinco por ciento de las
observaciones en la Muestra Ordenada toman valores
menores o iguales que Q1.
• Segundo Cuartil (Q2)
• Valor de X tal que el cincuenta por ciento de las
observaciones en la Muestra son menores o iguales que
Q2.
• Tercer Cuartil (Q3)
• Valor de X tal que el setenta y cinco por ciento de los
elementos en la Muestra toman valores menores o
iguales que Q3.
38
0.75
0.5
0.25
0
20 30 40 50 60 70 80 90 X
39
Deciles
• Los Deciles Muestrales se los denota por D1, D2, D3,
hasta D9.
• Se puede decir que cuando mas el diez por ciento de los
elementos en la Muestra toman valores menores o
iguales al Primer Decil D1;
• El veinte por ciento de los elementos en la Muestra toman
valores menores o iguales a D2; y,
• Así hasta llegar al Noveno Decil, D9, cuando el noventa
por ciento de las observaciones que conforman la
Muestra toman valores menores o iguales que D9.
40
0.9
0.8
0.7
0.6
0.5
0.4
0.3
0.2
0.1
0
20 30 40 50 60 70 80 90 X
41
Percentiles
• Los Percentiles Muestrales se los denota por P1, P2, P3,
hasta P99.
• El uno por ciento de los elementos en la Muestra toman
valores menores o iguales que P1, que es el denominado
Primer Percentil de la Muestra; y,
• El noventa y nueve por ciento son menores o iguales que
P99 el Nonagésimo Noveno Percentil de la Muestra.
42
20 30 40 50 60 70 80 90 X
43
Cuantiles
• Es procedente decir que Q1 = P25, que Q2 = D5 = P50 o
que Q3 = P75.
• Un cuantil no es un punto sobre el plano sino una
coordenada sobre el eje horizontal, por tanto es un valor
numérico; además los Cuantiles no tienen que
necesariamente ser valores que pertenezcan a la
Muestra.
44
Diagrama de Caja
• Esquema gráfico que permite obtener de manera rápida,
aunque no necesariamente muy precisa, la distribución
de los datos que conforman la Muestra.
• Comúnmente se lo “adosa” a una Ojiva, aunque es
posible también presentarlo aislado, siempre que se
tengan los valores correspondientes a los cuartiles Q1, Q2
y Q3, así como los valores máximo y mínimo en la
Muestra, esto es X(n) y X(1).
45
Diagrama de Caja
Ejemplo Calificaciones de los estudiantes
Fi/n
1
0.75
0.5
0.25
0
20 30 40 50 60 70 80 90 X
X(1)=21 X(n)=86
46
Tipos de Variables
• Cualitativas
• Si sus valores no se pueden asociar naturalmente a un número (no se pueden
hacer operaciones algebraicas con ellos).
• Nominales o Categóricas: Si sus valores no se pueden ordenar.
• Género, Grupo Sanguíneo, Religión, Nacionalidad, Raza humana, Tipo de
Colegio.
• Ordinales: Si sus valores se pueden ordenar.
• Nivel de Instrucción, Grado de una enfermedad, Categoría de un profesor
universitario.
• Cuantitativas o Numéricas
• Si sus valores son numéricos (tiene sentido hacer operaciones algebraicas con
ellos).
• Discretas: Si toman valores puntuales.
• Número de hijos, Número de máquinas con problemas, número de veces
que falla el suministro de energía por mes.
• Continuas: Si entre dos valores, son posibles infinitos valores intermedios.
• Tiempo que tarda el dar mantenimiento a una máquina, Edad, tiempo de
vida de un equipo.
47
Diagrama de Barras
Variable Cualitativa Nominal
“Especialidad del Bachiller Graduado de Ingeniero en la ESPOL”
Correspondiente a la Cohorte que ingresó a Ingeniería de la ESPOL en el año 1999
48
X =
X(i) +X(i +1)
= X (i) +
( X(i +1) − X(i) )
;
(i.5) 2 2
• Desarrollo.
• Ordenamos la muestra de tamaño n = 6
• xT = (1 3 5 7 8 9)
(X1 + X 2 + ... +X n ) n
xT = (4, 2, 6, 3, 5, 3) (X(n/2) +X([n/2] + 1))/2 si n es par
ni
X
x= =
n i =1 Moda=3 X([n + 1]/2) si n es impar
54
Formas de la Distribución
Media Cortada
• Se la denota por T y se la define como la Media
Aritmética del (1 – )100% por ciento de los datos
ordenados; suprimiendo, en una Muestra Ordenada,
/2(100%) de datos de la “parte superior” y /2(100%) de
la “parte inferior” en la Muestra.
• Este “recorte” supone que los valores extremos, si
existen, no serán considerados en el cálculo de T.
• Lo usual es tomar = 0.10 es decir, se calcula T0.10.
56
Media Cortada
• Si T = T0.10
• Entonces:
• T/2=0.10/2=T0.05
• Entonces no debemos usar:
• 0.05*100%=5%
• Si la muestra es de tamaño n=60
• Entonces deben suprimirse el 5% de 60, esto es, 3
observaciones en la parte inferior y 3 en la parte superior,
en la muestra ordenada.
57
Ejemplo
• En un laboratorio de Química Analítica se determina el
número de partes por millón de un metal pesado que se
encuentra disuelto en las aguas de un río del Litoral
Ecuatoriano. Luego de efectuar veinte observaciones se
obtiene una Muestra que es la siguiente:
• xT = (12 7 10 3 4 7 3 9 6 9 1 4 6 4 4 9 7 4 7 11)
…viene Ejemplo
• Media Aritmética
𝑋1 +𝑋2 +⋯+𝑋20 𝑋𝑖
• 𝑥ҧ = = σ20
𝑖=1 20
20
12+7+10+3+⋯+4+7+11
• 𝑥ҧ = = 6.35
20
• Ordenando la Muestra:
• (1 3 3 4 4 4 4 4 6 6 7 7 7 7 9 9 9 10 11 12)T
• Esto es:
• X(1 ) = 1; X(2 ) = 3; X(3) = 3; … ; X(19) = 11; X(20) = 12;
59
…viene Ejemplo
• Para calcular la Media Cortada T0.10, debemos prescindir del
5% de 20 = 1, esto es, en la Muestra original, de X(1) = 1 y
de X(20) = 12, por lo que el noventa por ciento restante de la
Muestra x es el vector,
• yT = (3 3 4 4 4 4 4 6 6 7 7 7 7 9 9 9 10 11)
• (3 + 3 + 4 + 4 + 4 + … + 9 + 9 + 9 + 10 + 11)/18 = 6.33
60
…viene Ejemplo
• Calculando la Mediana tenemos:
• m = 0.5(20+1) = 10.5
• Q2 = X(10.5) = X(10) + 0.5(X(11) – X(10))
• = 6 + 0.5(7 – 6)
• = 6.5
Media Ponderada
• Sumatoria de cada observación Xi multiplicada por “su”
peso o ponderación correspondiente i.
Media Ponderada
Nota Componente Teórico
Estudiante A
Peso Nota
Examen 0.5 75
Control de lectura 0.1 83
Lecciones 0.4 50
Medidas de Dispersión
T T
x = (1 2 3); x = (-5 2 9);
1 2
T T
x = (-10 -3 0 2 3 20); x = (0 2 4)
3 4
64
Medidas de Dispersión
Desviación Rango Rango
Varianza
Estándar Muestral Intercuartil
• Medida de la • Denominada • Diferencia entre • Diferencia entre
dispersión de una también el valor máximo y el Tercer Cuartil
variable X con Desviación Típica el valor mínimo y el Primero.
respecto a su media de una Muestra, de la Muestra. • Determina un
aritmética. se la denota por s • Mide la intervalo que
• Nunca es negativa. y se la define dispersión con la incluye el
• No tiene las mismas igual a la raíz longitud (mínima) cincuenta por
unidades que los cuadrada positiva de un intervalo en ciento central de
valores observados, de la Varianza. el que se ubica el observaciones
está en unidades 100% de las en la Muestra.
cuadráticas. observaciones
que constituyen
la Muestra.
n
(Xi − x )2
2
n
(Xi − x)
2
s = n −1 s = +
i =1
R = X(n) – X(1) RI = Q3 – Q1
i=1 n −1
65
Ejemplo
• Considerando las veinte observaciones tomadas en las
aguas de un río del Litoral Ecuatoriano del ejemplo
estudiado previamente:
• xT = (12 7 10 3 4 7 3 9 6 9 1 4 6 4 4 9 7 4 7 11)
…viene Ejemplo
• Siendo n = 20, ya encontramos que 𝑥ҧ = 6.35 por lo tanto
la Varianza es:
2 2 2
12 − 6.35 + 7 − 6.35 + ⋯ + 11 − 6.35
𝑠2 = = 8.87
19
𝑠 = 8.87 = 2.98
67
…viene Ejemplo
• Se tiene ya que X(1) = 1 y X(n) = X(20) = 12, por lo tanto el
Rango Muestral es:
• R = 12 – 1 = 11
Coeficiente de Variación
• Mide la “dispersión relativa” de X con respecto a la media
aritmética.
• Sirve como medida comparativa entre dos características
X y Y cuando las escalas en las que se miden cada
variable son distintas.
• Dada una Muestra XT = (X1 X2 ... Xn) que tiene Media
Aritmética 𝑥ҧ y Desviación Estándar 𝑠 , se define al
coeficiente de variación como:
s
V = 100
x
69
Ejemplo
• Las mediciones hechas con un micrómetro del diámetro
de un cojinete de bolas tienen una media de 3.92 mm y
una desviación estándar de 0.0152 mm, en tanto que las
mediciones realizadas con otro micrómetro de la longitud
sin estirar de un resorte tienen una media de 1.54
pulgadas y una desviación estándar de 0.0086 pulgadas.
¿Cuál de esos dos instrumentos de medición es
relativamente más preciso?
70
…viene Ejemplo
• Para el primer micrómetro, el coeficiente de variación es:
0.0152
𝑉= ∙ 100 = 0.39%
3.92
fi (Yi − y)2
k
s =
2
Varianza
i=1 n −1
• Donde:
• Yi es la i–ésima Marca de Clase
• fi es la Frecuencia Absoluta de la i–ésima Clase
• k representa el número total de clases en la Tabla de
Frecuencias
72
Agrupados
• Ejemplo. Con los datos del ejercicio relacionado con las
calificaciones obtenidas por 20 estudiantes de un paralelo
de Estadística de una institución de educación superior,
determinar la Media y Varianza de datos agrupados.
Frecuencia Frecuencia
Ordinal de Marca de Frecuencia Frecuencia
Clase Absoluta Relativa
la Clase Clase Absoluta Relativa
Acumulada Acumulada
1 [20 , 30) 25 1 0.05 1 0.05
2 [30 , 40) 35 2 0.10 3 0.15
3 [40 , 50) 45 3 0.15 6 0.30
4 [50 , 60) 55 5 0.25 11 0.55
5 [60 , 70) 65 4 0.20 15 0.75
6 [70 , 80) 75 3 0.15 18 0.90
7 [80 , 90 85 2 0.10 20 1.00
73
Agrupados
• Media de Datos Agrupados
(n = 20, k = 7) Ordinal de Marca de Frecuencia Frecuencia
Frecuencia Frecuencia
Clase Absoluta Relativa
la Clase Clase Absoluta Relativa
Acumulada Acumulada
1 [20 , 30) 25 1 0.05 1 0.05
2 [30 , 40) 35 2 0.10 3 0.15
3 [40 , 50) 45 3 0.15 6 0.30
4 [50 , 60) 55 5 0.25 11 0.55
5 [60 , 70) 65 4 0.20 15 0.75
6 [70 , 80) 75 3 0.15 18 0.90
7 [80 , 90 85 2 0.10 20 1.00
7
𝑓𝑖 𝑌𝑖 1 25 + 2 35 + ⋯ + 3 75 + 2(85)
𝑥ҧ = = = 58
20 20
𝑖=1
74
Agrupados
• Varianza de Datos Agrupados
(n = 20, k = 7) Frecuencia Frecuencia
Ordinal de Marca de Frecuencia Frecuencia
Clase Absoluta Relativa
la Clase Clase Absoluta Relativa
Acumulada Acumulada
1 [20 , 30) 25 1 0.05 1 0.05
2 [30 , 40) 35 2 0.10 3 0.15
3 [40 , 50) 45 3 0.15 6 0.30
4 [50 , 60) 55 5 0.25 11 0.55
5 [60 , 70) 65 4 0.20 15 0.75
6 [70 , 80) 75 3 0.15 18 0.90
7 [80 , 90 85 2 0.10 20 1.00
7
2
2
𝑓𝑖 𝑌𝑖 − 𝑦ത
𝑠 =
20 − 1
𝑖=1
1 25 − 58 2 + 2 35 − 58 2 + ⋯ + 2 85 − 58 2
= = 274.74
19
75
• Yi = Xi + .
y = x +
2 2 2
sy = α sx
77
• Teniendo que:
• No existen valores aberrantes abajo de Q1; y,
• Existe un valor aberrante arriba de Q3 y es 7.300.
82
1
x = n Y1n
• Donde:
• 1n es un vector de unos definido como 1n = (1 1 ... 1)T; y,
• Y es la matriz de datos
85
• Donde:
• I es la matriz identidad n n
• 1n es un vector de unos definido como 1n = (1 1 ... 1)T; y,
• Y es la matriz de datos
86
Coeficiente de Correlación
• Mide la fortaleza de la relación lineal que existe entre dos
variables X e Y. Se lo define como:
n
(x
i =1
i − x)(y i − y)
rxy =
n n
i =1
(x i − x)
2
i =1
(y i − y)
2
Matriz de Correlación
• Matriz simétrica de dimensión p p que resume las
correlaciones entre las variables.
Ejemplo
• A cinco estudiantes de “nivel superior” se les pregunta
aplicando un cuestionario, su edad en años, número de
hermanos e ingreso promedio mensual de su hogar, en
dólares, respondiendo ellos de la siguiente manera:
Número de Ingreso
Estudiante Edad
Hermanos Mensual
1 19 3 930
2 18 0 750
3 19 4 785
4 21 1 1230
5 20 3 955
…viene Ejemplo
• Se cuenta con p = 3 características de una Población
Objetivo constituida por estudiantes de nivel superior la
edad de los estudiantes, el número de hermanos y el
ingreso mensual.
• El tamaño de la Muestra es n = 5.
• Los vectores que constituyen la Muestra son:
• x1 = [ 19 3 930 ]T
• x2 = [ 18 0 750 ]T
• x3 = [ 19 4 785 ]T
• x4 = [ 21 1 1230]T
• x5 = [ 20 3 955 ]T
92
…viene Ejemplo
• La Matriz de Datos Y es una matriz 35; y es:
• Y = [ X1 X2 X3 X4 X5]
19 18 19 21 20
y= 3 0 4 1 3
930 750 785 1230 955
93
…viene Ejemplo
1
• Donde el vector de medias es igual a: x = n Y1n
1
19 18 19 21 20 1
1
y15 =
1
3 0 4 1 3
1 = [19.40 2.20 930]
T
5 5
930 750 785 1230 955 1
1
• Significando esto, que la edad promedio de los
entrevistados es 19.40 años; el número promedio de
hermanos es 2.20; y, el ingreso medio de los
correspondientes hogares es 930 dólares al mes.
94
…viene Ejemplo
• La matriz de varianzas y covarianzas es:
…viene Ejemplo
sij
• Teniendo en cuenta que rij =
si s j
• Aplicando lo previamente señalado, obtenemos que R es la
matriz simétrica siguiente:
1 0.080 0.930
R = 0.080 1 −0.164
0.930 −0.164 1
• Esto nos dice que existe una “fuerte” relación lineal entre edad
e ingreso mensual, y que es positiva, y una relación “débil” y
negativa entre número de hermanos e ingreso mensual, pues
es cercana a cero.