Vous êtes sur la page 1sur 95

ESTADÍSTICA

Primer Término Académico 2018 – 2019

FACULTAD DE CIENCIAS
NATURALES Y MATEMÁTICAS
2

Profesora
• Gina Verónica Ochoa Jara
• Máster en Seguros y Riesgos Financieros
• Analista de Gestión de Proyectos de Investigación del Centro de
Estudios e Investigaciones Estadísticas FCNM-ESPOL

• Correo electrónico
• vochoa@espol.edu.ec
3

Políticas del Curso


• Componentes de la Materia
3/1/5

Trabajo
Autónomo

Práctica

Teórica

Componente Teórico (80%) Componente


1er Parcial 2do Parcial Práctico* (20%)
Examen 50% 50% Actividades - Talleres 30%
Control de lectura 10% 10% Proyecto 70%
Lecciones 40% 40%
Deberes 0% 0% * Nota: Solo se ingresa la nota
una vez en el segundo Parcial
100% 100%
4

Libro Guía
• ZURITA, G. (2010), “Probabilidad y Estadística,
Fundamentos y Aplicaciones”, Segunda Edición,
Ediciones de la Facultad de Ciencias Naturales y
Matemáticas ESPOL, Guayaquil, Ecuador.
5

Estadística en la vida diaria


6

Estadística en la formación de un
ingeniero
• “Ningún recurso es tan escaso en las empresas como el
conocimiento estadístico. No hay conocimiento que
pueda contribuir tanto a mejorar la calidad, productividad
y competitividad de una empresa como el de los métodos
estadísticos”. (Deming)
• “Las herramientas estadísticas básicas deben ser
conocidas y utilizadas por todo el mundo en una
empresa, desde la alta gerencia a los operarios en las
líneas”. (Ishikawa)
7

Algunas aplicaciones de la Estadística


• Estadística en la Planeación de Obras Civiles.
• Evaluación de un producto antes de su comercialización.
• Control Estadístico de la Calidad y Productividad.
• Evaluaciones Crediticias.
• Procesamiento de imágenes.
• Diseño de experimentos para probar si un medicamento
funciona o no.
ESTADÍSTICA
DESCRIPTIVA
Unidad # 1

Materia: Estadística
Profesora: Gina Verónica Ochoa Jara

FACULTAD DE CIENCIAS
NATURALES Y MATEMÁTICAS
9

Dato e Información
DATO INFORMACIÓN

• Cantidad n de mediciones • Conjunto de datos


no procesadas, sean procesados que nos
estas numéricas permiten tomar
(cuantitativas) o decisiones racionales
categóricas (cualitativas)
10

Conceptos básicos
• Población Objetivo: Conjunto bien definido de elementos
que son objeto de medición.
• Unidad de Investigación: Elementos de la Población
Objetivo a los que se les efectúa las medidas bajo
análisis.
• Muestra: Subconjunto de n unidades de investigación
tomadas de la Población Objetivo de tamaño N > n.
• Observación: Cada uno de los valores incluidos en la
Muestra.
• Parámetro: Cantidad numérica calculada a partir de los
elementos de una población.
• Estimador: Cantidad numérica calculada a partir de los
elementos de una muestra.
11

Caracterización de una muestra


• Si representamos por X una característica de Interés de
la Población Objetivo, a una muestra de tamaño n la
representamos por:
X1, X2, … , Xn

• También es válido representar esta muestra por un vector


X en Rn

XT=(X1, X2, … , Xn)


12

Información a partir de los Datos de una


Muestra
• Ordenar los datos.
• Tabular los datos ordenados.
• Graficar los datos ordenados utilizando el concepto de
Frecuencia Relativa.
• Calcular a partir de la Muestra, cantidades que
representen “peculiaridades” siempre presentes en las
Muestras y que son relevantes para la toma de
decisiones.
13

Estadísticos de Orden
• Número de posición que ocupan los elementos de la
muestra, cuando los elementos están ordenados.

Nombre Notación Definición


Primer Estadístico
X(1) min{X1 , X2 , ... , Xn}
de orden
Estadístico de
X(n) max{X1 , X2 , ... , Xn}
orden n

• X(1) ≤ X(2) ≤ ... ≤ X(i) ≤ … ≤ X(n – 1) ≤ X(n)


14

Tabla de Frecuencias
• Para tabular datos cuantitativos, y así facilitar la
exploración estadística de los mismos, se requiere definir
algunos términos y efectuar ciertos supuestos. Los
términos que necesariamente deben definirse son: Clase,
Marca de Clase, Frecuencia Absoluta, Frecuencia
Relativa, Frecuencia Acumulada Absoluta y
Frecuencia Acumulada Relativa.
15

…viene Tabla de Frecuencias


Frecuencia Frecuencia
Ordinal de Marca de Frecuencia Frecuencia
Clase Absoluta Relativa
la Clase Clase Absoluta Relativa
Acumulada Acumulada

1 [a1,a2)
2 [a2,a3)
3 [a3,a4)
. .
. .
. .
k [ak,ak+1)

• Clase: Son intervalos de igual longitud, que deben ser exhaustivos y


mutuamente excluyentes en la Muestra. Un valor sugerido de partida
es k  7.
16

Ejemplo
• Se tiene una Muestra de tamaño n = 50 datos y el mínimo
X(1) es igual a 42 mientras que el máximo X(50) es 106. Se
requiere determinar Clases para la Muestra.

• Desarrollo.
• Se nos sugiere tomar k = 7, de tal manera que
consideramos pertinente tomar,

• A = {xR | 40 ≤ x ≤ 110} = [40, 110]


17

…viene Ejemplo
• Restamos el valor máximo del intervalo A menos el
mínimo valor (110 – 40 = 70); y, dividimos ese valor para
el número de clases (70 / 7 = 10) y de esta forma
tenemos la longitud de cada intervalo.
• Esto hace posible que:

• la primera Clase = [40, 50);


• la segunda Clase = [50, 60);
.
.
.
• y, la séptima Clase = [100, 110]
18

…viene Tabla de Frecuencias


Frecuencia Frecuencia
Ordinal de Marca de Frecuencia Frecuencia
Clase Absoluta Relativa
la Clase Clase Absoluta Relativa
Acumulada Acumulada

1 [a1,a2) (a1+a2)/2
2 [a2,a3) (a2+a3)/2
3 [a3,a4) (a3+a4)/2
. . .
. . .
. . .
k [ak,ak+1) (ak+ak+1)/2

• Marca de Clase: Valor central de cada una de las Clases.


19

…viene Tabla de Frecuencias


Frecuencia Frecuencia
Ordinal de Marca de Frecuencia Frecuencia
Clase Absoluta Relativa
la Clase Clase Absoluta Relativa
Acumulada Acumulada

1 [a1,a2) (a1+a2)/2 f1
2 [a2,a3) (a2+a3)/2 f2
3 [a3,a4) (a3+a4)/2 f3
. . . .
. . . .
. . . .
k [ak,ak+1) (ak+ak+1)/2 fk

• Frecuencia Absoluta: Número de observaciones en la


Muestra que pertenecen a cada una de las Clases.
20

…viene Tabla de Frecuencias


Frecuencia Frecuencia
Ordinal de Marca de Frecuencia Frecuencia
Clase Absoluta Relativa
la Clase Clase Absoluta Relativa
Acumulada Acumulada

1 [a1,a2) (a1+a2)/2 f1 f1/n


2 [a2,a3) (a2+a3)/2 f2 f2/n
3 [a3,a4) (a3+a4)/2 f3 f3/n
. . . . .
. . . . .
. . . . .
k [ak,ak+1) (ak+ak+1)/2 fk fk/n

• Frecuencia Relativa: Toda Frecuencia Relativa es un número mayor


o igual a cero pero menor o igual que uno, esto es, 0 ≤ 𝑓𝑛𝑖 ≤ 1 ;
siendo, i = 1, 2,..., k.
21

…viene Tabla de Frecuencias


Frecuencia Frecuencia
Ordinal de Marca de Frecuencia Frecuencia
Clase Absoluta Relativa
la Clase Clase Absoluta Relativa
Acumulada Acumulada

1 [a1,a2) (a1+a2)/2 f1 f1/n F1 = f 1


2 [a2,a3) (a2+a3)/2 f2 f2/n F2 = f 1 + f 2
3 [a3,a4) (a3+a4)/2 f3 f3/n F3 = f 1 + f 2 + f 3
. . . . . .
. . . . . .
. . . . . .
Fk= f1 + f2 +…+ fk =
k [ak,ak+1) (ak+ak+1)/2 fk fk/n
n

• Frecuencia Absoluta Acumulada: Suma de las frecuencias


absolutas menores o iguales a la i-ésima clase considerada.
22

…viene Tabla de Frecuencias


Frecuencia Frecuencia
Ordinal de Marca de Frecuencia Frecuencia
Clase Absoluta Relativa
la Clase Clase Absoluta Relativa
Acumulada Acumulada

1 [a1,a2) (a1+a2)/2 f1 f1/n F1 = f 1 F1/n


2 [a2,a3) (a2+a3)/2 f2 f2/n F2 = f 1 + f 2 F2/n
3 [a3,a4) (a3+a4)/2 f3 f3/n F3 = f 1 + f 2 + f 3 F3/n
. . . . . . .
. . . . . . .
. . . . . . .
Fk= f1 + f2 +…+ fk =
k [ak,ak+1) (ak+ak+1)/2 fk fk/n Fk/n = 1
n

• Frecuencia Relativa Acumulada: Resulta de dividir Fi para n,


siendo i = 1; 2;...; k.
23

Gráficos de Frecuencias
• Histograma de Frecuencias: Gráfico bidimensional
de “barras” en cuyo eje horizontal están señaladas
las k clases que se hayan definido, y en el eje
vertical se representan las Frecuencias Relativas de
cada una de ellas.
• Polígono de Frecuencia: Gráfico derivado del
Histograma de Frecuencia que utiliza como vértices
los puntos centrales superiores de las barras del
Histograma.
• Ojiva: Gráfico que ubica en el eje horizontal la
característica cuantitativa X que se está
investigando (coloca sobre el eje las k clases en que
hemos decidido organizar la Muestra de tamaño n),
y en el eje vertical la Frecuencia Acumulada
Relativa.
24

Construcción de la Ojiva
• El gráfico de una Ojiva se construye determinando (k + 1)
puntos y luego conectándolos de manera sucesiva y con
trazos continuos, de la siguiente manera:
• El primer punto tiene coordenadas (a1 , 0) donde a1 es el
extremo inferior de la Primera Clase;
• El segundo punto tiene coordenadas (a2 , F1/n) siendo a2
el extremo inferior de la Segunda Clase;
• El tercer punto tiene coordenadas (a3 , F2/n); y,
• Así sucesivamente hasta llegar al penúltimo punto que
tiene como coordenadas (ak , Fk-1/n); siendo el último
punto el que tiene coordenadas (ak+1 , Fk/n).
25

Ejemplo
• Las calificaciones obtenidas por 20 estudiantes de un
paralelo de Estadística de una institución de educación
superior son las siguientes:

• xT = (21 45 55 65 78 31 38 74
86 48 55 50 58 65 69 82
62 46 53 79)

• Tabule los datos y grafique el histograma de frecuencias,


el polígono de frecuencias y la ojiva.
26

…viene Ejemplo
• Se tiene una Muestra de tamaño n = 20 datos y el mínimo
X(1) es igual a 21 mientras que el máximo X(20) es 86.

• Se sugiere tomar k = 7, de tal manera que consideramos


pertinente tomar,
• A = {xR | 20 ≤ x ≤ 90} = [20, 90]

• Restamos el valor máximo del intervalo A menos el


mínimo valor (90 – 20 = 70); y, dividimos ese valor para el
número de clases (70 / 7 = 10) y de esta forma tenemos
la longitud de cada intervalo de clase.
27

X: calificaciones de los estudiantes


…viene Ejemplo
Frecuencia Frecuencia
Ordinal de Marca de Frecuencia Frecuencia
Clase Absoluta Relativa
la Clase Clase Absoluta Relativa
Acumulada Acumulada

1 [20 , 30)
2 [30 , 40)
3 [40 , 50)
4 [50 , 60)
5 [60 , 70)
6 [70 , 80)
7 [80 , 90
28

X: calificaciones de los estudiantes


…viene Ejemplo
Frecuencia Frecuencia
Ordinal de Marca de Frecuencia Frecuencia
Clase Absoluta Relativa
la Clase Clase Absoluta Relativa
Acumulada Acumulada

1 [20 , 30) 25
2 [30 , 40) 35
3 [40 , 50) 45
4 [50 , 60) 55
5 [60 , 70) 65
6 [70 , 80) 75
7 [80 , 90 85
29

X: calificaciones de los estudiantes


…viene Ejemplo
Frecuencia Frecuencia
Ordinal de Marca de Frecuencia Frecuencia
Clase Absoluta Relativa
la Clase Clase Absoluta Relativa
Acumulada Acumulada

1 [20 , 30) 25 1
2 [30 , 40) 35 2
3 [40 , 50) 45 3
4 [50 , 60) 55 5
5 [60 , 70) 65 4
6 [70 , 80) 75 3
7 [80 , 90 85 2
30

X: calificaciones de los estudiantes


…viene Ejemplo
Frecuencia Frecuencia
Ordinal de Marca de Frecuencia Frecuencia
Clase Absoluta Relativa
la Clase Clase Absoluta Relativa
Acumulada Acumulada

1 [20 , 30) 25 1 0.05


2 [30 , 40) 35 2 0.10
3 [40 , 50) 45 3 0.15
4 [50 , 60) 55 5 0.25
5 [60 , 70) 65 4 0.20
6 [70 , 80) 75 3 0.15
7 [80 , 90 85 2 0.10
31

X: calificaciones de los estudiantes


…viene Ejemplo
Frecuencia Frecuencia
Ordinal de Marca de Frecuencia Frecuencia
Clase Absoluta Relativa
la Clase Clase Absoluta Relativa
Acumulada Acumulada

1 [20 , 30) 25 1 0.05 1


2 [30 , 40) 35 2 0.10 3
3 [40 , 50) 45 3 0.15 6
4 [50 , 60) 55 5 0.25 11
5 [60 , 70) 65 4 0.20 15
6 [70 , 80) 75 3 0.15 18
7 [80 , 90 85 2 0.10 20
32

X: calificaciones de los estudiantes


…viene Ejemplo
Frecuencia Frecuencia
Ordinal de Marca de Frecuencia Frecuencia
Clase Absoluta Relativa
la Clase Clase Absoluta Relativa
Acumulada Acumulada

1 [20 , 30) 25 1 0.05 1 0.05


2 [30 , 40) 35 2 0.10 3 0.15
3 [40 , 50) 45 3 0.15 6 0.30
4 [50 , 60) 55 5 0.25 11 0.55
5 [60 , 70) 65 4 0.20 15 0.75
6 [70 , 80) 75 3 0.15 18 0.90
7 [80 , 90 85 2 0.10 20 1.00
33

X: calificaciones de los estudiantes


…viene Ejemplo
• Histograma de Frecuencias

fi/n
0.30

0.25
0.25

0.20
0.20

0.15 0.15
0.15

0.10 0.10
0.10

0.05
0.05

0.00 0.00
0.00
15 [20,30) [30,40) [40,50) [50,60) [60,70) [70,80) [80,90] 95 X
34

X: calificaciones de los estudiantes


…viene Ejemplo
• Polígono de Frecuencias

fi/n
0.30

0.25
0.25

0.20
0.20

0.15 0.15
0.15

0.10 0.10
0.10

0.05
0.05

0.00
15 [20,30) [30,40) [40,50) [50,60) [60,70) [70,80) [80,90] 95 X
35

X: calificaciones de los estudiantes


…viene Ejemplo
Fi/n
• Ojiva 1 1.00

0.9 0.90

0.8
0.75
0.7

0.6
0.55
0.5

0.4

0.3 0.30

0.2
0.15
0.1
0.05
0
20 30 40 50 60 70 80 90 X
36

Más sobre la Ojiva


• La Ojiva es además un excelente instrumento para
ilustrar definiciones de orden cuantitativo que se efectúan
cuando se exploran estadísticamente los datos de una
Muestra Ordenada.
• Cuartiles: Son los valores que dividen a las
observaciones ordenadas en forma ascendente de la
muestra en 4 partes iguales. Es posible definir 3.
• Deciles: Son los valores que dividen a las
observaciones ordenadas en forma ascendente de la
muestra en 10 partes iguales. Es posible definir 9.
• Percentiles: Son los valores que dividen a las
observaciones ordenadas en forma ascendente de la
muestra en 100 partes iguales. Es posible definir 99.
37

Cuartiles
• Primer Cuartil (Q1)
• Valor de X tal que el veinticinco por ciento de las
observaciones en la Muestra Ordenada toman valores
menores o iguales que Q1.
• Segundo Cuartil (Q2)
• Valor de X tal que el cincuenta por ciento de las
observaciones en la Muestra son menores o iguales que
Q2.
• Tercer Cuartil (Q3)
• Valor de X tal que el setenta y cinco por ciento de los
elementos en la Muestra toman valores menores o
iguales que Q3.
38

X: calificaciones de los estudiantes


Cuartiles
Fi/n
1

0.75

0.5

0.25

0
20 30 40 50 60 70 80 90 X
39

Deciles
• Los Deciles Muestrales se los denota por D1, D2, D3,
hasta D9.
• Se puede decir que cuando mas el diez por ciento de los
elementos en la Muestra toman valores menores o
iguales al Primer Decil D1;
• El veinte por ciento de los elementos en la Muestra toman
valores menores o iguales a D2; y,
• Así hasta llegar al Noveno Decil, D9, cuando el noventa
por ciento de las observaciones que conforman la
Muestra toman valores menores o iguales que D9.
40

X: calificaciones de los estudiantes


Deciles
Fi/n
1

0.9

0.8

0.7

0.6

0.5

0.4

0.3

0.2

0.1

0
20 30 40 50 60 70 80 90 X
41

Percentiles
• Los Percentiles Muestrales se los denota por P1, P2, P3,
hasta P99.
• El uno por ciento de los elementos en la Muestra toman
valores menores o iguales que P1, que es el denominado
Primer Percentil de la Muestra; y,
• El noventa y nueve por ciento son menores o iguales que
P99 el Nonagésimo Noveno Percentil de la Muestra.
42

X: calificaciones de los estudiantes


Percentiles
1.00
0.99
Fi/n
0.98
0.97
0.96
0.95
0.94
0.93
0.92
0.91
0.90
0.89
0.88
0.87
0.86
0.85
0.84
0.83
0.82
0.81
0.80
0.79
0.78
0.77
0.76
0.75
0.74
0.73
0.72
0.71
0.70
0.69
0.68
0.67
0.66
0.65
0.64
0.63
0.62
0.61
0.60
0.59
0.58
0.57
0.56
0.55
0.54
0.53
0.52
0.51
0.50
0.49
0.48
0.47
0.46
0.45
0.44
0.43
0.42
0.41
0.40
0.39
0.38
0.37
0.36
0.35
0.34
0.33
0.32
0.31
0.30
0.29
0.28
0.27
0.26
0.25
0.24
0.23
0.22
0.21
0.20
0.19
0.18
0.17
0.16
0.15
0.14
0.13
0.12
0.11
0.10
0.09
0.08
0.07
0.06
0.05
0.04
0.03
0.02
0.01
0.00

20 30 40 50 60 70 80 90 X
43

Cuantiles
• Es procedente decir que Q1 = P25, que Q2 = D5 = P50 o
que Q3 = P75.
• Un cuantil no es un punto sobre el plano sino una
coordenada sobre el eje horizontal, por tanto es un valor
numérico; además los Cuantiles no tienen que
necesariamente ser valores que pertenezcan a la
Muestra.
44

Diagrama de Caja
• Esquema gráfico que permite obtener de manera rápida,
aunque no necesariamente muy precisa, la distribución
de los datos que conforman la Muestra.
• Comúnmente se lo “adosa” a una Ojiva, aunque es
posible también presentarlo aislado, siempre que se
tengan los valores correspondientes a los cuartiles Q1, Q2
y Q3, así como los valores máximo y mínimo en la
Muestra, esto es X(n) y X(1).
45

Diagrama de Caja
Ejemplo Calificaciones de los estudiantes
Fi/n
1

0.75

0.5

0.25

0
20 30 40 50 60 70 80 90 X

X(1)=21 X(n)=86
46

Tipos de Variables
• Cualitativas
• Si sus valores no se pueden asociar naturalmente a un número (no se pueden
hacer operaciones algebraicas con ellos).
• Nominales o Categóricas: Si sus valores no se pueden ordenar.
• Género, Grupo Sanguíneo, Religión, Nacionalidad, Raza humana, Tipo de
Colegio.
• Ordinales: Si sus valores se pueden ordenar.
• Nivel de Instrucción, Grado de una enfermedad, Categoría de un profesor
universitario.

• Cuantitativas o Numéricas
• Si sus valores son numéricos (tiene sentido hacer operaciones algebraicas con
ellos).
• Discretas: Si toman valores puntuales.
• Número de hijos, Número de máquinas con problemas, número de veces
que falla el suministro de energía por mes.
• Continuas: Si entre dos valores, son posibles infinitos valores intermedios.
• Tiempo que tarda el dar mantenimiento a una máquina, Edad, tiempo de
vida de un equipo.
47

Diagrama de Barras
Variable Cualitativa Nominal
“Especialidad del Bachiller Graduado de Ingeniero en la ESPOL”
Correspondiente a la Cohorte que ingresó a Ingeniería de la ESPOL en el año 1999
48

Algoritmo para el cálculo de Cuantiles


• Este algoritmo utiliza Estadísticos de Orden para el
cálculo de cuantiles en una muestra.
• Consideremos dos Estadísticos de Orden que sean
consecutivos, llamémoslos X(i) y X(i + 1); i = 1, 2, ... , (n – 1)
• Si calculamos el promedio entre X(i) e X(i + 1), esto será
denotado como X(i.5); más específicamente:

X =
X(i) +X(i +1)
= X (i) +
( X(i +1) − X(i) )
;
(i.5) 2 2

= X(i) + 0.50 (X(i +1) − X(i)) ; i = 1, 2, . . . , (n − 1)


49

…viene Algoritmo para el cálculo de Cuantiles


• De manera similar podemos definir:
• X(i.2 ) = X(i) + 0.20(X(i + 1) – X(i)); i = 1, 2, … , (n – 1)
• X(i.95) = X(i) + 0.95(X(i + 1) – X(i)); i = 1, 2, … , (n – 1)

• Podríamos, en general, definir X(i.a), de la siguiente forma:

• X(i.a) = X(i) + 0.a(X(i + 1) – X(i));


• i = 1,2,…,(n – 1), a real positivo
50

…viene Algoritmo para el cálculo de Cuantiles


• Identificar tamaño de la muestra.
• Ordenar los datos y obtener los Estadísticos de orden
usuales que los denominaremos Estadísticos de orden
Entero.
• Encontrar m
• m = frecuencia relativa q corresponde al Cuantil*(n+1)
• Determinar el Estadístico de Orden m: X(m)
• Si el estadístico de Orden es Entero, de la muestra
ordenada se observa el estadístico de Orden y si el
Estadístico de orden es Decimal se calcula con la
respectiva definición.
51

…viene Algoritmo para el cálculo de Cuantiles


• Supongamos que tenemos una muestra de tamaño n = 6
• xT = (1 3 8 5 7 9)
• Calcular el Cuantil Q2.

• Desarrollo.
• Ordenamos la muestra de tamaño n = 6
• xT = (1 3 5 7 8 9)

• Donde, X(1)=1; X(2)=3; X(3)=5; X(4)=7; X(5)=8; y, X(6)=9


52

…viene Algoritmo para el cálculo de Cuantiles


• Determinamos el valor de m
• m = 0.5(6+1) = 3.5

• Determinamos el Estadístico de Orden X(3.5)

• Q2 = X(3.5) = X(3) + 0.5(X(4) – X(3))


• = 5 + 0.5(7 – 5)
=6
53

Medidas de Tendencia Central


Media Moda Mediana
• Promedio de los n • Es el valor observado • Valor central de un
datos contenidos en la que más se repite en la conjunto de
Muestra. muestra. observaciones
• Esta medida toma en • Puede encontrarse una ordenadas en forma
consideración todos los distribución bimodal (2 ascendente y divide a
datos de la población o modas), trimodal (3 las observaciones en
de la muestra modas) o una dos grupos con el
ordenados o no según distribución donde no mismo número de
sea el caso. existe moda. individuos.
• Se ve afectada por • No se ve afectada por
valores atípicos o valores atípicos.
extremos.

(X1 + X 2 + ... +X n ) n
xT = (4, 2, 6, 3, 5, 3) (X(n/2) +X([n/2] + 1))/2 si n es par
 ni
X
x= =
n i =1 Moda=3 X([n + 1]/2) si n es impar
54

Formas de la Distribución

Asimétrica Positiva o Asimétrica Negativa o


Sesgada a la derecha Simétrica Sesgada a la izquierda
55

Media Cortada
• Se la denota por T y se la define como la Media
Aritmética del (1 – )100% por ciento de los datos
ordenados; suprimiendo, en una Muestra Ordenada,
/2(100%) de datos de la “parte superior” y /2(100%) de
la “parte inferior” en la Muestra.
• Este “recorte” supone que los valores extremos, si
existen, no serán considerados en el cálculo de T.
• Lo usual es tomar  = 0.10 es decir, se calcula T0.10.
56

Media Cortada
• Si T = T0.10
• Entonces:
• T/2=0.10/2=T0.05
• Entonces no debemos usar:
• 0.05*100%=5%
• Si la muestra es de tamaño n=60
• Entonces deben suprimirse el 5% de 60, esto es, 3
observaciones en la parte inferior y 3 en la parte superior,
en la muestra ordenada.
57

Ejemplo
• En un laboratorio de Química Analítica se determina el
número de partes por millón de un metal pesado que se
encuentra disuelto en las aguas de un río del Litoral
Ecuatoriano. Luego de efectuar veinte observaciones se
obtiene una Muestra que es la siguiente:

• xT = (12 7 10 3 4 7 3 9 6 9 1 4 6 4 4 9 7 4 7 11)

• Calcular la Media Aritmética, la Moda, la Mediana y la Media


Cortada T0.10.
58

…viene Ejemplo
• Media Aritmética
𝑋1 +𝑋2 +⋯+𝑋20 𝑋𝑖
• 𝑥ҧ = = σ20
𝑖=1 20
20
12+7+10+3+⋯+4+7+11
• 𝑥ҧ = = 6.35
20

• Ordenando la Muestra:
• (1 3 3 4 4 4 4 4 6 6 7 7 7 7 9 9 9 10 11 12)T

• Esto es:
• X(1 ) = 1; X(2 ) = 3; X(3) = 3; … ; X(19) = 11; X(20) = 12;
59

…viene Ejemplo
• Para calcular la Media Cortada T0.10, debemos prescindir del
5% de 20 = 1, esto es, en la Muestra original, de X(1) = 1 y
de X(20) = 12, por lo que el noventa por ciento restante de la
Muestra x es el vector,

• yT = (3 3 4 4 4 4 4 6 6 7 7 7 7 9 9 9 10 11)

• Resultando así que T0.10 es:

• (3 + 3 + 4 + 4 + 4 + … + 9 + 9 + 9 + 10 + 11)/18 = 6.33
60

…viene Ejemplo
• Calculando la Mediana tenemos:

• m = 0.5(20+1) = 10.5
• Q2 = X(10.5) = X(10) + 0.5(X(11) – X(10))
• = 6 + 0.5(7 – 6)
• = 6.5

• Finalmente, la Moda de la Muestra, esto es, el valor


observado que más se repite es 4, pues aparece cinco
veces en la Muestra.
61

Media Ponderada
• Sumatoria de cada observación Xi multiplicada por “su”
peso o ponderación correspondiente i.

• M = 1X1 + 2X2 + … + nXn ; i = 1,2,…,n

• Bajo las condiciones,


n
 i =1  0  i  1
i=1
62

Media Ponderada
Nota Componente Teórico
Estudiante A
Peso Nota
Examen 0.5 75
Control de lectura 0.1 83
Lecciones 0.4 50

• MA = 1X1 + 2X2 + 3X3

• MA = (0.5)(75) + (0.1)(83) + (0.4)(50)

• MA = 37.5 + 8.3 + 20 = 65.8


63

Medidas de Dispersión

T T
x = (1 2 3); x = (-5 2 9);
1 2

T T
x = (-10 -3 0 2 3 20); x = (0 2 4)
3 4
64

Medidas de Dispersión
Desviación Rango Rango
Varianza
Estándar Muestral Intercuartil
• Medida de la • Denominada • Diferencia entre • Diferencia entre
dispersión de una también el valor máximo y el Tercer Cuartil
variable X con Desviación Típica el valor mínimo y el Primero.
respecto a su media de una Muestra, de la Muestra. • Determina un
aritmética. se la denota por s • Mide la intervalo que
• Nunca es negativa. y se la define dispersión con la incluye el
• No tiene las mismas igual a la raíz longitud (mínima) cincuenta por
unidades que los cuadrada positiva de un intervalo en ciento central de
valores observados, de la Varianza. el que se ubica el observaciones
está en unidades 100% de las en la Muestra.
cuadráticas. observaciones
que constituyen
la Muestra.

n
 (Xi − x )2
2
n
(Xi − x)
2
s =  n −1 s = +
i =1
R = X(n) – X(1) RI = Q3 – Q1
i=1 n −1
65

Ejemplo
• Considerando las veinte observaciones tomadas en las
aguas de un río del Litoral Ecuatoriano del ejemplo
estudiado previamente:

• xT = (12 7 10 3 4 7 3 9 6 9 1 4 6 4 4 9 7 4 7 11)

• Calcule la varianza, la desviación estándar, el rango


muestral y el rango intercuartil.
66

…viene Ejemplo
• Siendo n = 20, ya encontramos que 𝑥ҧ = 6.35 por lo tanto
la Varianza es:

2 2 2
12 − 6.35 + 7 − 6.35 + ⋯ + 11 − 6.35
𝑠2 = = 8.87
19

• Por lo que, la Desviación Típica de la Muestra es:

𝑠 = 8.87 = 2.98
67

…viene Ejemplo
• Se tiene ya que X(1) = 1 y X(n) = X(20) = 12, por lo tanto el
Rango Muestral es:
• R = 12 – 1 = 11

• Con los algoritmos estudiados para cálculo de cuantiles


se encuentra que:
• Q1 = X(5.25) = 4; y, Q3 = X(15.75) = 9

• Por lo que el Rango Intercuartil de la Muestra es:


• RI = 9 – 4 = 5
68

Coeficiente de Variación
• Mide la “dispersión relativa” de X con respecto a la media
aritmética.
• Sirve como medida comparativa entre dos características
X y Y cuando las escalas en las que se miden cada
variable son distintas.
• Dada una Muestra XT = (X1 X2 ... Xn) que tiene Media
Aritmética 𝑥ҧ y Desviación Estándar 𝑠 , se define al
coeficiente de variación como:

s
V = 100
x
69

Ejemplo
• Las mediciones hechas con un micrómetro del diámetro
de un cojinete de bolas tienen una media de 3.92 mm y
una desviación estándar de 0.0152 mm, en tanto que las
mediciones realizadas con otro micrómetro de la longitud
sin estirar de un resorte tienen una media de 1.54
pulgadas y una desviación estándar de 0.0086 pulgadas.
¿Cuál de esos dos instrumentos de medición es
relativamente más preciso?
70

…viene Ejemplo
• Para el primer micrómetro, el coeficiente de variación es:

0.0152
𝑉= ∙ 100 = 0.39%
3.92

• Para el segundo micrómetro, el coeficiente de variación


es:
0.0086
𝑉= ∙ 100 = 0.56%
1.54

• Por lo que, las mediciones hechas con el primer


micrómetro son relativamente más precisas, pues tienen
menor dispersión relativa.
71

Media y Varianza de Datos Agrupados


k
x=
fi Yi
Media
i=1 n

fi (Yi − y)2
k
s =
2
Varianza
i=1 n −1
• Donde:
• Yi es la i–ésima Marca de Clase
• fi es la Frecuencia Absoluta de la i–ésima Clase
• k representa el número total de clases en la Tabla de
Frecuencias
72

Media y Varianza de Datos


…viene

Agrupados
• Ejemplo. Con los datos del ejercicio relacionado con las
calificaciones obtenidas por 20 estudiantes de un paralelo
de Estadística de una institución de educación superior,
determinar la Media y Varianza de datos agrupados.

Frecuencia Frecuencia
Ordinal de Marca de Frecuencia Frecuencia
Clase Absoluta Relativa
la Clase Clase Absoluta Relativa
Acumulada Acumulada
1 [20 , 30) 25 1 0.05 1 0.05
2 [30 , 40) 35 2 0.10 3 0.15
3 [40 , 50) 45 3 0.15 6 0.30
4 [50 , 60) 55 5 0.25 11 0.55
5 [60 , 70) 65 4 0.20 15 0.75
6 [70 , 80) 75 3 0.15 18 0.90
7 [80 , 90 85 2 0.10 20 1.00
73

Media y Varianza de Datos


…viene

Agrupados
• Media de Datos Agrupados
(n = 20, k = 7) Ordinal de Marca de Frecuencia Frecuencia
Frecuencia Frecuencia
Clase Absoluta Relativa
la Clase Clase Absoluta Relativa
Acumulada Acumulada
1 [20 , 30) 25 1 0.05 1 0.05
2 [30 , 40) 35 2 0.10 3 0.15
3 [40 , 50) 45 3 0.15 6 0.30
4 [50 , 60) 55 5 0.25 11 0.55
5 [60 , 70) 65 4 0.20 15 0.75
6 [70 , 80) 75 3 0.15 18 0.90
7 [80 , 90 85 2 0.10 20 1.00

7
𝑓𝑖 𝑌𝑖 1 25 + 2 35 + ⋯ + 3 75 + 2(85)
𝑥ҧ = ෍ = = 58
20 20
𝑖=1
74

Media y Varianza de Datos


…viene

Agrupados
• Varianza de Datos Agrupados
(n = 20, k = 7) Frecuencia Frecuencia
Ordinal de Marca de Frecuencia Frecuencia
Clase Absoluta Relativa
la Clase Clase Absoluta Relativa
Acumulada Acumulada
1 [20 , 30) 25 1 0.05 1 0.05
2 [30 , 40) 35 2 0.10 3 0.15
3 [40 , 50) 45 3 0.15 6 0.30
4 [50 , 60) 55 5 0.25 11 0.55
5 [60 , 70) 65 4 0.20 15 0.75
6 [70 , 80) 75 3 0.15 18 0.90
7 [80 , 90 85 2 0.10 20 1.00

7
2
2
𝑓𝑖 𝑌𝑖 − 𝑦ത
𝑠 =෍
20 − 1
𝑖=1

1 25 − 58 2 + 2 35 − 58 2 + ⋯ + 2 85 − 58 2
= = 274.74
19
75

Media y Varianza de Funciones de X


• Supongamos que tenemos una Muestra X de tamaño n
en la que se investiga una característica X, y se define:

• Yi = Xi + .

• Donde  y  son constantes reales y el subíndice i varía


de 1 hasta n.
• Pretendemos encontrar el valor de la Media Aritmética y
la Varianza de Y = X + .
76

…viene Media y Varianza de Funciones de X


• Si Y = X +  entonces,

y = x + 

2 2 2
sy = α sx
77

Valores Aberrantes detectados utilizando


Diagramas de Caja
• A partir de un Diagrama de Caja, se considera que una
observación constituye un presunto valor aberrante, si se
ubica a 1.5RI abajo de Q1 o 1.5RI arriba de Q3.
78

…vieneValores Aberrantes detectados


utilizando Diagramas de Caja
• ¿Cómo construir el Diagrama de Caja?
• Determinar los cuartiles Q1, Q2 y Q3.
• Calcular el rango intercuartil RI = Q3 – Q1.
• Determinar los límites a partir de los cuales se considera que
un valor es aberrante.
• Q1 – 1.5RI
• Q3 + 1.5RI
• Construir una caja usando como límites Q1 y Q3 y dibujando
la mediana (Q2) con una línea interior.
• Si no hay valores aberrantes, se extiende una línea desde
los extremos de la caja hacia X(1) y X(n); caso contrario, los
bigotes se extienden hasta el valor menor más cercano a
Q1 – 1.5RI y el valor mayor más cercano a Q3 + 1.5RI.
• Finalmente, se marcan con círculos los valores aberrantes.
79

…vieneValores Aberrantes detectados


utilizando Diagramas de Caja
• Ejemplo. Los siguientes datos corresponden a tiempos
(en segundos) entre neutrinos que un grupo de físicos
observaron de una supernova:

• 0.021 0.107 0.179 0.190 0.196 0.283


• 0.580 0.854 1.180 2.000 7.300

• Determine qué valores observados en la Muestra serían


“sospechosos” de convertirse en Valores Aberrantes y
grafique el correspondiente Diagrama de Caja.
80

…vieneValores Aberrantes detectados


utilizando Diagramas de Caja
• Con los algoritmos estudiados para cálculo de cuantiles
se encuentra que:
• Q1 = X(3) = 0.179
• Q2 = X(6) = 0.283
• Q3 = X(9) = 1.180

• De donde el Rango Intercuartil es igual a:

• RI = 1.180 – 0.179 = 1.001


81

…vieneValores Aberrantes detectados


utilizando Diagramas de Caja
• Por tanto, los límites a partir de los cuales una
observación puede ser aberrante son:

• Q1 – 1.5RI = 0.179 – 1.5(1.001) = -1.323


• Q3 + 1.5RI = 1.180 + 1.5(1.001) = 2.682

• Teniendo que:
• No existen valores aberrantes abajo de Q1; y,
• Existe un valor aberrante arriba de Q3 y es 7.300.
82

…vieneValores Aberrantes detectados


utilizando Diagramas de Caja

• Quedando el Diagrama de Caja de la siguiente manera:


83

Estadística Descriptiva Multivariada


• Matriz de Datos
• Matriz YMpn que contiene las p características
investigadas a las unidades de una Población Objetivo, a
través de una Muestra de tamaño n.
84

…viene Estadística Descriptiva Multivariada


• Vector de Medias Muestrales
• Vector que recoge las medias de cada una de las p
características investigadas, se define como:

1
x = n Y1n
• Donde:
• 1n es un vector de unos definido como 1n = (1 1 ... 1)T; y,
• Y es la matriz de datos
85

…viene Estadística Descriptiva Multivariada


• Matriz de Varianzas y Covarianzas Muestrales
• Matriz que resume la variabilidad de los datos y la
información relativa a las relaciones lineales entre las
variables. Se define como:

• Donde:
• I es la matriz identidad n  n
• 1n es un vector de unos definido como 1n = (1 1 ... 1)T; y,
• Y es la matriz de datos
86

…viene Estadística Descriptiva Multivariada


• La Matriz de Varianzas y Covarianzas S de la muestra es
cuadrada y simétrica de dimensiones p  p, donde p
representa el número de características que se investigan
de la población objetivo.
• Los términos diagonales son las varianzas y los no
diagonales las covarianzas entre las variables.
• La Covarianza Muestral entre Xi y Xj , es la misma que
Covarianza Muestral entre Xj y Xi.
• Cuando i = j , la Covarianza Muestral (sii) entre Xi y Xi , es
igual a la varianza muestral de Xi , esto es, si2 ,mientras
que si es la desviación típica muestral de Xi .
87

Coeficiente de Correlación
• Mide la fortaleza de la relación lineal que existe entre dos
variables X e Y. Se lo define como:
n

 (x
i =1
i − x)(y i − y)
rxy =
n n


i =1
(x i − x)
2

i =1
(y i − y)
2

• Una definición equivalente a la definición dada para rxy es:


sij
rij =
si s j
• Donde sij es la Covarianza Muestral entre Xi y Xj ,mientras que
si es la desviación típica muestral de Xi y sj la de Xj .
88

Matriz de Correlación
• Matriz simétrica de dimensión p  p que resume las
correlaciones entre las variables.

𝑠11 𝑠12 𝑠1𝑝



𝑠1 𝑠1 𝑠1 𝑠2 𝑠1 𝑠𝑝
𝑟11 𝑟12 ⋯ 𝑟1𝑝
𝑠21 𝑠22 𝑠2𝑝
⋯ 𝑟21 𝑟22 ⋯ 𝑟2𝑝
𝑅 = 𝑠2 𝑠1 𝑠2 𝑠2 𝑠2 𝑠𝑝 = ⋮ ⋮ ⋱ ⋮
⋮ ⋮ ⋱ ⋮ 𝑟𝑝1 𝑟𝑝2 ⋯ 𝑟𝑝𝑝
𝑠𝑝1 𝑠𝑝2 𝑠𝑝𝑝

𝑠𝑝 𝑠1 𝑠𝑝 𝑠2 𝑠𝑝 𝑠𝑝

• Nótese que rii es “uno” y representa el Coeficiente de


Correlación Muestral entre Xi y Xi, lo cual significa que todos
los elementos de la diagonal de una Matriz de Correlación son
“unos”.
89

Más sobre el Coeficiente de Correlación


• Se puede probar que rij toma valores entre –1 y 1.

Indica la existencia de una relación lineal


“perfecta” entre Xi y Xj, dicha relación
rij = 1 tiene pendiente positiva lo que significa
que si Xi crece Xj también crece.

Indica la existencia de una relación lineal


“perfecta” pero decreciente entre Xi y Xj,
rij = -1 es decir, que mientras Xi crece Xj decrece
y viceversa.

Valores intermedios de rij (entre 1 y 0 o entre -1 y 0) significa que la


relación lineal va deteriorándose y cuando llega a cero, sea desde la
izquierda o la derecha la relación lineal desaparece.
90

Ejemplo
• A cinco estudiantes de “nivel superior” se les pregunta
aplicando un cuestionario, su edad en años, número de
hermanos e ingreso promedio mensual de su hogar, en
dólares, respondiendo ellos de la siguiente manera:

Número de Ingreso
Estudiante Edad
Hermanos Mensual
1 19 3 930
2 18 0 750
3 19 4 785
4 21 1 1230
5 20 3 955

• Se requiere determinar el Vector de Medias de la Muestra, la


Matriz de Varianzas y Covarianzas y la Matriz de Correlación.
91

…viene Ejemplo
• Se cuenta con p = 3 características de una Población
Objetivo constituida por estudiantes de nivel superior la
edad de los estudiantes, el número de hermanos y el
ingreso mensual.
• El tamaño de la Muestra es n = 5.
• Los vectores que constituyen la Muestra son:
• x1 = [ 19 3 930 ]T
• x2 = [ 18 0 750 ]T
• x3 = [ 19 4 785 ]T
• x4 = [ 21 1 1230]T
• x5 = [ 20 3 955 ]T
92

…viene Ejemplo
• La Matriz de Datos Y es una matriz 35; y es:

• Y = [ X1 X2 X3 X4 X5]

• Reemplazando los valores numéricos tenemos que:

 19 18 19 21 20 
y= 3 0 4 1 3
930 750 785 1230 955

93

…viene Ejemplo
1
• Donde el vector de medias es igual a: x = n Y1n
1
 
 19 18 19 21 20  1
1
y15 =
1
 3 0 4 1 3   
1 = [19.40 2.20 930]
T
5 5   
930 750 785 1230 955  1 
1
 
• Significando esto, que la edad promedio de los
entrevistados es 19.40 años; el número promedio de
hermanos es 2.20; y, el ingreso medio de los
correspondientes hogares es 930 dólares al mes.
94

…viene Ejemplo
• La matriz de varianzas y covarianzas es:

 1 0 0 0 0 1  19 3 930 


     
 19 18 19 21 20  0 1 0 0 0 1
   18 0 750 
0  − 1 1 1 1 1 1  19 4 785 
1  
3  0 1
S= 3 0 4 1 0 1 0
4    5   
930 750 785 1230 955  0

0 0 1 0

1
 
 21 1 1230
 
 
 0 0 0 0 1  1 20 3 955 

 1.30 0.15 201.25 


S =  0.15 2.70 −51.25 
201.25 −51.25 36012.50

95

…viene Ejemplo
sij
• Teniendo en cuenta que rij =
si s j
• Aplicando lo previamente señalado, obtenemos que R es la
matriz simétrica siguiente:

 1 0.080 0.930 
R = 0.080 1 −0.164
0.930 −0.164 1 

• Esto nos dice que existe una “fuerte” relación lineal entre edad
e ingreso mensual, y que es positiva, y una relación “débil” y
negativa entre número de hermanos e ingreso mensual, pues
es cercana a cero.

Vous aimerez peut-être aussi