Vous êtes sur la page 1sur 91

5

¿Por qué estudiar Estadística?


Las respuestas dadas por el
análisis estadístico sientan
las bases para tomar
decisiones o elegir acciones

Vida
Diaria
6

Algunas aplicaciones de la Estadística


• Estadística en la Planeación de Obras Civiles.
• Evaluación de un producto antes de su comercialización.
• Control Estadístico de la Calidad y Productividad.
• Evaluaciones Crediticias.
• Procesamiento de imágenes.
• Diseño de experimentos para probar si un medicamento
funciona o no.
UNIDAD

1
ESTADÍSTICA DESCRIPTIVA
Materia: Estadística
Profesora: Gina Verónica Ochoa Jara

FACULTAD DE CIENCIAS NATURALES Y MATEMÁTICAS


8

Dato e Información
DATO INFORMACIÓN

• Cantidad n de • Conjunto de datos


mediciones no procesados que nos
procesadas, sean estas permiten tomar
numéricas (cuantitativas) decisiones racionales
o categóricas
(cualitativas)
9

Conceptos básicos
• Población Objetivo: Conjunto bien definido de elementos
que son objeto de medición.
• Unidad de Investigación: Elementos de la Población
Objetivo a los que se les efectúa las medidas bajo
análisis.
• Muestra: Subconjunto de n unidades de investigación
tomadas de la Población Objetivo de tamaño N > n.
• Observación: Cada uno de los valores incluidos en la
Muestra.
• Parámetro: Cantidad numérica calculada a partir de los
elementos de una población.
• Estimador: Cantidad numérica calculada a partir de los
elementos de una muestra.
10

Caracterización de una muestra


• Si representamos por X una característica de Interés de
la Población Objetivo, a una muestra de tamaño n la
representamos por:
X1, X2, … , Xn

• También es válido representar esta muestra por un


vector X en Rn

XT=(X1, X2, … , Xn)


11

Información a partir de los Datos de una


Muestra
• Ordenar los datos.
• Tabular los datos ordenados.
• Graficar los datos ordenados utilizando el concepto de
Frecuencia Relativa.
• Calcular a partir de la Muestra, cantidades que
representen “peculiaridades” siempre presentes en las
Muestras y que son relevantes para la toma de
decisiones.
12

Estadísticos de Orden
• Número de posición que ocupan los elementos de la
muestra, cuando los elementos están ordenados.

Nombre Notación Definición


Primer Estadístico
X(1) min{X1 , X2 , ... , Xn}
de orden
Estadístico de
X(n) max{X1 , X2 , ... , Xn}
orden n

• X(1) ≤ X(2) ≤ ... ≤ X(i) ≤ … ≤ X(n – 1) ≤ X(n)


13

Tabla de Frecuencias
• Para tabular datos cuantitativos, y así facilitar la
exploración estadística de los mismos, se requiere
definir algunos términos, que son: Clase, Marca de
Clase, Frecuencia Absoluta, Frecuencia Relativa,
Frecuencia Acumulada Absoluta y Frecuencia
Acumulada Relativa.
14

…viene Tabla de Frecuencias


Frecuencia Frecuencia
Ordinal de Marca de Frecuencia Frecuencia
Clase Absoluta Relativa
la Clase Clase Absoluta Relativa
Acumulada Acumulada

1 [a1,a2)
2 [a2,a3)
3 [a3,a4)
. .
. .
. .
k [ak,ak+1]

• Clase: Son intervalos de igual longitud, que deben ser exhaustivos


y mutuamente excluyentes en la Muestra. Un valor sugerido de
partida es k  7.
15

Ejemplo
• Se tiene una Muestra de tamaño n = 60 datos y el
mínimo X(1) es igual a 32 mientras que el máximo X(60)
es 96. Se requiere determinar Clases para la Muestra.

• Desarrollo.
• Se nos sugiere tomar k = 7, de tal manera que
consideramos pertinente tomar,

• A = {xR | 30 ≤ x ≤ 100} = [30, 100]


16

…viene Ejemplo
• Restamos el valor máximo del intervalo A menos el
mínimo valor (100 – 30 = 70); y, dividimos ese valor para
el número de clases (70 / 7 = 10) y de esta forma
tenemos la longitud de cada intervalo.
• Esto hace posible que:

• la primera Clase = [30, 40);


• la segunda Clase = [40, 50);
.
.
.
• y, la séptima Clase = [90, 100]
17

…viene Tabla de Frecuencias


Frecuencia Frecuencia
Ordinal de Marca de Frecuencia Frecuencia
Clase Absoluta Relativa
la Clase Clase Absoluta Relativa
Acumulada Acumulada

1 [a1,a2) (a1+a2)/2
2 [a2,a3) (a2+a3)/2
3 [a3,a4) (a3+a4)/2
. . .
. . .
. . .
k [ak,ak+1) (ak+ak+1)/2

• Marca de Clase: Valor central de cada una de las


Clases.
18

…viene Tabla de Frecuencias


Frecuencia Frecuencia
Ordinal de Marca de Frecuencia Frecuencia
Clase Absoluta Relativa
la Clase Clase Absoluta Relativa
Acumulada Acumulada

1 [a1,a2) (a1+a2)/2 f1
2 [a2,a3) (a2+a3)/2 f2
3 [a3,a4) (a3+a4)/2 f3
. . . .
. . . .
. . . .
k [ak,ak+1) (ak+ak+1)/2 fk

• Frecuencia Absoluta: Número de observaciones en la


Muestra que pertenecen a cada una de las Clases.
19

…viene Tabla de Frecuencias


Frecuencia Frecuencia
Ordinal de Marca de Frecuencia Frecuencia
Clase Absoluta Relativa
la Clase Clase Absoluta Relativa
Acumulada Acumulada

1 [a1,a2) (a1+a2)/2 f1 f1/n


2 [a2,a3) (a2+a3)/2 f2 f2/n
3 [a3,a4) (a3+a4)/2 f3 f3/n
. . . . .
. . . . .
. . . . .
k [ak,ak+1) (ak+ak+1)/2 fk fk/n

• Frecuencia Relativa: Toda Frecuencia Relativa es un número


mayor o igual a cero pero menor o igual que uno, esto es, 0 ≤ 𝑓𝑛𝑖 ≤ 1
; siendo, i = 1, 2,..., k.
20

…viene Tabla de Frecuencias


Frecuencia Frecuencia
Ordinal de Marca de Frecuencia Frecuencia
Clase Absoluta Relativa
la Clase Clase Absoluta Relativa
Acumulada Acumulada

1 [a1,a2) (a1+a2)/2 f1 f1/n F1 = f1


2 [a2,a3) (a2+a3)/2 f2 f2/n F2 = f1 + f2
3 [a3,a4) (a3+a4)/2 f3 f3/n F3 = f1 + f2 + f3
. . . . . .
. . . . . .
. . . . . .
Fk= f1 + f2 +…+ fk =
k [ak,ak+1) (ak+ak+1)/2 fk fk/n
n

• Frecuencia Absoluta Acumulada: Suma de las frecuencias


absolutas menores o iguales a la i-ésima clase considerada.
21

…viene Tabla de Frecuencias


Frecuencia Frecuencia
Ordinal de Marca de Frecuencia Frecuencia
Clase Absoluta Relativa
la Clase Clase Absoluta Relativa
Acumulada Acumulada

1 [a1,a2) (a1+a2)/2 f1 f1/n F1 = f1 F1/n


2 [a2,a3) (a2+a3)/2 f2 f2/n F2 = f1 + f2 F2/n
3 [a3,a4) (a3+a4)/2 f3 f3/n F3 = f1 + f2 + f3 F3/n
. . . . . . .
. . . . . . .
. . . . . . .
Fk= f1 + f2 +…+ fk =
k [ak,ak+1) (ak+ak+1)/2 fk fk/n Fk/n = 1
n

• Frecuencia Relativa Acumulada: Resulta de dividir Fi para n,


siendo i = 1; 2;...; k.
22

Gráficos de Frecuencias
• Histograma de Frecuencias: Gráfico bidimensional
de “barras” en cuyo eje horizontal están señaladas
las k clases que se hayan definido, y en el eje
vertical se representan las Frecuencias Relativas
de cada una de ellas.
• Polígono de Frecuencia: Gráfico derivado del
Histograma de Frecuencia que utiliza como
vértices los puntos centrales superiores de las
barras del Histograma.
• Ojiva: Gráfico que ubica en el eje horizontal la
característica cuantitativa X que se está
investigando (coloca sobre el eje las k clases en
que hemos decidido organizar la Muestra de
tamaño n), y en el eje vertical la Frecuencia
Acumulada Relativa.
23

Construcción de la Ojiva
• El gráfico de una Ojiva se construye determinando (k +
1) puntos y luego conectándolos de manera sucesiva y
con trazos continuos, de la siguiente manera:
• El primer punto tiene coordenadas (a1 , 0) donde a1 es el
extremo inferior de la Primera Clase;
• El segundo punto tiene coordenadas (a2 , F1/n) siendo a2
el extremo inferior de la Segunda Clase;
• El tercer punto tiene coordenadas (a3 , F2/n); y,
• Así sucesivamente hasta llegar al penúltimo punto que
tiene como coordenadas (ak , Fk-1/n); siendo el último
punto el que tiene coordenadas (ak+1 , Fk/n).
24

Ejemplo
• Las siguientes 16 mediciones son de la resistencia (en
psi) del papel que se va a utilizar en tubos de cartón:

• xT = (114 117 119 120 120 121 123 124 125 125 126
127 128 130 131 135)

• Tabule los datos y grafique el histograma de frecuencias,


el polígono de frecuencias y la ojiva.
25

…viene Ejemplo
• Se tiene una Muestra de tamaño n = 16 datos y el
mínimo X(1) es igual a 114 mientras que el máximo X(16)
es 135.

• Se sugiere tomar k = 7, de tal manera que consideramos


pertinente tomar,
• A = {xR | 114 ≤ x ≤ 135} = [114, 135]

• Restamos el valor máximo del intervalo A menos el


mínimo valor (135 – 114 = 21); y, dividimos ese valor
para el número de clases (21 / 7 = 3) y de esta forma
tenemos la longitud de cada intervalo de clase.
26

X: resistencia del papel


…viene Ejemplo
Frecuencia Frecuencia
Ordinal de Marca de Frecuencia Frecuencia
Clase Absoluta Relativa
la Clase Clase Absoluta Relativa
Acumulada Acumulada

1 [114 , 117)
2 [117 , 120)
3 [120 , 123)
4 [123 , 126)
5 [126 , 129)
6 [129 , 132)
7 [132 , 135]
27

X: resistencia del papel


…viene Ejemplo
Frecuencia Frecuencia
Ordinal de Marca de Frecuencia Frecuencia
Clase Absoluta Relativa
la Clase Clase Absoluta Relativa
Acumulada Acumulada

1 [114 , 117) 115.5


2 [117 , 120) 118.5
3 [120 , 123) 121.5
4 [123 , 126) 124.5
5 [126 , 129) 127.5
6 [129 , 132) 130.5
7 [132 , 135] 133.5
28

X: resistencia del papel


…viene Ejemplo
Frecuencia Frecuencia
Ordinal de Marca de Frecuencia Frecuencia
Clase Absoluta Relativa
la Clase Clase Absoluta Relativa
Acumulada Acumulada

1 [114 , 117) 115.5 1


2 [117 , 120) 118.5 2
3 [120 , 123) 121.5 3
4 [123 , 126) 124.5 4
5 [126 , 129) 127.5 3
6 [129 , 132) 130.5 2
7 [132 , 135] 133.5 1
29

X: resistencia del papel


…viene Ejemplo
Frecuencia Frecuencia
Ordinal de Marca de Frecuencia Frecuencia
Clase Absoluta Relativa
la Clase Clase Absoluta Relativa
Acumulada Acumulada

1 [114 , 117) 115.5 1 0.063


2 [117 , 120) 118.5 2 0.125
3 [120 , 123) 121.5 3 0.188
4 [123 , 126) 124.5 4 0.250
5 [126 , 129) 127.5 3 0.188
6 [129 , 132) 130.5 2 0.125
7 [132 , 135] 133.5 1 0.063
30

X: resistencia del papel


…viene Ejemplo
Frecuencia Frecuencia
Ordinal de Marca de Frecuencia Frecuencia
Clase Absoluta Relativa
la Clase Clase Absoluta Relativa
Acumulada Acumulada

1 [114 , 117) 115.5 1 0.063 1


2 [117 , 120) 118.5 2 0.125 3
3 [120 , 123) 121.5 3 0.188 6
4 [123 , 126) 124.5 4 0.250 10
5 [126 , 129) 127.5 3 0.188 13
6 [129 , 132) 130.5 2 0.125 15
7 [132 , 135] 133.5 1 0.063 16
31

X: resistencia del papel


…viene Ejemplo
Frecuencia Frecuencia
Ordinal de Marca de Frecuencia Frecuencia
Clase Absoluta Relativa
la Clase Clase Absoluta Relativa
Acumulada Acumulada

1 [114 , 117) 115.5 1 0.063 1 0.063


2 [117 , 120) 118.5 2 0.125 3 0.188
3 [120 , 123) 121.5 3 0.188 6 0.375
4 [123 , 126) 124.5 4 0.250 10 0.625
5 [126 , 129) 127.5 3 0.188 13 0.813
6 [129 , 132) 130.5 2 0.125 15 0.938
7 [132 , 135] 133.5 1 0.063 16 1.000
32

X: resistencia del papel


…viene Ejemplo
• Histograma de Frecuencias

fi/n
1.000
0.900
0.800
0.700
0.600
0.500
0.400
0.300 0.250
0.188 0.188
0.200 0.125 0.125
0.100 0.063 0.063

0.000 X
[114 , 117) [117 , 120) [120 , 123) [123 , 126) [126 , 129) [129 , 132) [132 , 135]
33

X: resistencia del papel


…viene Ejemplo
• Polígono de Frecuencias

fi/n
1.000
0.900
0.800
0.700
0.600
0.500
0.400
0.300 0.250
0.188 0.188
0.200 0.125 0.125
0.100 0.063 0.063
0.000 0.000
0.000 X
112.5 [114 , 117) [117 , 120) [120 , 123) [123 , 126) [126 , 129) [129 , 132) [132 , 135] 136.5
34

X: resistencia del papel


…viene Ejemplo
Fi/n
• Ojiva 1.000

0.900

0.800

0.700

0.600

0.500

0.400

0.300

0.200

0.100

0.000 X
114 117 120 123 126 129 132 135
35

Más sobre la Ojiva


• La Ojiva es además un excelente instrumento para ilustrar
definiciones de orden cuantitativo que se efectúan cuando se
exploran estadísticamente los datos de una Muestra
Ordenada.
• Cuartiles (Q): Son los valores que dividen a las
observaciones ordenadas en forma ascendente de la
muestra en 4 partes iguales. Es posible definir 3.
• Quintiles (K): Son los valores que dividen a las
observaciones ordenadas en forma ascendente de la
muestra en 5 partes iguales. Es posible definir 4.
• Deciles (D): Son los valores que dividen a las
observaciones ordenadas en forma ascendente de la
muestra en 10 partes iguales. Es posible definir 9.
• Percentiles (P): Son los valores que dividen a las
observaciones ordenadas en forma ascendente de la
muestra en 100 partes iguales. Es posible definir 99.
36

Cuartiles
• Primer Cuartil (Q1)
• Valor de X tal que el veinticinco por ciento de las
observaciones en la Muestra Ordenada toman valores
menores o iguales que Q1.
• Segundo Cuartil (Q2)
• Valor de X tal que el cincuenta por ciento de las
observaciones en la Muestra son menores o iguales que
Q2. También se lo conoce como Mediana.
• Tercer Cuartil (Q3)
• Valor de X tal que el setenta y cinco por ciento de los
elementos en la Muestra toman valores menores o
iguales que Q3.
37

X: resistencia del papel


Cuartiles
Fi/n
1.000

0.750

0.500

0.250

0.000 X
114 117 120 Q1 123 Q2 126 Q3 129 132 135
38

Quintiles
• Primer Quintil (K1)
• Valor de X tal que el veinte por ciento de las observaciones
en la Muestra Ordenada toman valores menores o iguales
que K1.
• Segundo Quintil (K2)
• Valor de X tal que el cuarenta por ciento de las observaciones
en la Muestra Ordenada toman valores menores o iguales
que K2.
• Tercer Quintil (K3)
• Valor de X tal que el sesenta por ciento de las observaciones
en la Muestra Ordenada toman valores menores o iguales
que K3.
• Cuarto Quintil (K4)
• Valor de X tal que el ochenta por ciento de las observaciones
en la Muestra Ordenada toman valores menores o iguales
que K4.
39

X: resistencia del papel


Quintiles
Fi/n
1.000

0.800

0.600

0.400

0.200

0.000 X
114 117 120 123 126 129 132 135
40

Deciles
• Los Deciles Muestrales se los denota por D1, D2, D3,
hasta D9.
• Se puede decir que cuando mas el diez por ciento de los
elementos en la Muestra toman valores menores o
iguales al Primer Decil D1;
• El veinte por ciento de los elementos en la Muestra
toman valores menores o iguales a D2; y,
• Así hasta llegar al Noveno Decil, D9, cuando el noventa
por ciento de las observaciones que conforman la
Muestra toman valores menores o iguales que D9.
41

X: resistencia del papel


Deciles
Fi/n
1.000

0.900

0.800

0.700

0.600

0.500

0.400

0.300

0.200

0.100

0.000 X
114 117 120 123 126 129 132 135
42

Percentiles
• Los Percentiles Muestrales se los denota por P1, P2, P3,
hasta P99.
• El uno por ciento de los elementos en la Muestra toman
valores menores o iguales que P1, que es el denominado
Primer Percentil de la Muestra; y,
• El noventa y nueve por ciento son menores o iguales
que P99 el Nonagésimo Noveno Percentil de la
Muestra.
43

X: resistencia del papel


Percentiles
Fi/n
1.000
0.990
0.980
0.970
0.960
0.950
0.940
0.930
0.920
0.910
0.900
0.890
0.880
0.870
0.860
0.850
0.840
0.830
0.820
0.810
0.800
0.790
0.780
0.770
0.760
0.750
0.740
0.730
0.720
0.710
0.700
0.690
0.680
0.670
0.660
0.650
0.640
0.630
0.620
0.610
0.600
0.590
0.580
0.570
0.560
0.550
0.540
0.530
0.520
0.510
0.500
0.490
0.480
0.470
0.460
0.450
0.440
0.430
0.420
0.410
0.400
0.390
0.380
0.370
0.360
0.350
0.340
0.330
0.320
0.310
0.300
0.290
0.280
0.270
0.260
0.250
0.240
0.230
0.220
0.210
0.200
0.190
0.180
0.170
0.160
0.150
0.140
0.130
0.120
0.110
0.100
0.090
0.080
0.070
0.060
0.050
0.040
0.030
0.020
0.010
0.000 X
114 117 120 123 126 129 132 135
44

Cuantiles
• Un cuantil no es un punto sobre el plano sino una coordenada
sobre el eje horizontal, por tanto es un valor numérico;
además los Cuantiles no tienen que necesariamente ser
valores que pertenezcan a la Muestra.
• Es procedente decir que:
• Q1 = P25
• Q2 = D5 = P50
• Q3 = P75.
• K1 = D2 = P20
• K2 = D4 = P40
• K3 = D6 = P60
• K4 = D8 = P80
45

Diagrama de Caja
• Esquema gráfico que permite obtener de manera rápida
la distribución de los datos que conforman la Muestra.
• Comúnmente se lo “adosa” a una Ojiva, aunque es
posible también presentarlo aislado, siempre que se
tengan los valores correspondientes a los cuartiles Q1,
Q2 y Q3, así como los valores máximo y mínimo en la
Muestra, esto es X(n) y X(1).
46

Diagrama de Caja
Ejemplo Resistencia del Papel
Fi/n
1.000

0.750

0.500

0.250

0.000 X
114 117 120 Q1 123 Q2 126 Q3 129 132 135

X(1)=114 X(n)=135
47

Tipos de Variables
• Cualitativas o Categóricas
• Si sus valores no se pueden asociar naturalmente a un número (no se pueden
hacer operaciones algebraicas con ellos).
• Nominales: Si sus valores no se pueden ordenar.
• Género, Grupo Sanguíneo, Religión, Nacionalidad, Raza humana, Tipo de
Colegio.
• Ordinales: Si sus valores se pueden ordenar.
• Nivel de Instrucción, Grado de una enfermedad, Categoría de un profesor
universitario.

• Cuantitativas o Numéricas
• Si sus valores son numéricos (tiene sentido hacer operaciones algebraicas con
ellos).
• Discretas: Si toman valores puntuales.
• Número de hijos, Número de máquinas con problemas, número de veces
que falla el suministro de energía por mes.
• Continuas: Si entre dos valores, son posibles infinitos valores intermedios.
• Tiempo que tarda el dar mantenimiento a una máquina, Edad, tiempo de
vida de un equipo.
48

Diagrama de Barras
Variable Cualitativa Nominal
“Especialidad del Bachiller Graduado de Ingeniero en la ESPOL”
Correspondiente a la Cohorte que ingresó a Ingeniería de la ESPOL en el año 1999
49

Algoritmo para el cálculo de Cuantiles


• Este algoritmo utiliza Estadísticos de Orden para el
cálculo de cuantiles en una muestra.
• Consideremos dos Estadísticos de Orden que sean
consecutivos, llamémoslos X(i) y X(i + 1); i = 1, 2, ... , (n –
1)
• Si calculamos el promedio entre X(i) e X(i + 1), esto será
denotado como X(i.5); más específicamente:

X =
X(i) +X(i +1)
= X (i) +
( X(i +1) − X(i) )
;
(i.5) 2 2

= X(i) + 0.50 (X(i +1) − X(i)) ; i = 1, 2, . . . , (n − 1)


50

…viene Algoritmo para el cálculo de Cuantiles


• De manera similar podemos definir:
• X(i.2 ) = X(i) + 0.20(X(i + 1) – X(i)); i = 1, 2, … , (n – 1)
• X(i.95) = X(i) + 0.95(X(i + 1) – X(i)); i = 1, 2, … , (n – 1)

• Podríamos, en general, definir X(i.a), de la siguiente


forma:

• X(i.a) = X(i) + 0.a(X(i + 1) – X(i));


• i = 1,2,…,(n – 1), a real positivo
51

…viene Algoritmo para el cálculo de Cuantiles


• Identificar tamaño de la muestra.
• Ordenar los datos y obtener los Estadísticos de orden
usuales que los denominaremos Estadísticos de orden
Entero.
• Encontrar m
• m = frecuencia relativa q corresponde al Cuantil*(n+1)
• Determinar el Estadístico de Orden m: X(m)
• Si el estadístico de Orden es Entero, de la muestra
ordenada se observa el estadístico de Orden
correspondiente y si el Estadístico de orden es
Decimal se calcula con la respectiva definición.
52

…viene Algoritmo para el cálculo de Cuantiles


• Supongamos que tenemos una muestra de tamaño
n=6
• xT = (1 2 8 6 5 9)

• Calcular el Cuantil Q3.

• Desarrollo.
• Ordenamos la muestra de tamaño n = 6

• xT = (1 2 5 6 8 9)

• Donde, X(1)=1; X(2)=2; X(3)=5; X(4)=6; X(5)=8; y, X(6)=9


53

…viene Algoritmo para el cálculo de Cuantiles


• Determinamos el valor de m

• m = 0.75(6+1) = 5.25

• Determinamos el Estadístico de Orden X(5.25)

• Q3 = X(5.25) = X(5) + 0.25(X(6) – X(5))


• = 8 + 0.25(9 – 8)
= 8.25
54

Medidas de Tendencia Central


Media Moda Mediana o Q2
• Promedio de los n • Es el valor observado • Valor central de un
datos contenidos en la que más se repite en la conjunto de
Muestra. muestra. observaciones
• Esta medida toma en • Puede encontrarse una ordenadas en forma
consideración todos los distribución bimodal (2 ascendente y divide a
datos de la población o modas), trimodal (3 las observaciones en
de la muestra modas) o una dos grupos con el
ordenados o no según distribución donde no mismo número de
sea el caso. existe moda. individuos.
• Se ve afectada por • No se ve afectada por
valores atípicos o valores atípicos.
extremos.

(X1 + X 2 + ... +X n ) n
xT = (4, 2, 6, 3, 5, 3) (X(n/2) +X([n/2] + 1))/2 si n es par
 ni
X
x= =
n i =1 Moda=3 X([n + 1]/2) si n es impar
55

Formas de la Distribución

Asimétrica Positiva o Asimétrica Negativa o


Sesgada a la derecha Simétrica Sesgada a la izquierda
56

Media Cortada
• Se la denota por T y se la define como la Media
Aritmética del (1 – )100% por ciento de los datos
ordenados; suprimiendo, en una Muestra Ordenada,
/2(100%) de datos de la “parte superior” y /2(100%)
de la “parte inferior” en la Muestra.
• Este “recorte” supone que los valores extremos, si
existen, no serán considerados en el cálculo de T.
• Lo usual es tomar  = 0.10 es decir, se calcula T0.10.
57

Media Cortada
• Si T = T0.10
• Entonces:
• T/2=0.10/2=T0.05
• Entonces no debemos usar:
• 0.05*100%=5%
• Si la muestra es de tamaño n=60
• Entonces deben suprimirse el 5% de 60, esto es, 3
observaciones en la parte inferior y 3 en la parte
superior, en la muestra ordenada.
58

Ejemplo
• En un laboratorio de Química Analítica se determina el
número de partes por millón de un metal pesado que se
encuentra disuelto en las aguas de un río del Litoral
Ecuatoriano. Luego de efectuar veinte observaciones se
obtiene una Muestra que es la siguiente:

• xT = (12 7 10 3 4 7 3 9 6 9 1 4 6 4 4 9 7 4 7 11)

• Calcular la Media Aritmética, la Moda, la Mediana y la


Media Cortada T0.10.
59

…viene Ejemplo
• Media Aritmética
𝑋1 +𝑋2 +⋯+𝑋20 𝑋𝑖
• 𝑥ҧ = = σ20
𝑖=1 20
20
12+7+10+3+⋯+4+7+11
• 𝑥ҧ = = 6.35
20

• Ordenando la Muestra:
• (1 3 3 4 4 4 4 4 6 6 7 7 7 7 9 9 9 10 11 12)T

• Esto es:
• X(1 ) = 1; X(2 ) = 3; X(3) = 3; … ; X(19) = 11; X(20) = 12;
60

…viene Ejemplo
• Para calcular la Media Cortada T0.10, debemos prescindir
del 5% de 20 = 1, esto es, en la Muestra original, de
X(1) = 1 y de X(20) = 12, por lo que el noventa por ciento
restante de la Muestra x es el vector,

• yT = (3 3 4 4 4 4 4 6 6 7 7 7 7 9 9 9 10
11)

• Resultando así que T0.10 es:

• (3 + 3 + 4 + 4 + 4 + … + 9 + 9 + 9 + 10 + 11)/18 = 6.33
61

…viene Ejemplo
• Calculando la Mediana tenemos:

• m = 0.5(20+1) = 10.5
• Q2 = X(10.5) = X(10) + 0.5(X(11) – X(10))
• = 6 + 0.5(7 – 6)
• = 6.5

• Finalmente, la Moda de la Muestra, esto es, el valor


observado que más se repite es 4, pues aparece cinco
veces en la Muestra.
62

Media Ponderada
• Sumatoria de cada observación Xi multiplicada por “su”
peso o ponderación correspondiente i.

• M = 1X1 + 2X2 + … + nXn ; i = 1,2,…,n

• Bajo las condiciones,


n
 i =1  0  i  1
i=1
63

Media Ponderada
Nota Componente Teórico
Estudiante A
Peso Nota
Examen 0.5 70
Control de lectura 0.1 85
Lecciones 0.4 60

• MA = 1X1 + 2X2 + 3X3

• MA = (0.5)(70) + (0.1)(85) + (0.4)(60)

• MA = 35 + 8.5 + 24 = 67.5
64

Medidas de Dispersión

T T
x = (1 2 3); x = (-5 2 9);
1 2

T T
x = (-10 -3 0 2 3 20); x = (0 2 4)
3 4
65

Medidas de Dispersión
Desviación Rango Rango
Varianza
Estándar Muestral Intercuartil
• Medida de la • Denominada • Diferencia entre • Diferencia entre
dispersión de una también el valor máximo y el Tercer Cuartil
variable X con Desviación Típica el valor mínimo y el Primero.
respecto a su media de una Muestra, de la Muestra. • Determina un
aritmética. se la denota por s • Mide la intervalo que
• Nunca es negativa. y se la define dispersión con la incluye el
• No tiene las mismas igual a la raíz longitud (mínima) cincuenta por
unidades que los cuadrada positiva de un intervalo en ciento central de
valores observados, de la Varianza. el que se ubica el observaciones
está en unidades 100% de las en la Muestra.
cuadráticas. observaciones
que constituyen
la Muestra.

n
 (Xi − x )2
2
n
(X i − x)
2
s =  n −1 s = +
i =1
R = X(n) – X(1) RI = Q3 – Q1
i=1 n −1
66

Ejemplo
• Considerando las veinte observaciones tomadas en las
aguas de un río del Litoral Ecuatoriano del ejemplo
estudiado previamente:

• xT = (12 7 10 3 4 7 3 9 6 9 1 4 6 4 4 9 7 4 7 11)

• Calcule la varianza, la desviación estándar, el rango


muestral y el rango intercuartil.
67

…viene Ejemplo
• Siendo n = 20, ya encontramos que 𝑥ҧ = 6.35 por lo tanto
la Varianza es:

12 − 6.35 2 + 7 − 6.35 2 + ⋯ + 11 − 6.35 2


𝑠2 = = 8.87
19

• Por lo que, la Desviación Típica de la Muestra es:

𝑠 = 8.87 = 2.98
68

…viene Ejemplo
• Se tiene ya que X(1) = 1 y X(n) = X(20) = 12, por lo tanto
el Rango Muestral es:
• R = 12 – 1 = 11

• Con los algoritmos estudiados para cálculo de cuantiles


se encuentra que:
• Q1 = X(5.25) = 4; y, Q3 = X(15.75) = 9

• Por lo que el Rango Intercuartil de la Muestra es:


• RI = 9 – 4 = 5
69

Coeficiente de Variación
• Mide la “dispersión relativa” de X con respecto a la
media aritmética.
• Sirve como medida comparativa entre dos
características X y Y cuando las escalas en las que se
miden cada variable son distintas.
• Dada una Muestra XT = (X1 X2 ... Xn) que tiene Media
Aritmética 𝑥ҧ y Desviación Estándar 𝑠 , se define al
coeficiente de variación como:

s
V = 100
x
70

Ejemplo
• Las mediciones hechas con un micrómetro del diámetro
de un cojinete de bolas tienen una media de 3.92 mm y
una desviación estándar de 0.0152 mm, en tanto que las
mediciones realizadas con otro micrómetro de la
longitud sin estirar de un resorte tienen una media de
1.54 pulgadas y una desviación estándar de 0.0086
pulgadas. ¿Cuál de esos dos instrumentos de medición
es relativamente más preciso?
71

…viene Ejemplo
• Para el primer micrómetro, el coeficiente de variación es:

0.0152
𝑉= ∙ 100 = 0.39%
3.92

• Para el segundo micrómetro, el coeficiente de variación


es:
0.0086
𝑉= ∙ 100 = 0.56%
1.54

• Por lo que, las mediciones hechas con el primer


micrómetro son relativamente más precisas, pues tienen
menor dispersión relativa.
72

Valores Aberrantes detectados utilizando


Diagramas de Caja
• A partir de un Diagrama de Caja, se considera que una
observación constituye un presunto valor aberrante, si
se ubica a 1.5RI abajo de Q1 o 1.5RI arriba de Q3.
73

…vieneValores Aberrantes detectados


utilizando Diagramas de Caja
• ¿Cómo construir el Diagrama de Caja?
• Determinar los cuartiles Q1, Q2 y Q3.
• Calcular el rango intercuartil RI = Q3 – Q1.
• Determinar los límites a partir de los cuales se considera
que un valor es aberrante.
• < Q1 – 1.5RI  valor aberrante
• > Q3 + 1.5RI  valor aberrante
• Construir una caja usando como límites Q1 y Q3 y dibujando
la mediana (Q2) con una línea interior.
• Si no hay valores aberrantes, se extiende una línea desde
los extremos de la caja hacia X(1) y X(n); caso contrario, los
bigotes se extienden hasta la observación más cercana a
Q1 – 1.5RI y Q3 + 1.5RI.
• Finalmente, se marcan con círculos los valores aberrantes.
74

…vieneValores Aberrantes detectados


utilizando Diagramas de Caja
• Ejemplo. Los siguientes datos corresponden a tiempos
(en segundos) entre neutrinos que un grupo de físicos
observaron de una supernova:

• 0.021 0.107 0.179 0.190 0.196 0.283


• 0.580 0.854 1.180 2.000 7.300

• Determine qué valores observados en la Muestra serían


“sospechosos” de convertirse en Valores Aberrantes y
grafique el correspondiente Diagrama de Caja.
75

…vieneValores Aberrantes detectados


utilizando Diagramas de Caja
• Con los algoritmos estudiados para cálculo de cuantiles
se encuentra que:
• Q1 = X(3) = 0.179
• Q2 = X(6) = 0.283
• Q3 = X(9) = 1.180

• De donde el Rango Intercuartil es igual a:

• RI = 1.180 – 0.179 = 1.001


76

…vieneValores Aberrantes detectados


utilizando Diagramas de Caja
• Por tanto, los límites a partir de los cuales una
observación puede ser aberrante son:

• Q1 – 1.5RI = 0.179 – 1.5(1.001) = -1.323


• Q3 + 1.5RI = 1.180 + 1.5(1.001) = 2.682

• Teniendo que:
• No existen valores aberrantes abajo de Q1; y,
• Existe un valor aberrante arriba de Q3 y es 7.300.
77

…vieneValores Aberrantes detectados


utilizando Diagramas de Caja

• Quedando el Diagrama de Caja de la siguiente manera:


78

Media y Varianza de Datos Agrupados


k
x=
f i Yi
Media
i =1 n

fi (Yi − y)2
k
s =
2
Varianza
i=1 n −1
• Donde:
• Yi es la i–ésima Marca de Clase
• fi es la Frecuencia Absoluta de la i–ésima Clase
• k representa el número total de clases en la Tabla de
Frecuencias
79

Media y Varianza de Datos


…viene

Agrupados
• Ejemplo. Con los datos del ejercicio relacionado con las
resistencias del papel, determinar la Media y Varianza
de datos agrupados.

Frecuencia Frecuencia
Ordinal de Marca de Frecuencia Frecuencia
Clase Absoluta Relativa
la Clase Clase Absoluta Relativa
Acumulada Acumulada
1 [114 , 117) 115.5 1 0.063 1 0.063
2 [117 , 120) 118.5 2 0.125 3 0.188
3 [120 , 123) 121.5 3 0.188 6 0.375
4 [123 , 126) 124.5 4 0.250 10 0.625
5 [126 , 129) 127.5 3 0.188 13 0.813
6 [129 , 132) 130.5 2 0.125 15 0.938
7 [132 , 135] 133.5 1 0.063 16 1.000
80

Media y Varianza de Datos


…viene

Agrupados
• Media de Datos Agrupados
(n = 16, k = 7) Ordinal de Marca de Frecuencia Frecuencia
Frecuencia Frecuencia
Clase Absoluta Relativa
la Clase Clase Absoluta Relativa
Acumulada Acumulada
1 [114 , 117) 115.5 1 0.063 1 0.063
2 [117 , 120) 118.5 2 0.125 3 0.188
3 [120 , 123) 121.5 3 0.188 6 0.375
4 [123 , 126) 124.5 4 0.250 10 0.625
5 [126 , 129) 127.5 3 0.188 13 0.813
6 [129 , 132) 130.5 2 0.125 15 0.938
7 [132 , 135] 133.5 1 0.063 16 1.000

7
𝑓𝑖 𝑌𝑖 1 115.5 + 2 118.5 + ⋯ + 2 130.5 + 1(133.5)
𝑥ҧ = ෍ = = 124.5
16 16
𝑖=1
81

Media y Varianza de Datos


…viene

Agrupados
• Varianza de Datos Agrupados
(n = 16, k = 7) Ordinal de Marca de Frecuencia Frecuencia
Frecuencia Frecuencia
Clase Absoluta Relativa
la Clase Clase Absoluta Relativa
Acumulada Acumulada
1 [114 , 117) 115.5 1 0.063 1 0.063
2 [117 , 120) 118.5 2 0.125 3 0.188
3 [120 , 123) 121.5 3 0.188 6 0.375
4 [123 , 126) 124.5 4 0.250 10 0.625
5 [126 , 129) 127.5 3 0.188 13 0.813
6 [129 , 132) 130.5 2 0.125 15 0.938
7 [132 , 135] 133.5 1 0.063 16 1.000

7
𝑓𝑖 𝑌𝑖 − 𝑦ത 2
2
𝑠 =෍
16 − 1
𝑖=1

1 115.5 − 124.5 2 + ⋯ + 1 133.5 − 124.5 2


= = 24
15
82

Estadística Descriptiva Multivariada


• Matriz de Datos
• Matriz YMpn que contiene las p características
investigadas a las unidades de una Población Objetivo,
a través de una Muestra de tamaño n.
83

…viene Estadística Descriptiva Multivariada


• Vector de Medias Muestrales
• Vector que recoge las medias de cada una de las p
características investigadas, se define como:

1
x = n Y1n
• Donde:
• 1n es un vector de unos definido como 1n = (1 1 ... 1)T; y,
• Y es la matriz de datos
84

…viene Estadística Descriptiva Multivariada


• Matriz de Varianzas y Covarianzas Muestrales
• Matriz que resume la variabilidad de los datos y la
información relativa a las relaciones lineales entre las
variables. Se define como:

• Donde:
• I es la matriz identidad n  n
• 1n es un vector de unos definido como 1n = (1 1 ... 1)T; y,
• Y es la matriz de datos
85

…viene Estadística Descriptiva Multivariada


• La Matriz de Varianzas y Covarianzas S de la muestra es cuadrada
y simétrica de dimensiones p  p, donde p representa el número de
características que se investigan de la población objetivo.
• Los términos diagonales son las varianzas y los no diagonales las
covarianzas entre las variables.
• La Covarianza Muestral entre Xi y Xj , es la misma que Covarianza
Muestral entre Xj y Xi.
• Cuando i = j , la Covarianza Muestral (sii) entre Xi y Xi , es igual a la
varianza muestral de Xi , esto es, si2 ,mientras que si es la
desviación típica muestral de Xi .
𝜎11 𝜎12 ⋯ 𝜎1𝑝
𝜎21 𝜎22 ⋯ 𝜎2𝑝
𝐒= ⋮ ⋮ ⋱ ⋮
𝜎𝑝1 𝜎𝑝2 ⋯ 𝜎𝑝𝑝
86

Coeficiente de Correlación
• Mide la fortaleza de la relación lineal que existe entre dos
variables X e Y. Se lo define como:
n

 (x
i =1
i − x)(yi − y)
rxy =
n n


i =1
(x i − x)
2

i =1
(y i − y)
2

• Una definición equivalente a la definición dada para rxy es:


s ij
rij =
si s j
• Donde sij es la Covarianza Muestral entre Xi y Xj ,mientras que
si es la desviación típica muestral de Xi y sj la de Xj .
87

Más sobre el Coeficiente de Correlación


• Se puede probar que rij toma valores entre –1 y 1.

Indica la existencia de una relación lineal


“perfecta” entre Xi y Xj, dicha relación
rij = 1 tiene pendiente positiva lo que significa
que si Xi crece Xj también crece.

Indica la existencia de una relación lineal


“perfecta” pero decreciente entre Xi y Xj,
rij = -1 es decir, que mientras Xi crece Xj decrece
y viceversa.

Valores intermedios de rij (entre 1 y 0 o entre -1 y 0) significa que la


relación lineal va deteriorándose y cuando llega a cero, sea desde la
izquierda o la derecha la relación lineal desaparece.
88

Matriz de Correlación
• Matriz simétrica de dimensión p  p que resume las
correlaciones entre las variables.

𝑠11 𝑠12 𝑠1𝑝



𝑠1 𝑠1 𝑠1 𝑠2 𝑠1 𝑠𝑝
𝑟11 𝑟12 ⋯ 𝑟1𝑝
𝑠21 𝑠22 𝑠2𝑝
⋯ 𝑟21 𝑟22 ⋯ 𝑟2𝑝
𝑅 = 𝑠2 𝑠1 𝑠2 𝑠2 𝑠2 𝑠𝑝 = ⋮ ⋮ ⋱ ⋮
⋮ ⋮ ⋱ ⋮ 𝑟𝑝1 𝑟𝑝2 ⋯ 𝑟𝑝𝑝
𝑠𝑝1 𝑠𝑝2 𝑠𝑝𝑝

𝑠𝑝 𝑠1 𝑠𝑝 𝑠2 𝑠𝑝 𝑠𝑝

• Nótese que rii es “uno” y representa el Coeficiente de


Correlación Muestral entre Xi y Xi, lo cual significa que todos
los elementos de la diagonal de una Matriz de Correlación
son “unos”.
89

Ejemplo
• A cinco estudiantes de “nivel superior” se les pregunta
aplicando un cuestionario, su edad en años, número de
hermanos e ingreso promedio mensual de su hogar, en
dólares, respondiendo ellos de la siguiente manera:

Número de Ingreso
Estudiante Edad
Hermanos Mensual
1 19 3 930
2 18 0 750
3 19 4 785
4 21 1 1230
5 20 3 955

• Se requiere determinar el Vector de Medias de la Muestra, la


Matriz de Varianzas y Covarianzas y la Matriz de Correlación.
90

…viene Ejemplo
• Se cuenta con p = 3 características de una Población
Objetivo constituida por estudiantes de nivel superior la
edad de los estudiantes, el número de hermanos y el
ingreso mensual.
• El tamaño de la Muestra es n = 5.
• Los vectores que constituyen la Muestra son:
• x1 = [ 19 3 930 ]T
• x2 = [ 18 0 750 ]T
• x3 = [ 19 4 785 ]T
• x4 = [ 21 1 1230]T
• x5 = [ 20 3 955 ]T
91

…viene Ejemplo
• La Matriz de Datos Y es una matriz 35; y es:

• Y = [ X1 X2 X3 X4 X5]

• Reemplazando los valores numéricos tenemos que:

 19 18 19 21 20 
y= 3 0 4 1 3 
930 955
 750 785 1230
92

…viene Ejemplo
1
• Donde el vector de medias es igual a: x = n Y1n
1
 
 19 18 19 21 20  1
1
y15 =
1
 3 0 4 1   
3 1 = [19.40 2.20 930]
T
5 5   
930 750 785 1230 955  1 
1
 
• Significando esto, que la edad promedio de los
entrevistados es 19.40 años; el número promedio de
hermanos es 2.20; y, el ingreso medio de los
correspondientes hogares es 930 dólares al mes.
93

…viene Ejemplo
• La matriz de varianzas y covarianzas es:

 1 0 0 0 0 1  19 3 930 


     
 19 18 19 21 20  0 1 0 0 0 1
   18 0 750 
0  − 1 1 1 1 1 1  19 4 785 
1  
3  0 1
S= 3 0 4 1 0 1 0
4    5   
930 750 785 1230 955  0

0 0 1 0

1
 
 21 1 1230
 
 
 0 0 0 0 1  1 20 3 955 

 1.30 0.15 201.25 


S =  0.15 2.70 −51.25 
201.25 −51.25 36012.50

94

…viene Ejemplo
s ij
• Teniendo en cuenta que rij =
si s j
• Aplicando lo previamente señalado, obtenemos que R es la
matriz simétrica siguiente:

 1 0.080 0.930 
R = 0.080 1 −0.164
0.930 −0.164 
 1 
• Esto nos dice que existe una “fuerte” relación lineal entre
edad e ingreso mensual, y que es positiva, y una relación
“débil” y negativa entre número de hermanos e ingreso
mensual, pues es cercana a cero.
95

Referencias Bibliográficas
• ZURITA, G. (2010), “Probabilidad y Estadística,
Fundamentos y Aplicaciones”, Segunda Edición,
Ediciones de la Facultad de Ciencias Naturales y
Matemáticas ESPOL, Guayaquil, Ecuador.

Vous aimerez peut-être aussi