Académique Documents
Professionnel Documents
Culture Documents
Vida
Diaria
6
1
ESTADÍSTICA DESCRIPTIVA
Materia: Estadística
Profesora: Gina Verónica Ochoa Jara
Dato e Información
DATO INFORMACIÓN
Conceptos básicos
• Población Objetivo: Conjunto bien definido de elementos
que son objeto de medición.
• Unidad de Investigación: Elementos de la Población
Objetivo a los que se les efectúa las medidas bajo
análisis.
• Muestra: Subconjunto de n unidades de investigación
tomadas de la Población Objetivo de tamaño N > n.
• Observación: Cada uno de los valores incluidos en la
Muestra.
• Parámetro: Cantidad numérica calculada a partir de los
elementos de una población.
• Estimador: Cantidad numérica calculada a partir de los
elementos de una muestra.
10
Estadísticos de Orden
• Número de posición que ocupan los elementos de la
muestra, cuando los elementos están ordenados.
Tabla de Frecuencias
• Para tabular datos cuantitativos, y así facilitar la
exploración estadística de los mismos, se requiere
definir algunos términos, que son: Clase, Marca de
Clase, Frecuencia Absoluta, Frecuencia Relativa,
Frecuencia Acumulada Absoluta y Frecuencia
Acumulada Relativa.
14
1 [a1,a2)
2 [a2,a3)
3 [a3,a4)
. .
. .
. .
k [ak,ak+1]
Ejemplo
• Se tiene una Muestra de tamaño n = 60 datos y el
mínimo X(1) es igual a 32 mientras que el máximo X(60)
es 96. Se requiere determinar Clases para la Muestra.
• Desarrollo.
• Se nos sugiere tomar k = 7, de tal manera que
consideramos pertinente tomar,
…viene Ejemplo
• Restamos el valor máximo del intervalo A menos el
mínimo valor (100 – 30 = 70); y, dividimos ese valor para
el número de clases (70 / 7 = 10) y de esta forma
tenemos la longitud de cada intervalo.
• Esto hace posible que:
1 [a1,a2) (a1+a2)/2
2 [a2,a3) (a2+a3)/2
3 [a3,a4) (a3+a4)/2
. . .
. . .
. . .
k [ak,ak+1) (ak+ak+1)/2
1 [a1,a2) (a1+a2)/2 f1
2 [a2,a3) (a2+a3)/2 f2
3 [a3,a4) (a3+a4)/2 f3
. . . .
. . . .
. . . .
k [ak,ak+1) (ak+ak+1)/2 fk
Gráficos de Frecuencias
• Histograma de Frecuencias: Gráfico bidimensional
de “barras” en cuyo eje horizontal están señaladas
las k clases que se hayan definido, y en el eje
vertical se representan las Frecuencias Relativas
de cada una de ellas.
• Polígono de Frecuencia: Gráfico derivado del
Histograma de Frecuencia que utiliza como
vértices los puntos centrales superiores de las
barras del Histograma.
• Ojiva: Gráfico que ubica en el eje horizontal la
característica cuantitativa X que se está
investigando (coloca sobre el eje las k clases en
que hemos decidido organizar la Muestra de
tamaño n), y en el eje vertical la Frecuencia
Acumulada Relativa.
23
Construcción de la Ojiva
• El gráfico de una Ojiva se construye determinando (k +
1) puntos y luego conectándolos de manera sucesiva y
con trazos continuos, de la siguiente manera:
• El primer punto tiene coordenadas (a1 , 0) donde a1 es el
extremo inferior de la Primera Clase;
• El segundo punto tiene coordenadas (a2 , F1/n) siendo a2
el extremo inferior de la Segunda Clase;
• El tercer punto tiene coordenadas (a3 , F2/n); y,
• Así sucesivamente hasta llegar al penúltimo punto que
tiene como coordenadas (ak , Fk-1/n); siendo el último
punto el que tiene coordenadas (ak+1 , Fk/n).
24
Ejemplo
• Las siguientes 16 mediciones son de la resistencia (en
psi) del papel que se va a utilizar en tubos de cartón:
• xT = (114 117 119 120 120 121 123 124 125 125 126
127 128 130 131 135)
…viene Ejemplo
• Se tiene una Muestra de tamaño n = 16 datos y el
mínimo X(1) es igual a 114 mientras que el máximo X(16)
es 135.
1 [114 , 117)
2 [117 , 120)
3 [120 , 123)
4 [123 , 126)
5 [126 , 129)
6 [129 , 132)
7 [132 , 135]
27
fi/n
1.000
0.900
0.800
0.700
0.600
0.500
0.400
0.300 0.250
0.188 0.188
0.200 0.125 0.125
0.100 0.063 0.063
0.000 X
[114 , 117) [117 , 120) [120 , 123) [123 , 126) [126 , 129) [129 , 132) [132 , 135]
33
fi/n
1.000
0.900
0.800
0.700
0.600
0.500
0.400
0.300 0.250
0.188 0.188
0.200 0.125 0.125
0.100 0.063 0.063
0.000 0.000
0.000 X
112.5 [114 , 117) [117 , 120) [120 , 123) [123 , 126) [126 , 129) [129 , 132) [132 , 135] 136.5
34
0.900
0.800
0.700
0.600
0.500
0.400
0.300
0.200
0.100
0.000 X
114 117 120 123 126 129 132 135
35
Cuartiles
• Primer Cuartil (Q1)
• Valor de X tal que el veinticinco por ciento de las
observaciones en la Muestra Ordenada toman valores
menores o iguales que Q1.
• Segundo Cuartil (Q2)
• Valor de X tal que el cincuenta por ciento de las
observaciones en la Muestra son menores o iguales que
Q2. También se lo conoce como Mediana.
• Tercer Cuartil (Q3)
• Valor de X tal que el setenta y cinco por ciento de los
elementos en la Muestra toman valores menores o
iguales que Q3.
37
0.750
0.500
0.250
0.000 X
114 117 120 Q1 123 Q2 126 Q3 129 132 135
38
Quintiles
• Primer Quintil (K1)
• Valor de X tal que el veinte por ciento de las observaciones
en la Muestra Ordenada toman valores menores o iguales
que K1.
• Segundo Quintil (K2)
• Valor de X tal que el cuarenta por ciento de las observaciones
en la Muestra Ordenada toman valores menores o iguales
que K2.
• Tercer Quintil (K3)
• Valor de X tal que el sesenta por ciento de las observaciones
en la Muestra Ordenada toman valores menores o iguales
que K3.
• Cuarto Quintil (K4)
• Valor de X tal que el ochenta por ciento de las observaciones
en la Muestra Ordenada toman valores menores o iguales
que K4.
39
0.800
0.600
0.400
0.200
0.000 X
114 117 120 123 126 129 132 135
40
Deciles
• Los Deciles Muestrales se los denota por D1, D2, D3,
hasta D9.
• Se puede decir que cuando mas el diez por ciento de los
elementos en la Muestra toman valores menores o
iguales al Primer Decil D1;
• El veinte por ciento de los elementos en la Muestra
toman valores menores o iguales a D2; y,
• Así hasta llegar al Noveno Decil, D9, cuando el noventa
por ciento de las observaciones que conforman la
Muestra toman valores menores o iguales que D9.
41
0.900
0.800
0.700
0.600
0.500
0.400
0.300
0.200
0.100
0.000 X
114 117 120 123 126 129 132 135
42
Percentiles
• Los Percentiles Muestrales se los denota por P1, P2, P3,
hasta P99.
• El uno por ciento de los elementos en la Muestra toman
valores menores o iguales que P1, que es el denominado
Primer Percentil de la Muestra; y,
• El noventa y nueve por ciento son menores o iguales
que P99 el Nonagésimo Noveno Percentil de la
Muestra.
43
Cuantiles
• Un cuantil no es un punto sobre el plano sino una coordenada
sobre el eje horizontal, por tanto es un valor numérico;
además los Cuantiles no tienen que necesariamente ser
valores que pertenezcan a la Muestra.
• Es procedente decir que:
• Q1 = P25
• Q2 = D5 = P50
• Q3 = P75.
• K1 = D2 = P20
• K2 = D4 = P40
• K3 = D6 = P60
• K4 = D8 = P80
45
Diagrama de Caja
• Esquema gráfico que permite obtener de manera rápida
la distribución de los datos que conforman la Muestra.
• Comúnmente se lo “adosa” a una Ojiva, aunque es
posible también presentarlo aislado, siempre que se
tengan los valores correspondientes a los cuartiles Q1,
Q2 y Q3, así como los valores máximo y mínimo en la
Muestra, esto es X(n) y X(1).
46
Diagrama de Caja
Ejemplo Resistencia del Papel
Fi/n
1.000
0.750
0.500
0.250
0.000 X
114 117 120 Q1 123 Q2 126 Q3 129 132 135
X(1)=114 X(n)=135
47
Tipos de Variables
• Cualitativas o Categóricas
• Si sus valores no se pueden asociar naturalmente a un número (no se pueden
hacer operaciones algebraicas con ellos).
• Nominales: Si sus valores no se pueden ordenar.
• Género, Grupo Sanguíneo, Religión, Nacionalidad, Raza humana, Tipo de
Colegio.
• Ordinales: Si sus valores se pueden ordenar.
• Nivel de Instrucción, Grado de una enfermedad, Categoría de un profesor
universitario.
• Cuantitativas o Numéricas
• Si sus valores son numéricos (tiene sentido hacer operaciones algebraicas con
ellos).
• Discretas: Si toman valores puntuales.
• Número de hijos, Número de máquinas con problemas, número de veces
que falla el suministro de energía por mes.
• Continuas: Si entre dos valores, son posibles infinitos valores intermedios.
• Tiempo que tarda el dar mantenimiento a una máquina, Edad, tiempo de
vida de un equipo.
48
Diagrama de Barras
Variable Cualitativa Nominal
“Especialidad del Bachiller Graduado de Ingeniero en la ESPOL”
Correspondiente a la Cohorte que ingresó a Ingeniería de la ESPOL en el año 1999
49
X =
X(i) +X(i +1)
= X (i) +
( X(i +1) − X(i) )
;
(i.5) 2 2
• Desarrollo.
• Ordenamos la muestra de tamaño n = 6
• xT = (1 2 5 6 8 9)
• m = 0.75(6+1) = 5.25
(X1 + X 2 + ... +X n ) n
xT = (4, 2, 6, 3, 5, 3) (X(n/2) +X([n/2] + 1))/2 si n es par
ni
X
x= =
n i =1 Moda=3 X([n + 1]/2) si n es impar
55
Formas de la Distribución
Media Cortada
• Se la denota por T y se la define como la Media
Aritmética del (1 – )100% por ciento de los datos
ordenados; suprimiendo, en una Muestra Ordenada,
/2(100%) de datos de la “parte superior” y /2(100%)
de la “parte inferior” en la Muestra.
• Este “recorte” supone que los valores extremos, si
existen, no serán considerados en el cálculo de T.
• Lo usual es tomar = 0.10 es decir, se calcula T0.10.
57
Media Cortada
• Si T = T0.10
• Entonces:
• T/2=0.10/2=T0.05
• Entonces no debemos usar:
• 0.05*100%=5%
• Si la muestra es de tamaño n=60
• Entonces deben suprimirse el 5% de 60, esto es, 3
observaciones en la parte inferior y 3 en la parte
superior, en la muestra ordenada.
58
Ejemplo
• En un laboratorio de Química Analítica se determina el
número de partes por millón de un metal pesado que se
encuentra disuelto en las aguas de un río del Litoral
Ecuatoriano. Luego de efectuar veinte observaciones se
obtiene una Muestra que es la siguiente:
• xT = (12 7 10 3 4 7 3 9 6 9 1 4 6 4 4 9 7 4 7 11)
…viene Ejemplo
• Media Aritmética
𝑋1 +𝑋2 +⋯+𝑋20 𝑋𝑖
• 𝑥ҧ = = σ20
𝑖=1 20
20
12+7+10+3+⋯+4+7+11
• 𝑥ҧ = = 6.35
20
• Ordenando la Muestra:
• (1 3 3 4 4 4 4 4 6 6 7 7 7 7 9 9 9 10 11 12)T
• Esto es:
• X(1 ) = 1; X(2 ) = 3; X(3) = 3; … ; X(19) = 11; X(20) = 12;
60
…viene Ejemplo
• Para calcular la Media Cortada T0.10, debemos prescindir
del 5% de 20 = 1, esto es, en la Muestra original, de
X(1) = 1 y de X(20) = 12, por lo que el noventa por ciento
restante de la Muestra x es el vector,
• yT = (3 3 4 4 4 4 4 6 6 7 7 7 7 9 9 9 10
11)
• (3 + 3 + 4 + 4 + 4 + … + 9 + 9 + 9 + 10 + 11)/18 = 6.33
61
…viene Ejemplo
• Calculando la Mediana tenemos:
• m = 0.5(20+1) = 10.5
• Q2 = X(10.5) = X(10) + 0.5(X(11) – X(10))
• = 6 + 0.5(7 – 6)
• = 6.5
Media Ponderada
• Sumatoria de cada observación Xi multiplicada por “su”
peso o ponderación correspondiente i.
Media Ponderada
Nota Componente Teórico
Estudiante A
Peso Nota
Examen 0.5 70
Control de lectura 0.1 85
Lecciones 0.4 60
• MA = 35 + 8.5 + 24 = 67.5
64
Medidas de Dispersión
T T
x = (1 2 3); x = (-5 2 9);
1 2
T T
x = (-10 -3 0 2 3 20); x = (0 2 4)
3 4
65
Medidas de Dispersión
Desviación Rango Rango
Varianza
Estándar Muestral Intercuartil
• Medida de la • Denominada • Diferencia entre • Diferencia entre
dispersión de una también el valor máximo y el Tercer Cuartil
variable X con Desviación Típica el valor mínimo y el Primero.
respecto a su media de una Muestra, de la Muestra. • Determina un
aritmética. se la denota por s • Mide la intervalo que
• Nunca es negativa. y se la define dispersión con la incluye el
• No tiene las mismas igual a la raíz longitud (mínima) cincuenta por
unidades que los cuadrada positiva de un intervalo en ciento central de
valores observados, de la Varianza. el que se ubica el observaciones
está en unidades 100% de las en la Muestra.
cuadráticas. observaciones
que constituyen
la Muestra.
n
(Xi − x )2
2
n
(X i − x)
2
s = n −1 s = +
i =1
R = X(n) – X(1) RI = Q3 – Q1
i=1 n −1
66
Ejemplo
• Considerando las veinte observaciones tomadas en las
aguas de un río del Litoral Ecuatoriano del ejemplo
estudiado previamente:
• xT = (12 7 10 3 4 7 3 9 6 9 1 4 6 4 4 9 7 4 7 11)
…viene Ejemplo
• Siendo n = 20, ya encontramos que 𝑥ҧ = 6.35 por lo tanto
la Varianza es:
𝑠 = 8.87 = 2.98
68
…viene Ejemplo
• Se tiene ya que X(1) = 1 y X(n) = X(20) = 12, por lo tanto
el Rango Muestral es:
• R = 12 – 1 = 11
Coeficiente de Variación
• Mide la “dispersión relativa” de X con respecto a la
media aritmética.
• Sirve como medida comparativa entre dos
características X y Y cuando las escalas en las que se
miden cada variable son distintas.
• Dada una Muestra XT = (X1 X2 ... Xn) que tiene Media
Aritmética 𝑥ҧ y Desviación Estándar 𝑠 , se define al
coeficiente de variación como:
s
V = 100
x
70
Ejemplo
• Las mediciones hechas con un micrómetro del diámetro
de un cojinete de bolas tienen una media de 3.92 mm y
una desviación estándar de 0.0152 mm, en tanto que las
mediciones realizadas con otro micrómetro de la
longitud sin estirar de un resorte tienen una media de
1.54 pulgadas y una desviación estándar de 0.0086
pulgadas. ¿Cuál de esos dos instrumentos de medición
es relativamente más preciso?
71
…viene Ejemplo
• Para el primer micrómetro, el coeficiente de variación es:
0.0152
𝑉= ∙ 100 = 0.39%
3.92
• Teniendo que:
• No existen valores aberrantes abajo de Q1; y,
• Existe un valor aberrante arriba de Q3 y es 7.300.
77
fi (Yi − y)2
k
s =
2
Varianza
i=1 n −1
• Donde:
• Yi es la i–ésima Marca de Clase
• fi es la Frecuencia Absoluta de la i–ésima Clase
• k representa el número total de clases en la Tabla de
Frecuencias
79
Agrupados
• Ejemplo. Con los datos del ejercicio relacionado con las
resistencias del papel, determinar la Media y Varianza
de datos agrupados.
Frecuencia Frecuencia
Ordinal de Marca de Frecuencia Frecuencia
Clase Absoluta Relativa
la Clase Clase Absoluta Relativa
Acumulada Acumulada
1 [114 , 117) 115.5 1 0.063 1 0.063
2 [117 , 120) 118.5 2 0.125 3 0.188
3 [120 , 123) 121.5 3 0.188 6 0.375
4 [123 , 126) 124.5 4 0.250 10 0.625
5 [126 , 129) 127.5 3 0.188 13 0.813
6 [129 , 132) 130.5 2 0.125 15 0.938
7 [132 , 135] 133.5 1 0.063 16 1.000
80
Agrupados
• Media de Datos Agrupados
(n = 16, k = 7) Ordinal de Marca de Frecuencia Frecuencia
Frecuencia Frecuencia
Clase Absoluta Relativa
la Clase Clase Absoluta Relativa
Acumulada Acumulada
1 [114 , 117) 115.5 1 0.063 1 0.063
2 [117 , 120) 118.5 2 0.125 3 0.188
3 [120 , 123) 121.5 3 0.188 6 0.375
4 [123 , 126) 124.5 4 0.250 10 0.625
5 [126 , 129) 127.5 3 0.188 13 0.813
6 [129 , 132) 130.5 2 0.125 15 0.938
7 [132 , 135] 133.5 1 0.063 16 1.000
7
𝑓𝑖 𝑌𝑖 1 115.5 + 2 118.5 + ⋯ + 2 130.5 + 1(133.5)
𝑥ҧ = = = 124.5
16 16
𝑖=1
81
Agrupados
• Varianza de Datos Agrupados
(n = 16, k = 7) Ordinal de Marca de Frecuencia Frecuencia
Frecuencia Frecuencia
Clase Absoluta Relativa
la Clase Clase Absoluta Relativa
Acumulada Acumulada
1 [114 , 117) 115.5 1 0.063 1 0.063
2 [117 , 120) 118.5 2 0.125 3 0.188
3 [120 , 123) 121.5 3 0.188 6 0.375
4 [123 , 126) 124.5 4 0.250 10 0.625
5 [126 , 129) 127.5 3 0.188 13 0.813
6 [129 , 132) 130.5 2 0.125 15 0.938
7 [132 , 135] 133.5 1 0.063 16 1.000
7
𝑓𝑖 𝑌𝑖 − 𝑦ത 2
2
𝑠 =
16 − 1
𝑖=1
1
x = n Y1n
• Donde:
• 1n es un vector de unos definido como 1n = (1 1 ... 1)T; y,
• Y es la matriz de datos
84
• Donde:
• I es la matriz identidad n n
• 1n es un vector de unos definido como 1n = (1 1 ... 1)T; y,
• Y es la matriz de datos
85
Coeficiente de Correlación
• Mide la fortaleza de la relación lineal que existe entre dos
variables X e Y. Se lo define como:
n
(x
i =1
i − x)(yi − y)
rxy =
n n
i =1
(x i − x)
2
i =1
(y i − y)
2
Matriz de Correlación
• Matriz simétrica de dimensión p p que resume las
correlaciones entre las variables.
Ejemplo
• A cinco estudiantes de “nivel superior” se les pregunta
aplicando un cuestionario, su edad en años, número de
hermanos e ingreso promedio mensual de su hogar, en
dólares, respondiendo ellos de la siguiente manera:
Número de Ingreso
Estudiante Edad
Hermanos Mensual
1 19 3 930
2 18 0 750
3 19 4 785
4 21 1 1230
5 20 3 955
…viene Ejemplo
• Se cuenta con p = 3 características de una Población
Objetivo constituida por estudiantes de nivel superior la
edad de los estudiantes, el número de hermanos y el
ingreso mensual.
• El tamaño de la Muestra es n = 5.
• Los vectores que constituyen la Muestra son:
• x1 = [ 19 3 930 ]T
• x2 = [ 18 0 750 ]T
• x3 = [ 19 4 785 ]T
• x4 = [ 21 1 1230]T
• x5 = [ 20 3 955 ]T
91
…viene Ejemplo
• La Matriz de Datos Y es una matriz 35; y es:
• Y = [ X1 X2 X3 X4 X5]
19 18 19 21 20
y= 3 0 4 1 3
930 955
750 785 1230
92
…viene Ejemplo
1
• Donde el vector de medias es igual a: x = n Y1n
1
19 18 19 21 20 1
1
y15 =
1
3 0 4 1
3 1 = [19.40 2.20 930]
T
5 5
930 750 785 1230 955 1
1
• Significando esto, que la edad promedio de los
entrevistados es 19.40 años; el número promedio de
hermanos es 2.20; y, el ingreso medio de los
correspondientes hogares es 930 dólares al mes.
93
…viene Ejemplo
• La matriz de varianzas y covarianzas es:
…viene Ejemplo
s ij
• Teniendo en cuenta que rij =
si s j
• Aplicando lo previamente señalado, obtenemos que R es la
matriz simétrica siguiente:
1 0.080 0.930
R = 0.080 1 −0.164
0.930 −0.164
1
• Esto nos dice que existe una “fuerte” relación lineal entre
edad e ingreso mensual, y que es positiva, y una relación
“débil” y negativa entre número de hermanos e ingreso
mensual, pues es cercana a cero.
95
Referencias Bibliográficas
• ZURITA, G. (2010), “Probabilidad y Estadística,
Fundamentos y Aplicaciones”, Segunda Edición,
Ediciones de la Facultad de Ciencias Naturales y
Matemáticas ESPOL, Guayaquil, Ecuador.