Académique Documents
Professionnel Documents
Culture Documents
CAPITULO III
ORGANIZACION DE DATOS
CUADRO DE FRECUENCIAS.
desaprobados <- c("Cálculo II", "Cálculo II", "Cálculo I", "Algebra I",
"Estadística", "Estadística", "Cálculo II", "Biología", "Química",
"Cálculo I", "Estadística", "Cálculo I", "Estadística", "Algebra I",
"Algebra I", "Física", "Cálculo I", "Algebra I", "Estadística",
"Cálculo II", "Algebra I", "Algebra I", "Cálculo I", "Cálculo I",
"Estadística", "Cálculo II", "Cálculo II", "Cálculo II", "Estadística",
"Cálculo I", "Estadística", "Genética", "Procesos", "Agrometría",
"Estadística", "Cálculo I", "Bioquímica", "Cálculo II", "Cálculo I",
"Cálculo I")
tabla3<-
data.frame(alumnos=cbind(tabla1)[,1],porcentaje=cbind(tabla2)[,1])
adicional<-data.frame(row.names="Otros",alumnos=
sum(otros$alumnos),porcentaje=sum(otros$porcentaje))
final<-rbind(tabla4,adicional)
final
alumnos porcentaje
Algebra I 6 15.4
Cálculo I 9 23.1
Cálculo II 8 20.5
Estadística 9 23.1
Otros 7 18.2
F. de Mendiburu / Apuntes de clase - uso interno. Grupo G / Martes 2-4, Miercoles 2-3 pm
Estadistica Descriptiva 16
CUADRO DE FRECUENCIAS
Curso Nro. de % de
Alumnos Alumnos
Cálculo II 8 20
Cálculo I 10 25
Estadística 9 22.5
Algebra I 6 15
Otros cursos 7 17.5
Total 40 100
En el caso de que se trate con variables de tipo cualitativo jerárquico, los valores
de la variable deben de colocarse ordenadamente de mayor a menor.
REPRESENTACIONES GRAFICAS
GRAFICO DE BARRAS
par(mar=c(4,8,8,4),cex=0.8)
barplot(final$porcentaje,name=row.names(final),col=colors()[21],horiz=T,las=2)
title(main="Graf. 1. Barra Horizontal: Porcentaje\nde desaprobados")
barplot(final$porcentaje,name=row.names(final),col=colors()[45])
title(main="Graf. 2. Barra Vertical: Porcentaje\nde desaprobados")
F. de Mendiburu / Apuntes de clase - uso interno. Grupo G / Martes 2-4, Miercoles 2-3 pm
Estadistica Descriptiva 17
25
Otros
20
Estadística
15
Cálculo II
Cálculo I
10
Algebra I
5
0
10
15
20
25
0
Algebra I Cálculo I Cálculo II Estadística Otros
par(mar=c(2,3,2,2),cex=1.5)
pie(final$porcentaje,labels=paste(rownames(final),"\n",final$porcentaje))
Cálculo I
25
Algebra I
15
Cálculo II
20
Otros
17.5
Estadística
22.5
F. de Mendiburu / Apuntes de clase - uso interno. Grupo G / Martes 2-4, Miercoles 2-3 pm
Estadistica Descriptiva 18
library(agricolae)
data(genxenv)
rdto <- subset(genxenv$YLD,genxenv$ENV==2)
rdto <- round(rdto,1)
corresponde al rendimiento de 50 genotipos de papa del Banco de
Germoplasma de CIP. Equivalente a tonedadas por Hectarea.
> sturges.freq(rdto)
$maximum
[1] 26.1
$minimum
[1] 9.9
$amplitude
[1] 16.2
$classes
[1] 7
$interval
[1] 2.4
$breaks
[1] 9.9 12.3 14.7 17.1 19.5 21.9 24.3 26.7
F. de Mendiburu / Apuntes de clase - uso interno. Grupo G / Martes 2-4, Miercoles 2-3 pm
Estadistica Descriptiva 19
HIST(rdto)
rdto <- round(subset(genxenv$YLD,genxenv$ENV==2),1)
HIST(rdto)
rdto
rdto
history()
A = Xi máx - Xi min
max(rdto) - min(rdto)
TIC = A/k
TIC = 16.2 / 7 = 2.31 ≈ 2.4
El redondeo es por exceso y hasta el número de decimales que tienen los datos.
4.51 4.6
3.03 3.1
4. Determinar los límites de los intervalos de clase. Se debe tener en cuenta los
siguientes aspectos:
F. de Mendiburu / Apuntes de clase - uso interno. Grupo G / Martes 2-4, Miercoles 2-3 pm
Estadistica Descriptiva 20
6. Determinar las frecuencias absolutas de cada intervalo (fi) que resulta del
consolidado del conteo.
Las frecuencia absoluta del intervalo "i" , se expresa como fi e indica el número
de observaciones que son mayores o iguales que su límite inferior pero menores
que su límite superior.
F. de Mendiburu / Apuntes de clase - uso interno. Grupo G / Martes 2-4, Miercoles 2-3 pm
Estadistica Descriptiva 21
Se verifica que:
k
Σ fi = n
i=1
f4 = 20; indica que existen 20 genotipos cuyo rendimiento esta entre 17.1 y 19.5
toneladas por hectarea.
Verifica que:
k
Σ fri = 1
i=1
fr4 = 0.40, (40%) significa que el 40% de los genotipos tienen rendimientos
mayores o iguales a 17.1 ton/ha pero menores que 19.5 ton/ha.
8.- Determinar las frecuencias acumuladas absolutas para cada intervalo (Fi)
i
Fi = Σ f j
j=1
F. de Mendiburu / Apuntes de clase - uso interno. Grupo G / Martes 2-4, Miercoles 2-3 pm
Estadistica Descriptiva 22
Se observa que:
F1 = f 1
Fi = Fi-1 + fi
para i=2,3,..k
Fk = n
Fr1 = fr1
Fri = Fi/n
Fr4 = 44/50 = 0.88 (88%) expresa que el 88% de los genotipos tienen
rendimientos inferiores a 19.5 ton/ha
LIi + LSi
X’i = -----------
2
F. de Mendiburu / Apuntes de clase - uso interno. Grupo G / Martes 2-4, Miercoles 2-3 pm
Estadistica Descriptiva 23
Se verifica que :
REPRESENTACIONES GRAFICAS
HISTOGRAMA DE FRECUENCIAS
12
9
6
3
0
Rdto
F. de Mendiburu / Apuntes de clase - uso interno. Grupo G / Martes 2-4, Miercoles 2-3 pm
Estadistica Descriptiva 24
POLIGONO DE FRECUENCIAS
12
9
6
3
0
Rdto
OJIVA
0.8
0.6
0.4
0.2
0.0
Rdto
F. de Mendiburu / Apuntes de clase - uso interno. Grupo G / Martes 2-4, Miercoles 2-3 pm
Estadistica Descriptiva 25
Ejemplo
2, 2, 1, 1, 3, 4, 6, 7, 0, 0, 0, 1, 1, 1, 2, 2, 1, 0, 0, 0, 0, 5, 5, 1, 2, 2, 1, 1, 1, 2, 1, 3,
4, 4, 4, 1, 2, 1, 1, 1, 2, 2, 2, 4, 5, 0, 0, 0, 2
15
10
0 X
0 1 2 3 4 5 6 7
X fi fri% Fi Fri%
0 10 20 10 20
1 16 32 26 52
2 12 24 38 76
3 2 4 40 80
4 5 10 45 90
5 3 6 48 96
6 1 2 49 98
7 1 2 50 100
F. de Mendiburu / Apuntes de clase - uso interno. Grupo G / Martes 2-4, Miercoles 2-3 pm
Estadistica Descriptiva 26
Resp. 4 + 1+ 1 = 6 genotipos
Resolver ..
F. de Mendiburu / Apuntes de clase - uso interno. Grupo G / Martes 2-4, Miercoles 2-3 pm
Estadistica Descriptiva 27
CAPITULO IV
Muestra Población
n N
∑ xi ∑ xi
i=1 i=1
x= µ=
n N
PROPIEDADES:
n
∑ ( xi − x ) = 0
i=1
n
∑ (x i − x ) , es un valor mínimo
2
i=1
Es decir:
F. de Mendiburu / Apuntes de clase - uso interno. Grupo G / Martes 2-4, Miercoles 2-3 pm
Estadistica Descriptiva 28
n n
∑ (x i − x ) < ∑ (x i − h) , Para todo “h” diferente del promedio
2 2
i=1 i=1
n
x1 + x 2 + ... + xn = ∑ xi
i=1
n
x + x + ... + x = ∑ x = nx
i=1
donde: n = n1 + n2
Para K constante.
6. Si Yi = Xi ± K, entonces y = x ± K
7. Si Yi = K Xi, entonces y = K x
k
∑ w i xi
i=1
xp = k
∑ wi
i=1
F. de Mendiburu / Apuntes de clase - uso interno. Grupo G / Martes 2-4, Miercoles 2-3 pm
Estadistica Descriptiva 29
para n=impar
m= (n+1)/2 me = Xm
Para n=par
Propiedades:
n
Σ |Xi – me|, es mínima
i=1
n n
es decir: Σ |Xi – me| < Σ |Xi – h|; para todo h ≠ me
i=1 i=1
F. de Mendiburu / Apuntes de clase - uso interno. Grupo G / Martes 2-4, Miercoles 2-3 pm
Estadistica Descriptiva 30
Propiedades.
Clase Xi fI Fi
1 X1 f1 F1
2 X2 f2 F2
.
.
K Xk fk FI
donde:
k : número de clases
k
Tamaño de la muestra o número de observaciones: n= Σ fi
i=1
k k
Σ Xifi Σ Xifi
i=1 i=1
PROMEDIO x = --------- = ---------
k n
Σ fi
i=1
F. de Mendiburu / Apuntes de clase - uso interno. Grupo G / Martes 2-4, Miercoles 2-3 pm
Estadistica Descriptiva 31
mo = X4
Xi : Número de peones
fi : número de productores
Clase Xi fi Fi
1 0 5 5
2 2 10 15
3 3 15 30
4 5 10 40
5 6 20 60
60
n = 60
k=5
Promedio:
(0)(5)+(2)(10)+(3)(15)+(5)(10)+(6)(20)
x = ---------------------------------------------------- = 3.92
60
Mediana. El 50% de 60 es 30. según la tabla hasta la clase 3 se tiene 30, esto
significa que esta en el límite, es decir la mediana podría ser me = 3 o me = 5,
por lo tanto, la mediana será un promedio de ambos:
F. de Mendiburu / Apuntes de clase - uso interno. Grupo G / Martes 2-4, Miercoles 2-3 pm
Estadistica Descriptiva 32
me = (3+5)/2 = 4
DATOS CONTINUOS
MEDIA O PROMEDIO
k k
∑ x i' f i ∑ x i' f i k
X = i =1 = i =1 = ∑ x i' fr i
k n i =1
∑fi
i =1
MEDIANA (me)
n
− F i −1
me = LIi + 2 TIC
fi
donde : i = clase mediana, posición (n+1)/2.
La clase mediana es el intervalo de clase donde en la columna de las Fi acumuló
o superó el 50% de los datos.
F. de Mendiburu / Apuntes de clase - uso interno. Grupo G / Martes 2-4, Miercoles 2-3 pm
Estadistica Descriptiva 33
MODA (mo)
d1
mo = LIi + TIC
d1 + d 2
Promedio:
F. de Mendiburu / Apuntes de clase - uso interno. Grupo G / Martes 2-4, Miercoles 2-3 pm
Estadistica Descriptiva 34
25 − 24
me = 17.1 + 2.4 = 17.22
20
Interpretación: El 50% de las personas tienen un ingreso mensual de $101.9 o
menos, mientras que el otro 50% tienen ingresos mensuales mayores a $101.9
d1 = f4 - f3 = 20-8 = 12
d2 = f4 - f5 = 20-4 = 16
12
mo = 17.1 + 2.4 = 18.1285
12 + 16
En el caso que haya más de una frecuencia modal, se debe calcular una moda
por cada frecuencia modal que exista.
Ejemplo:
Tipo de frI %
enfermedad
Cardivasculares 0.15 15
Gastrointestinales 0.35 35
Vias respiratorias 0.25 25
Otras afecciones 0.25 25
100
MODA: mo = Gastrointestinales.
F. de Mendiburu / Apuntes de clase - uso interno. Grupo G / Martes 2-4, Miercoles 2-3 pm
Estadistica Descriptiva 35
Media=Mediana=Moda
µ ≈ Me ≈ Mo
F. de Mendiburu / Apuntes de clase - uso interno. Grupo G / Martes 2-4, Miercoles 2-3 pm
Estadistica Descriptiva 36
np − Fi−1
Pp = Lii + TIC , 0<p<1
fi
donde: i = Clase percentil.
La clase percentil es el intervalo de clase donde se supera por primera vez los
(np) datos, Fi > np, o también el primer intervalo de clase que satisface Fri > p
np = (50)(0.25) = 12.5
Entonces:
50(0.25) − 4
P 0.25
= 12.3 + 2.4 = 14
12
x<- sort(rdto)
n<- length(x) # n= 50
x
9.9 9.9 10.2 12.1 12.8 13.1 13.5 13.5 13.7 13.9 13.9 13.9 14.2 14.2
14.4 14.4 14.8 15.4 15.5 15.7 15.7 16.0 16.6 17.0 17.1 17.2 17.2
17.2 17.4 17.5 17.6 17.7 17.8 17.9 18.0 18.4 18.6 18.7 18.8 18.8 18.9
19.0 19.3 19.3 19.7 20.0 20.1 21.6 22.8 26.1
F. de Mendiburu / Apuntes de clase - uso interno. Grupo G / Martes 2-4, Miercoles 2-3 pm
Estadistica Descriptiva 37
> quantile(rdto,0.25,type=6)
25%
14.125 R reporta igual valor que Minitab y SPSS.
Tallos y Hojas
0 | 1346
1 | 5
2 |
3 | 6
4 | 8
5 | 68
6 | 0023889
7 | 3
8 | 269
grupo 0 : 1, 3, 4, 6
grupo 1 : 15
grupo 3 : 36
grupo 4 : 48
...
grupo 8 : 82, 86, 89
F. de Mendiburu / Apuntes de clase - uso interno. Grupo G / Martes 2-4, Miercoles 2-3 pm
Estadistica Descriptiva 38
Mediante SAS.
Stem Leaf # Boxplot
8 269 3 |
7 3 1 |
6 0023889 7 +-----+
5 68 2 | + |
4 8 1 | |
3 6 1 | |
2 +-----+
1 5 1 |
0 1346 4 |
> sort(rdto)
9.9 9.9 10.2 12.1 12.8 13.1 13.5 13.5 13.7 13.9 13.9 13.9
14.2 14.2 14.4 14.4 14.8 15.4 15.5 15.7 15.7 16.0 16.6 17.0
17.1 17.2 17.2 17.2 17.4 17.5 17.6 17.7 17.8 17.9 18.0 18.4
18.6 18.7 18.8 18.8 18.9 19.0 19.3 19.3 19.7 20.0 20.1 21.6
22.8 26.1
> stem(rdto,scale=2)
9 | 99
10 | 2
11 |
12 | 18
13 | 1557999
14 | 22448
15 | 4577
16 | 06
17 | 01222456789
18 | 0467889
19 | 0337
20 | 01
21 | 6
22 | 8
23 |
24 |
25 |
26 | 1
F. de Mendiburu / Apuntes de clase - uso interno. Grupo G / Martes 2-4, Miercoles 2-3 pm
Estadistica Descriptiva 39
La definición de los cuartiles puede variar y otras definiciones del paso son
planteadas por otros autores (Frigge et al., 1989).
Existen muchas variaciones de este grafico, las cuales tratan de involucrar otras
características de los datos que en un momento dado puedan ser de interés
para el investigador, por ejemplo, a veces se utilizan muescas en la caja para
comparar la localización de diferentes muestras y ver si la diferencia es
significativa desde el punto de vista estadístico. Otros ponen una marquilla para
ubicar la media aritmética, otros deforman la caja para obtener más claridad
F. de Mendiburu / Apuntes de clase - uso interno. Grupo G / Martes 2-4, Miercoles 2-3 pm
Estadistica Descriptiva 40
> G<-boxplot(rdto,col="yellow")
> G
$stats
[,1]
[1,] 9.90
[2,] 14.20
[3,] 17.15
[4,] 18.70
[5,] 22.80
Para el caso de los pesos: 50, 52, 53, 54, 63, 64, 75, 76, 85, 120
> stem(pesos,scale=2)
The decimal point is 1 digit(s) to the right of the |
5 | 0234
6 | 34
7 | 56
8 | 5
9 |
10 |
11 |
12 | 0
F. de Mendiburu / Apuntes de clase - uso interno. Grupo G / Martes 2-4, Miercoles 2-3 pm
Estadistica Descriptiva 41
CAPITULO V
MEDIDAS DE VARIABILIDAD
Rango: R r
2
Variancia: σ S2
Desviación estándar: σ S
Coeficiente de variabilidad CV cv
n
S = i =1
= i =1
= i =1
2
n −1 n −1 n −1
N N N
∑( X i − µ) ∑ X i2 − N µ
2 2
∑ X i2
−µ
2
σ = i =1
= i =1
= i =1
2
N N N
F. de Mendiburu / Apuntes de clase - uso interno. Grupo G / Martes 2-4, Miercoles 2-3 pm
Estadistica Descriptiva 42
Ejemplo: Se desea comparar los ingresos mensuales del año 1989 de dos
empresas.
Entonces de puede afirmar que los ingresos mensuales del año 1989, han sido
más variables para la empresa B que los de la empresa A (σ2A < σ2B)
S σ
Muestral: CV = 100% Poblacional: CV = 100%
x µ
Estos valores se expresan en porcentaje.
Variancia Muestral:
n 2 N 2
∑ ( X i' − x ) f i ∑ X i' f i − n x 2
S = i =1
= i =1
2
n −1 n −1
N N N
F. de Mendiburu / Apuntes de clase - uso interno. Grupo G / Martes 2-4, Miercoles 2-3 pm
Estadistica Descriptiva 43
DESVIACION ESTANDAR:
Muestral: S = S 2 , Poblacional: σ = σ
2
14297.94 − 831
2
= 50 = 9.933
Variancia : S 49
3( X − me)
Skp =
S
F. de Mendiburu / Apuntes de clase - uso interno. Grupo G / Martes 2-4, Miercoles 2-3 pm
Estadistica Descriptiva 44
3(16.62 − 17.22)
S kp
= = −0.5714286
3.15
En R, se puede calcular con los datos sin agrupar, la funcion esta en agricolae.
library(agricolae)
skewness(rdto)
0.18 Este valor es igual al calculado por Minitab. SPSS y SAS
plot(density(rdto)
density.default(x = rdto)
0.12
0.10
0.08
Density
0.06
0.04
0.02
0.00
5 10 15 20 25 30
N = 50 Bandwidth = 1.315
Rango Intercuatil. Es una medida de variacion que excluye todo valor extremo
hasta un 25% superior e inferior.
F. de Mendiburu / Apuntes de clase - uso interno. Grupo G / Martes 2-4, Miercoles 2-3 pm