Académique Documents
Professionnel Documents
Culture Documents
Clase #1 ESTADSTICA.......................................................................................... 5
1.1-
Concepto de estadstica................................................................................. 5
1.2-
1.3-
Poblacin y muestra..................................................................................... 5
1.4-
1.5
3.2-
3.3-
5.2-
5.3-
5.4-
Creacin de Histogramas..........................................................................45
18.2-
18.1-
Creacin de Histogramas..........................................................................45
Clase #1
ESTADSTICA
.Parcialmente de acuerdo
.En desacuerdo
Clase #2
2.1- Introduccin
2.2- Diagramas de tallo y hojas
2.3- Ejemplos de uso de diagramas de tallo y hojas
2.1- Introduccin a las variables cuantitativas
En la clase anterior se defini el concepto de variable cuantitativa como variable donde el
contenido de la variable es medible numricamente:
-
En las siguientes clases se van a estudiar formas de organizar las variables cuantitativas, para un
estudio ms favorable, estos mtodos son:
1
7
0
9
3
6
3
8
7
9
7
9
2
7
1
7
1
7
1
1
0
4
4
9
6
Conclusin que los tiempos empleados por la mayora de los estudiantes estn entre 20 y 30
minutos
Ruth
11, 54, 29, 49, 54, 49, 59, 46, 35, 41, 41, 34, 46,
22, 25, 47, 60
Domingo
1
49.83
8
51.482
15
39.275
22
48.114
29
89.431
Lunes
2
31.544
9
81.111
16
26.111
23
84.170
30
41.657
Martes
3
63.771
10
34.008
17
43.528
24
55.291
31
86.86
Mircoles
4
83.442
11
40.927
18
25
52.7
Jueves
5
82.5
12
27.956
19
60.986
26
44.754
Vienes
6
87.3
13
27.105
20
48.229
27
88.421
Sbado
7
25.942
14
35.668
21
49.169
28
77.433
Clase #4
10
Lmite Superior
16 + 5 = 21
22 + 5 = 27
28 + 5 = 33
34 + 5 = 39
40 + 5 = 45
46 + 5 = 51
52 + 5 = 57
Intervalo
16 21
22 27
28 33
34 39
40 45
46 51
52 57
12
Clase #6
(continuacin)
6.1- Concepto de frecuencias
6.2- Tipos de frecuencia
6.3- Distribucin de frecuencias aplicado al ejemplo de los automviles
6.4- Interpretacin de los tipos de frecuencias
6.5- TAREA EVALUATIVA #1
6.1- Conceptos de frecuencias
La frecuencia f, de un intervalo, es la cantidad de datos que estn contenidos en ese intervalo.
6.2- Tipos de frecuencias
F
7
23
13
6
4
1
1
55
fr
7/55 = 0,127
0,418
0,236
0,109
0,072
0,018
0,018
F
7
30
43
49
53
54
55
Fr
7/55 = 0,127
0,545
0,781
0,89
0,963
0,981
1
13
Lunes
Martes
Mircoles
Jueves
Viernes
Sbado
1
15
21
10
17
16
10
11
12
13
14
15
21
25
32
16
28
17
16
17
18
19
20
21
22
20
12
15
12
32
15
23
24
25
26
27
28
12
14
18
29
22
10
14
1- Las siguientes cantidades son tarifas, en miles de pesos, que una empresa de mensajera
cobr por entregar paquetes pequeos la tarde del jueves pasado.
4,03
4,07
3,59
3,87
6,04
7,86
4,02
3,62
2,93
4,57
3,89
3,70
4,63
5,02
4,15
3,82
5,46
3,10
4,30
5,24
4,91
22
21
19
22
21
18
19
22
20
22
23
20
24
20
19
19
19
24
20
19
19
20
19
19
21
21
19
19
21
18
21
21
20
19
21
22
19
19
19
20
21
21
20
19
17
Hombres
15
172
174
166
171
156
167
169
152
160
154
169
171
159
157
167
179
152
153
159
174
159
168
159
155
171
155
174
158
157
Mujeres
178
146 136 148
170
138 140 144
154
153 142 164
153
162 136 159
163
162 144 165
180
164 145 143
135 152 164
147 146 137
161 146 159
142 162 164
139 146 159
136 149
a) Elaborar un
diagrama de tallo y hojas para cada muestra.
b) Comparar
los diagramas anteriores y elaborar una conclusin con
respecto a
los datos.
c) Construir
una distribucin de frecuencias para la estatura de los
hombres y una distribucin de frecuencias para las estaturas de las mujeres.
16
Clase #8
(continuacin)
8.1- Histogramas de Frecuencias
8.2- Ejemplo de Histogramas de Frecuencias
8.3- Polgonos de Frecuencias
8.4- Ejemplo de Histogramas de Frecuencias
8.5- Construccin de Histogramas de frecuencia y Polgonos de frecuencia en word
8.6- TAREA EVALUATIVA #3
0.45
fr
0,127
0,418
0,236
0,109
0,072
0,018
0.42
0.4
0.35
40-50
0.3
50-60
0.24
0.25
60-70
0.2
0.15
70-80
0.13
0.1
90-100
0.07
0.05
0
80-90
0.11
0.02
Clase
17
Intervalo
30 40
40 50
50 60
60 70
70 80
80 90
90 100
100 110
Punto medio
35
45
55
65
75
85
95
105
fr
0
0,127
0,418
0,236
0,109
0,072
0,018
0
18
Serie 1
0.2
0.15
0.1
0.05
0
35
45
55
65
75
85
95
105
Paso
1
Polgon
19
3,87
6,04
7,86
4,02
3,62
2,93
4,57
3,89
3,70
4,63
5,02
4,15
3,82
5,46
3,10
4,30
5,24
4,91
20
Clase #9
(continuacin)
9.1- Medidas de localizacin
9.2- Medidas de la tendencia central
9.3- Media Aritmtica
9.4- Mediana. Caso1
9.5- TAREA EVALUATIVA #4
9.1- Medidas de localizacin
Una vez se han determinado los mtodos grficos y tabulares para resumir la informacin de un
conjunto de datos, es importante construir algunas medidas numricas que proporcionen un
resumen y suministren conclusiones acerca de las caractersticas de la variable que se est
considerando.
Dichas medidas dependen de la localizacin de los datos y se considerarn de dos tipos: medidas de
tendencia central y medidas de posicin.
9.2- Medidas de la tendencia central
Las medidas de tendencia central, pretenden encontrar un punto centro o punto de acumulacin de
datos. Las principales medidas de tendencia central son: el promedio aritmtico o media, la mediana
y la moda. Es importante destacar que para el caso de las variables cuantitativas, solo se estudian la
media y la mediana.
9.3- Media Aritmtica
La media de un conjunto de datos es el promedio aritmtico de ellos. Generalmente se nota por
X
Si
xi
X = i=1 =
n
x 1 + x 2+ + x n
n
La media se interpreta como el individuo o dato tpico de un grupo, y se puede considerar como el
dato que mejor representa al conjunto.
La media se considera una medida sensible a las observaciones puesto que si uno de los datos es
muy alto o muy bajo con respecto a los otros el promedio se ve afectado de una forma importante.
Ejemplo:
El siguiente dato corresponde a las edades de 7 estudiantes:
21
xi x + x + x + x + x + x + x
X = i=1 = 1 2 3 4 5 6 7 = 14+ 14+15+15+16 +17
n
7
7
X =15,2857
9.4- Mediana
La mediana es el dato que divide un conjunto de datos en dos partes porcentuales iguales. Es notada
~
X .
como
x 1 x2 x 3 x n
y ubicar el punto o valor que est en el centro de ellos. Se tienen dos casos:
Caso 1.
Si el nmero de datos n es impar.
~
X=x
n +1
)
2
Representa luego de ordenar los datos de mayor a menor, el valor situado en la mitad de los datos.
Ejemplo: (En este ejemplo ya los datos se encuentran ordenados de mayor a menor)
El siguiente dato corresponde a las edades de 7 estudiantes:
x1 = 14, x2 = 14, x3 = 15, x4 = 15, x5 = 15, x6 = 16, x7 = 17
b) Calcule la mediana
El nmero de estudiantes es 7, que representa un nmero impar
~
X=x
=x
=x 4 =15
( n+12 ) (7 +12 )
22
El 50% de los estudiantes tiene edades iguales o superiores a 15 aos y el otro 50% tiene edades
iguales o inferiores a 15 aos.
9.5- TAREA EVALUATIVA #4
1- Las siguientes son las edades de 31 trabajadores de una empresa floricultora de la sabana de
Bogot.
22 20 20 19 21 20 18 27 23 19 21 19 30 20 21 55 29 27 20 21 22 20 22 24 17 18 20 21 22
22 23
a) Encontrar la media y la mediana de las edades de los trabajadores.
b) Calcular la media y la mediana, para las edades, sin tener en cuenta el trabajador cuya edad
es de 55 aos.
23
Clase #10
(continuacin)
10.1- Mediana. Caso2
10.2- Moda
10.3- TAREA EVALUATIVA #5
10.1- Mediana
Caso2.
Si el nmero de datos n es par, ~
X=
x n +x
~
X=
x n +x
x +x
10.2- Moda
La Moda es el valor con una mayor frecuencia en una distribucin de datos, es el valor que
ms se repite en una serie de datos.
Ejemplo:
El siguiente dato corresponde a las edades de 6 estudiantes:
x1 = 14, x2 = 14, x3 = 15, x4 = 17, x5 = 18, x6 = 19
a) Determine la moda
x1 = 14, x2 = 14, ambos datos son 14, siendo el nico que se repite dos veces, por eso la moda es
14.
24
1- Las siguientes son las edades de 30 trabajadores de una empresa floricultora de la sabana de
Bogot.
22 20 20 19 21 20 18 27 23 19 21 19 30 20 21 55 29 27 20 21 22 20 22 24 17 18 20 21 22
22
a) Encontrar la mediana y la moda de las edades de los trabajadores.
25
26
Q2
Q3
25%
50%
75%
Cuartil 1
Q1 >= que el 25 % de los nmeros
Q1 <= que el 75 % de los nmeros
Cuartil 3
Q3 >= que el 75 % de los nmeros
Q3 <= que el 25 % de los nmeros
27
33,6 20,9 15,2 28,5 24,1 44,7 15,3 41,6 26,1 38,6 39,1 32,4 16,6 19,3 34,8 31,3
15,6 29,3 41,2 28,2 15,3 20,1 18,3 21,1 20,0
28
29
X =167,5 entonces las desviaciones para cada uno de los datos son:
30
x 1 X =160167,5=7,5
x 2 X =155167,5=12,5
x 3 X =168167,5=0,5
x 4 X=175167,5=7,5
x 5 X =170167,5=2,5
x 6 X =177167,5=9,5
Ya que la media es el centro de masa de un conjunto de datos, entonces al sumar las desviaciones el
resultado debe ser cero.
Suma de las desviaciones:
Una vez definida la desviacin de cada uno de los datos con respecto a la media, se puede definir la
varianza de un conjunto de datos.
La varianza de un conjunto de datos
x1 ,
x 2 , ,
xn
( x i X )
S 2= i=1
n1
31
S=
( 5 7 ) + ( 57 ) + ( 67 ) + ( 8 7 ) + ( 7 7 ) + ( 77 ) + ( 97 )
151
2
2
2
2
2
2
2
2
( 57 ) + ( 67 ) + ( 87 ) + ( 47 ) + ( 117 ) + ( 67 ) + ( 107 ) + ( 87 )
151
S 2=
56
=4 horas 2
14
Si el intervalo es grande, los datos estn muy alejados entre si y el promedio no representa
bien al grupo.
Si el intervalo es pequeo, se tendr la mayora de los datos cercanos y la media ser un
buen representante del grupo.
S= S2=
( x i X )
i=1
n1
32
33
13.1- En este curso debemos comenzar a introducirnos en la herramienta Excel aplicada a realizar
clculos estadsticos. Se hace necesario en primer lugar tener el fundamento terico necesario para
poder llevar a cabo las operaciones necesarias.
13.2- Ejemplo de uso de la herramienta excel
Para esto ser ilustrado mediante un ejemplo:
Se tienen las marcas en metros realizadas por saltadores largo en una competencia de atletismo. En
la siguiente tabla de frecuencias ya se encuentran organizadas las mismas tomando como intervalo
las marcas correspondientes.
1ro Se debe calcular la sumatoria de las frecuencias para cada uno de los intervalos.
34
35
3ro Calcular el producto del intervalo al cuadrado por la frecuencia para ese intervalo, que va a
permitir facilitar el clculo de la varianza.
36
4to Calcular la frecuencia relativa para cada intervalo dividiendo la frecuencia entre el total de
muestras 93 para cada una de las frecuencias.
37
La frecuencia acumulada del primer intervalo, se obtiene de la frecuencia relativa para ese mismo
intervalo, debido a que la frecuencia acumulada depende de la frecuencia del intervalo anterior, el
cual no existe para la primera frecuencia.
38
39
40
41
Clase #14
(continuacin)
14.1- Diagramas de Cajas
14.2- Construccin de un diagrama de cajas
14.3- TAREA EVALUATIVA #9
14.1- Diagramas de Cajas
El diagrama de cajas, es un resumen grfico en el que se describen varias de las caractersticas ms
destacadas de un conjunto de datos.
Algunas de las caractersticas que se muestran en un diagrama de cajas son:
Q1
Q2
Q3
Luego, se define una medida de dispersin, llamada rango intercuartlico, relacionando los cuartiles
uno y tres.
42
El rango intercuartlico o cuarta dispersin es la diferencia entre el cuartil tres y el cuartil uno. As,
rango intercuartlico = Q3 Q1
La cuarta dispersin se multiplica por 1,5. Este valor se toma como criterio estndar para la
construccin del diagrama de cajas.
Una vez determinada esta medida de dispersin, se construye una lnea desde el valor del
primer cuartil hasta el valor Q1 1,5(Q3 Q1) y de la misma forma, desde el tercer cuartil hasta
Q3 1,5(Q3 Q1), tal y como se muestra en la figura,
Q1 + 1,5(Q3
Q1)
Q1
Q2
Q3
Q3 + 1,5(Q3
Q1)
Los datos que estn incluidos en esta longitud, son datos que se consideran dentro de un rango
permitido, ya estn cubiertos dentro del rango calculado.
Para la parte izquierda del diagrama, se marca una nueva lnea desde Q1 1,5(Q3 Q1)
hasta Q1 2(1,5(Q3 Q1)).
Para la parte derecha, se marca otra lnea desde Q3 1,5(Q3 Q1) hasta Q3 2(1,5(Q3
Q1)).
Los datos que quedan incluidos en esta nueva longitud se llaman datos inusuales suaves, ya que
afectan de manera poco significativa el clculo de la media y de la desviacin estndar. Los datos
que estn fuera del diagrama de cajas se llaman datos inusuales o atpicos, y son valores que
influyen de manera significativa en el clculo de las medidas que caracterizan la variable. Estos
datos atpicos corresponden a valores mal tomados en el momento de la obtencin de la
informacin.
43
44
Clase #15
(continuacin)
15.1- Ejemplo de Construccin de un diagrama de cajas
15.2- TAREA EVALUATIVA #10
15.1-Ejemplo de Construccin de un diagrama de cajas
Construir un diagrama de cajas para la siguiente situacin
Para mejorar el proceso de transporte de jugos en una ciudad, estos se someten a un proceso de
congelacin. Cmo consecuencia de este proceso, en la descongelacin, se pierde un porcentaje del
jugo inicialmente empacado.
Se ha sometido al proceso anterior el jugo de 19 tipos de fresa. Estos tipos de fresa pierden los
siguientes porcentajes de jugo respectivamente:
46, 51, 44, 50, 12, 46, 78, 41, 55, 46, 53, 53, 42, 44, 50, 54, 46, 41, 48
Solucin:
1- Se ordenan los datos de menor a mayor
12, 41, 41, 42, 44, 44, 46, 46, 46, 46, 48, 50, 50, 51, 53, 53, 54, 55, 78
2- Calculando los cuartiles se tiene:
Q2 =
Q1 = ?
~
X = 46 (Mediana)
~
X=
x n +x
+x
Q1 = 44
Q3 = ?
Lmite inferior: 46 y Lmite superior: 78
Nueva Mediana (como el nuevo nmero de datos es par, 10)
~
X=
x n +x
+x
Q3 = 53
45
12
17
30,
5
Q1
Q2
Dato
atpico
Q3
66,
5
78 8
0
Dato
inusual
Se puede decir que 78 es un dato inusual suave, y 12 es un dato tpico. El dato atpico es el
que influye significativamente en el clculo de la media y de las medidas de dispersin
descritas anteriormente.
A partir del diagrama de cajas se puede decir:
El jugo de al ser descongelado presenta un 12% de prdida debe ser una medida
sujeta a una nueva observacin.
Al encontrarse el dato atpico 12, se puede evaluar las caractersticas de dicho
jugo, ya que su valor es lejano con respecto a los dems.
Es importante calcular la media recortada, sin tener en cuenta el dato 12, para observar la
influencia del dato en el clculo de la media.
Adems se puede concluir que el 95% de las medidas de jugo perdido al ser descongelado
est entre 30% y 66,5%.
46
Los siguientes datos corresponden a la cantidad de veces al mes, que un estudiante de grado
undcimo asiste a una sala de cine.
5, 2, 2, 1, 4, 2, 7, 2, 2, 6, 5, 0, 3, 3, 4, 2, 1, 0, 0, 12, 0, 10
a) Construir un diagrama de cajas.
b) Incluir en el diagrama, la media de los datos y compararla con respecto a la mediana.
47
Clase #16
Intervalo
J
F
B
M
T
N
O
Total
f
10
9
7
4
3
6
21
60
fr
0.166
0.150
0.116
0.066
0.050
0.100
0.350
1
Solucin:
Si se supone que cada intervalo corresponde a un tipo de problema de salud, y se encuentran las
frecuencias de la misma forma que para variables cuantitativas.
A partir de la tabla de frecuencias se puede concluir que: el principal problema de salud, entre los
60 hombres, es el cansancio. Lo padece el 35% de la poblacin. Se presentan algunos problemas de
tos y debilidad muscular, pero se consideran pocos en la poblacin. El porcentaje de trabajadores
con debilidad muscular es 6,6% y el porcentaje de trabajadores con problemas de tos es 5%.
49
50
Clase #17
(continuacin)
17.1- La moda
17.2- Ejemplo de obtencin de la moda
17.3- Grficos
17.4- Cmo crear un histograma en Excel?
17.5- Cmo crear un diagrama circular en Excel?
17.6- Ejemplo de Diagrama Circular
17.1- La moda
La moda es una medida de la tendencia central, que se utiliza frecuentemente en variables
cuantitativas y corresponde al rango de la tabla con mayor frecuencia.
La moda no es una medida nica, por esta razn un conjunto de datos puede tener ms de una
moda. Su interpretacin es semejante a la de la media en variables cuantitativas.
17.2- Ejemplo de obtencin de la moda
A partir de la tabla de frecuencia elaborada en la clase anterior, encontrar la moda para la misma.
Un estudio mdico report los datos, correspondientes a los tipos de problemas de salud, que
presentan los 60 empleados de una hacienda cafetera. Los problemas de salud se clasificaron en:
J: Articulacin Inflamada
F: Fatiga
B: Dolor de Espalda
M: Debilidad Muscular
T: Tos
N: Nariz con flujo e irritacin
O: Cansancio
Los resultados son los siguientes:
O, O, N, J, T, F, B, B, F, O, B, O, J, O, O, M, O, F, F, O, O, N, O, N, J, F, J, B, O, T, F, F, J, O, J, J,
F, N, O, B, M, O, J, M, O, B, O, F, J, O, J, N, O, B, N, T, O, O, O, M.
51
f
10
9
7
4
3
6
21
60
fr
0.166
0.150
0.116
0.066
0.050
0.100
0.350
1
Solucin:
Como se especific anteriormente la moda es representada por el rango de la tabla de mayor
frecuencia o con mayor nmero de datos acumulados.
Para nuestro ejemplo es representado por los pacientes que padecen cansancio (O), 21.
17.3- Grficos
La representacin grfica de un conjunto de datos cualitativos debe obtenerse de la elaboracin de
una tabla. Los grficos usados son el histograma y el diagrama circular.
52
Se realizar el histograma del ejemplo analizado anteriormente, usando como base la tabla
planteada.
25
21
20
J
F
15
10
B
10
6
4
N
O
0
Tipo de Enfermedad
53
De Acuerdo (DA)
En Desacuerdo (NA)
No Sabe o No Responde (NS/NR)
Solucin:
Rango
De acuerdo (DA)
En Desacuerdo (NA)
No Sabe, no Responde (NS/ NR)
F
1520
875
87
54
35%
NA
61%
NS/NR
55
f
10
9
7
4
3
fr
0.166
0.150
0.116
0.066
0.050
56
N
O
Total
6
21
60
0.100
0.350
1
a) Realizar el histograma correspondiente para cada una de las siguientes frecuencias relativas.
1ro
Localizar el histograma
Al seleccionar el Histograma, se abre otra ventana de una hoja de clculo donde se teclean los
datos, categora es el eje de las abscisas y la serie son las datos que toma la categora.
2do
57
0.4
0.35
0.3
0.25
0.2
0.15
0.1
0.05
0
J
F
B
M
T
N
O
fr
4to
Se pudiera agregar la etiqueta a cada uno de los rectngulos para conocer el valor del dato
0.4
0.35
0.3
0.25
0.2
0.15
0.1
0.05
0
J
F
0.170.15
0.12
0.070.05
fr
0.10.35
B
M
T
N
O
58
Al seleccionar el Diagrama Circular, se abre otra ventana de una hoja de clculo donde se
teclean los datos, columna es el eje de las ordenadas con sus correspondientes datos.
2do
Columna1
J
F
B
M
T
N
O
Se pudiera agregar la etiqueta a cada uno de los arcos de circunferencia para conocer el valor del
dato.
4to
59
Columna1
J
F
0.17
0.35
0.15
M
T
0.1
0.05 0.07
0.12
N
O
60
CLASE #19
Castao
21
17
38
Color de Cabello
Rubio
Negro
10
27
25
10
35
37
Totales
58
52
110
Anlisis:
61
1.
2.
3.
La suma del total de personas debe ser igual, tanto en la variable color de cabello como en la
variable gnero.
El Total es 110 personas
Castao
0,190
0,154
0,345
Color de Cabello
Rubio
Negro
0,090
0,245
0,227
0,090
0,318
37
Totales
0,527
0,472
1
Cada una de las casillas contiene las proporciones de personas que tienen las dos caractersticas. Al
multiplicar ese valor por 100, se obtiene el porcentaje correspondiente.
Anlisis:
o
o
Los totales representan el porcentaje por rangos de cada una de las variables:
o
o
o
62
Es posible separar la Tabla principal en dos Tablas de frecuencias independientes usando para
comparar cada una de las dos variables.
Utilizando como base el ejemplo 2, es posible construir una tabla de frecuencias relativas para el
total de la variable gnero y para el total de la variable color de cabello.
Para el caso de la variable gnero la tabla se construye dividiendo cada frecuencia entre el total
correspondiente a cada fila. As,
21
10
27
=0,362 =0,172 =0,465
58
58
58
17
25
10
=0,326 =0,480 =0,192
52
58
52
Gnero
Hombre
Mujer
Color de Cabello
Rubio
Negro
0,172
0,465
0,480
0,192
Castao
0362
0,326
Totales
1
1
La tabla de frecuencias relativas con respecto a la variable color del cabello, se obtiene al dividir
cada frecuencia entre el total de cada columna.
21
10
27
=0,553 =0,286 =0,730
38
35
37
17
25
10
=0,447 =0,714 =0,270
38
35
37
Gnero
Hombre
Mujer
Totales
Castao
0,553
0,447
1
Color de Cabello
Rubio
0,286
0,714
1
Negro
0,730
0,270
1
CNN
45
Noticiero
ATT
71
BBC
25
63
Socialista
Independiente
82
21
50
25
30
95
64