Vous êtes sur la page 1sur 10

La Tabla 1.

1 muestra el tiempo en formato hora minutos y en minutos que tardan 286


obreros en realizar una determinada tarea:

Tenemos los tiempos de 286 operarios para realizar una TAREA


(tiempos en horas y minutos).
h3
02:32
02:47
02:48
02:54
02:43
02:46
02:47
02:53
02:47
02:49
02:52
02:49
02:51
02:50
02:51
02:36
02:51
02:36
02:48
02:53
02:41
02:54

03:28
03:30
03:32
03:34
03:29
03:29
03:30
03:34
03:31
03:33
03:34
03:32
03:34
03:33
03:34
03:28
03:34
03:28
03:32
03:34
03:29
03:34

03:35
03:36
03:37
03:40
03:35
03:36
03:36
03:40
03:36
03:37
03:39
03:37
03:39
03:38
03:39
03:35
03:39
03:35
03:36
03:40
03:35
03:42

03:43
03:46
03:48
03:52
03:45
03:46
03:46
03:51
03:46
03:48
03:51
03:48
03:49
03:49
03:49
03:43
03:51
03:43
03:47
03:52
03:43
03:52

152
170
177
186
192
198
206
209
214
216
220
228
233
237
246
250
255
258
263
272
294
314

156
171
178
186
192
198
206
209
214
216
220
228
233
237
246
251
255
258
264
273
296
324

156
171
180
186
192
199
206
209
214
216
222
228
234
237
246
251
255
259
265
273
297
326

161
171
182
187
194
200
206
209
214
216
223
229
234
237
246
252
256
259
265
273
298
332

04:18
04:21
04:22
04:29
04:20
04:20
04:21
04:27
04:21
04:23
04:27
04:22
04:25
04:23
04:24
04:19
04:25
04:18
04:22
04:28
04:19
04:29

163
172
182
187
195
202
207
210
214
217
223
229
234
238
247
252
256
260
267
279
301
336

03:59
04:06
04:07
04:11
04:05
04:06
04:06
04:10
04:06
04:08
04:10
04:08
04:09
04:09
04:09
04:02
04:09
03:59
04:07
04:11
04:04
04:12

166
173
183
188
195
202
207
210
214
217
223
229
234
238
247
253
257
260
267
279
301
336

03:18
03:24
03:25
03:27
03:22
03:23
03:23
03:27
03:25
03:26
03:27
03:25
03:26
03:26
03:26
03:20
03:27
03:19
03:25
03:27
03:22
03:28

167
173
183
188
195
203
207
211
214
217
223
231
235
238
248
253
257
261
268
279
303
343

03:53
03:55
03:56
03:58
03:54
03:54
03:54
03:58
03:55
03:56
03:57
03:56
03:57
03:56
03:57
03:53
03:57
03:53
03:55
03:58
03:54
03:59

167
174
183
188
195
203
207
212
215
218
225
231
235
239
248
253
257
261
269
280
304
344

02:54
03:02
03:03
03:07
02:57
02:58
03:00
03:06
03:02
03:04
03:06
03:03
03:04
03:04
03:04
02:56
03:05
02:55
03:03
03:06
02:56
03:07

167
174
184
189
196
204
207
212
215
219
226
231
235
239
249
254
257
261
269
288
306
347

03:08
03:11
03:12
03:17
03:10
03:10
03:11
03:16
03:12
03:15
03:16
03:14
03:15
03:15
03:15
03:08
03:16
03:08
03:12
03:16
03:09
03:18

168
174
184
190
196
205
208
212
215
219
226
232
236
239
249
254
257
262
269
288
310
349

05:01
05:14
05:24
05:49
05:06
05:10
05:13
05:49
05:14
05:32
05:47
05:26
05:43
05:36
05:36
05:03
05:44
05:01
05:14
05:49
05:04
05:49

168
175
184
190
196
205
208
213
215
219
226
232
236
242
249
255
257
262
270
289
313
349

04:29
04:33
04:39
04:57
04:32
04:33
04:33
04:54
04:39
04:48
04:53
04:40
04:49
04:48
04:49
04:30
04:50
04:30
04:39
04:56
04:31
04:58

169
176
184
191
196
205
208
213
215
219
226
232
236
244
249
255
257
262
270
290
314
349

04:12
04:15
04:15
04:17
04:14
04:14
04:15
04:17
04:15
04:16
04:17
04:15
04:17
04:16
04:17
04:13
04:17
04:13
04:15
04:17
04:13
04:17

169
176
185
191
197
205
208
214
216
220
227
233
236
245
250
255
257
263
271
293
314
349

1.
2.
3.
4.
5.

Se pide: calcular la media, desviacin tpica, cuarteles y el rango intercuartlico.


Construir un diagrama de tallo y hojas.
Construirn diagrama de cajas (Boxplot)
Hacer un histograma de los datos.
Realizar una transformacin logartmica a los datos y construir los nuevos
diagramas de tallo y hojas, cajas e histograma que resulta. Comentar las
diferencias con los construidos anteriormente.
Solucin:
se define media aritmtica (o simplemente media) para un conjunto de n datos
numricos x1, x2,,xn como:
n

x=
Para los datos del enunciado resulta
x = 231,3986

minutos

> exp(mean(log(Horas)))
Media Geomtrica = 227.7191 minutos.

x
i =1

La desviacin Tpica para dicho conjunto de datos es:


n

s=

(x
i =1

x) 2

n 1

= 42,20321

minutos

La varianza y cuasivarianza son respectivamente:


N

2 =

(x
i =1

N
n

s2 =

)2

(x
i =1

= 1784.883

x)2

n 1

= 1781,111

minutos2

minutos2

Se entiende por cuartiles aquellos valores que dividen el conjunto de datos en cuatro
partes iguales
El primer cuartil (Q1) o cuartil inferior, es un nmero talque el 25% de los
valores de la muestra son menores o iguales que l.
El segundo cuartil (Q2) o cuartil medio o mediana, es un nmero tal que el 50%
de los valores de la muestra son menores o iguales que l.
El tercer cuartil (Q3) o cuartil superior, es un nmero talque el 75% de los datos
de la muestra son menores o iguales que l.
Con la muestra ordenada el segundo cuartel o mediana ser el valor que se encuentre en
el centro. Como el nmero de datos es par se toma la media de los dos valores centrales.
La mediana o segundo cuartil es, pues, la media entre el valor colocado en la posicin
143 y el colocado en la 144 .
Q2 =

227 + 228
= 227,5
2

Otra forma de calcular la mediana es cogiendo el valor colocado en la posicin


(1 + n), donde n es el nmero de datos. El resultado sera la posicin 143,5, es decir,
el punto medio entre la posicin 143 y 144.
A la izquierda de este valor hay 143 nmero ordenados. El valor colocado en posicin
centra, es decir en la posicin 73, ser el primer cuartil. Si en lugar de estos 143 valores
se hubiese tenido un nmero par el primer cuartil seria la media de los dos valores
centrales de esta mitad de la muestra. Para obtener el tercer cuartil se procede de la
misma manera con los 143 datos que quedad a la derecha de la mediana, obtenindose
como resultado el valor colocado en la posicin 222.

Q1 = 203 minutos
Q2 = 227,5 minutos
Q3 = 257 minutos

( posicin 73)
( posicin 143)
( posicin 222)

El rango intercuartilico es la diferencia entre el tercer cuartil y el primero


RI = Q3 Q1 = 257,0 203.0 = 54
Por tanto el 25% de los operarios realizan la tarea en un tiempo inferior o igual a 203
minutos. La mitad de los operarios demoran menos de 227,5 minutos, y solo un 25 % de
obreros tardan mas de 257 minutos en terminar la tarea.
El lenguaje R provee una funcin denominada fivenum, que significa cinco nmeros en
Castellano, propuesta por el famoso estadstico John W. Tukey 9, la cual calcula cinco
valores que describen concisamente un conjunto de datos, son los valores mnimo, los
percentilos 25to, 50ta y 75to, y el valor mximo:
> fivenum(Horas)
[1] 152.0 203.0

227.5 257.0 349.0

>100*sd(Horas)/mean(Horas)
[1] CV= 18,24 %

boxplot(Horas, main="Tiempo empleado para realizar tarea",ylab="Tiempo


(minutos)")

300
250
150

200

Tiempo (minutos)

350

Tiempo empleado para realizar tarea

Para la construccin del boxplot se necesitan los cuarteles 1, 2 y 3 respectivamente as


como los valores mnimo y mximo , a continuacin se calcula los lmites inferiores
(LI) y limite superior (LS) que servirn para decidir si un datos es atpico o no segn
se halle fuera de dichos lmites o dentro:
LI = Q1 1.5*(Q3 Q1) = 203 1,5*(257-203)= 122
LS = Q3 1.5*(Q3 Q1) = 257 + 1,5*(257-203)= 338
El grafico se realiza de la siguiente manera:
Se dibuja un rectngulo central donde los extremos son Q1 y Q3.
Dibujar una lnea interior al rectngulo que marque la posicin de la mediana
(Q2).
Trazar lneas que vayan desde cada extremo del rectngulo hasta el valor mas
alejado, pero contenido dentro de los limites calculados.
Aadir los puntos atpicos, es decir los que estn situados fuera de los lmites.
En este caso existen 4 valores 349 atpicos.

El boxplot tiene cierta asimetra positiva y valores outliers o discordantes altos.


Otra opcin, muy utilizada por estadsticos, es el grfico de Tallo y hoja (stem-and-leaf
plot en Ingls), en lenguaje R se puede calcular de esta forma:
> stem(Horas)

The decimal point is 1 digit(s) to the right of the |


15 | 266
16 | 1367778899
17 | 011123344456678
18 | 02233344445666778889
19 | 00112224555566667889
20 | 022334555566667777788889999
21 | 0012223344444444555556666677789999
22 | 00023333566667888999
23 | 111222333444455566667777888999
24 | 245666677889999
25 | 0011223334455555566777777778899
26 | 0011122233455778999
27 | 0012333999
28 | 0889
29 | 034678
30 | 11346
31 | 03444
32 | 46
33 | 266
34 | 3479999
Para la representacin de tallo y hojas, el tallo del diagrama est constituido por las
cifras de las decenas y sern las cifras que se colocan a la izquierda de la linea vertical.
Las hojas que es la columna situada a la derecha, sern las cifras de las unidades, de
esta forma 34| 3479999 representa los valores 343, 344, 347 y cuatro valores para 349, o
sea valores comprendidos entre la clase de 340 y 349 El nmero de hojas es la
frecuencia de la clase. En este diagrama se destacan los siguientes aspectos:

La distribucin es asimtrica positiva (La cola de la distribucin est a la


derecha) lo que muestra que es menor el nmero de operarios con tiempos
elevados que con tiempos reducidos.
En la ltima clase se observan valores muy altos (349).
El perfil de las hojas sugiere una bimodalidad en la distribucin. Un primer
intervalos modal en la clase 210 (moda = 214) y un segundo en la de 250
(moda=257 minutos).

Para la construccin del histograma se ha de decidir en primer lugar, el nmero de


intervalos o clases. No existe una regla fija para tomar dicha decisin, algunos autores
recomiendan tomar un nmero de intervalos igual al numero entero mas cercano a n ,

siendo n el numero de datos, otros recomiendan el numero entero mas cercano a 2n,
log2(n), n/10, 1+ 3,3*log(n) (Regla de Sturges), etc. Aqu utilizaremos m= 12 intervalos.
El ancho de cada intervalo ser de (380- 140)/12 = 20 con ampliacin de rango para una
mejor visualizacin. De esta forma la primera clase contendr valores desde 140 hasta
160, la segunda desde 160 a 180, et. En cada clase se cuenta el nmero de
observaciones contenidas dentro de sus mrgenes, es decir, la frecuencia de dicha clase,
los resultados de esta tabulacin se muestra en la Tabla 1.4 donde se han incluido la
marca de clase (centro del intervalo) y en la Figura 1.3. se muestra el Histograma de
frecuencias respectivo. Para su construccin se sitan en el eje de las abscisas las clases
construidas y se levan rectngulos de altura proporcional a la frecuencia de cada clase.
A la vista del histograma se pueden extraer las mismas conclusiones que con el
diagrama de tallo y hojas: La distribucin es asimtrica positiva
Clase
1
2
3
4
5
6
7
8
9
10
11
12

Limites marca de clase Frecuencia % acumulado


140 a 160
150
0
0.00%
160 a 180
170
3
1.05%
180 a 200
190
26
10.14%
200 a 220
210
40
24.13%
220 a 240
230
63
46.15%
240 a 260
250
47
62.59%
260 a 280
270
48
79.37%
280 a 300
290
28
89.16%
300 a 320
310
9
92.31%
320 a 340
330
10
95.80%
340 a 360
350
5
97.55%
360 a 380
370
7
100.00%
3120
286

Tabla 1.4 Tabulacin de frecuencias


El histograma en lenguaje R se calcula como se muestra a continuacin, note los parmetros
adicionales de la funcin hist para determinar el ttulo principal (main) y los rtulos de cada
eje (xlab e ylab):
> hist(Horas, main="Tiempo en realizar la tarea",
xlab="Tiempo(minutos)",ylab="Frecuencia")

30
0

10

20

Frecuencia

40

50

60

Tiempo en realizar la tarea

150

200

250

300

350

Tiempo(minutos)

Figura 1.3 Histograma de frecuencias


La figura 1.4 muestra el diagrama de tallo y hojas tras la transformacin logartmica
(Ln) de los datos. En este caso se ha tomado el tallo como las unidades y un digito
decimal 50 | 2 significa 5,02388 = 5,02 redondeado que corresponde al ln(152) y las
hojas representan el segundo decimal. Se han dividido los centsimos en dos grupos,
uno con los dgitos de 0 a 5 y otro con los dgitos de 6 a9.
The decimal point is 1 digit(s) to the left of the |
50 | 2
50 | 5589
51 | 122222334444
51 | 555666677889
52 | 0011111112333334444
52 | 55556667777788888999
53 | 011112222233333333344444444
53 | 5556666677777777777778888888889999999
54 | 01111222222333333444
54 | 5555556666666666677777778889
55 | 0011111111222222333333344444444
55 | 555555555555666666677777888999999
56 | 00011113333
56 | 66778899
57 | 0111224
57 | 555589
58 | 12244
58 | 56666
Figura 1,4 Diagrama de tallo y hojas. Datos transformados.

En este diagrama se aprecia una mayor simetra que con los datos originales, se sigue
apreciando una bimodalidad como en los datos originales
La figura 1.5 muestra l nuevo diagrama de cajas donde se confirma que la distribucin
de los datos transformados es mas simtrica y ya no presenta valores atpicos.

5.6
5.4
5.0

5.2

Tiempo (minutos)

5.8

Minutos que tardan en realizar tarea

Figura 1.5 Diagrama de cajas. Datos transformados


Las mismas conclusiones pueden extraerse del nuevo histograma que se encuentra en la
figura 1.6. Adems se sigue apreciando la bimodalidad que se apuntaba en el
histograma de los datos originales.

40
30
20
10
0

Frecuencia

50

60

Tiempo para realizar tarea (ln)

5.0

5.2

5.4

5.6

5.8

LN Tiempo (minutos)

Figura 1.6 Histograma de frecuencias. Datos transformados