Académique Documents
Professionnel Documents
Culture Documents
L
#
En trminos fsicos la media representa el 'entro de gravedad de un conjunto de datos#
Ejemplo- !e registra el n:mero de ta@as de caf consumidas por un empleado de oficina en un perodo de 0= das# ,os datos son- 5 6 4 8 F / 0 4 = 6 8 6 E
5 = 0 4 F 6 8# %e aqu tenemos que-
20
i
i 1
1 82
X X 4.1
20 20
=
= = =
# En promedio este empleado consume 5#/ ta@as de caf diarias# El siguiente gr&fico de puntos ilustra esta afirmacin#
Ejemplo- !e registran las edades en a3os$ de /6 personas en un grupo# ,os datos son- /E 0= /D /D 0/ 00 0= 04 0/ 05 /D 0= 00 0/ 05# ,a edad promedio
de este grupo es-
9 20 86 20
15
313
X # # J J
#
!i resumimos esta informacin en una tabla de frecuencias de la forma-
Edad /E /D 0= 0/ 00 04 05
Crecuencia / 4 4 4 0 / 0
Podemos calcular la media muestral como- 9 20
f
f X
15
f X
X
i
i i i i
# J J #
,a media muestral es sensible a datos e)tremos# Para los datos de edades, suponga que otrta persona ingresa al grupo y su edad es 46 a3os# As,
8 21 75 21
16
35 313
X # # J
K
J
# !i la edad fuera 56 a3os, entonces,
4 22 375 22
16
45 313
X # # J
K
J
# !i la edad es 8= a3os,
3 23 31 23
16
60 313
X # # J
K
J
#
Mediana# !i las observaciones se ordenan de menor a mayor,
n 2 1
X X X L #la mediana representa aquel valor que divide los datos en
dos partes porcentual mente iguales# %e esta manera al menos el 6=L de los datos son inferiores o iguales a la mediana# !i denotamos por
M
X
o por 2e,
la mediana, tenemos que-
Ejemplo# 'onsiderando las edades del ejemplo anterior, ordenamos la informacin en forma
ascendente- /E /D /D /D 0= 0= 0= 0/ 0/ 0/ 00 00 04 05 05# En este caso, como nJ/6,
entonces
21 X X Me
8
2
1 15
J J J
K
# Al menos el 6=L de las
personas en el grupo en cuestin tienen 0/ a3os o menos# ,a mediana a diferencia de la media muestral no es tan sensible a datos e)tremos# Por ejemplo
si otra persona de /= a3os (ace parte del grupo, tenemos nJ/8# As-
5 20
2
21 20
2
X X
Me
9 8
# J
K
J
K
J
# ,a interpretacin es igual# !i ,a persona
tiene 46 a3os, entonces
21
2
21 21
2
X X
Me
9 8
J
K
J
K
J
# !i la edad es 66 a3os, 21 Me J # 'omo se podr& observar, la mediana divide la
informacin en dos partes porcentualmente iguales# !i queremos dividir la informacin en cuatro partes porcentualmente iguales, cada parte representar& el
06L de la informacin# ,os valores reales que dividen la informacin en cuartos son llamadas Cuartiles y se denotan &', &( y &)#
%e esta manera N/ deja al menos el 06L de la informacin inferior o igual e el, N0 deja al menos el 6=L de la informacin menor o igual a el esta es la
2ediana$ y finalmente N4 deja al menos el F6L de la informacin inferior o igual a el#
!i la divisin se (ace en /== partes porcentualmente iguales, los valores reales que permiten esta divisin son llamados Percentiles# ;sualmente
denotados con la letra P y el respectivo percentil# Por ejemplo P/=, P06, PF=, etc#
Ejemplo# .etomando las edades de las /6 personas, calcule N/, P8= y PD=#
N/ corresponde al percentil 06, es decir, P06# El 06L de /6 datos es- 75 3 15 25 0 # J O # # En este caso escogemos 19 X 1 Q
4
J J # Para el
percentil 8=, tenemos que 9 15 60 0 J O # # As (ay dos valores que cumple la condicin de dejar al menos D valores iguales o inferiores a ellos-
10 9
X y X # As,
21
2
X X
60 P
10 9
J
K
J
# Para PD=, tenemos- 5 13 15 90 0 # J O # # As, 24 X 90 P
14
J J # Al menos el D=L de las
personas tienen edades inferiores o iguales a 05 a3os#
1tras medidas de ,ocali@acin son la 2oda, la 2edia .ecortada, la 2edia Peomtrica, entre otras#
Medidas de Variabilidad o de Dispersin#
,as medidas de variabilidad permiten establecer que tan dispersos est&n entre si un conjunto de datos observados# Algunas de estas medidas se refieren a
la %ispersin respecto a una medida particular de tendencia central#
El *ango es la diferencia entre el m&)imo valor observado y el mnimo- .J2a)92in#
El *ango Intercuartil, el cual denotaremos +N., es la diferencia entre N4 y N/- 9 1 Q 3 Q IQR 9 J # El .ango +ntercuartil permite determinar que tan
disperso est& el 6=L de la informacin mas central#
Varianza Muestral# !i
1 2 n
X , X , , X L es un conjunto de observaciones, la *arian@a 2uestral, denotada +, est& dada por-
$
1 n
X X
S
2
i
2
9
9
J
Q
# ,a %esviacin Est&ndar ser& la ra@ cuadrada de la *arian@a#
Ejemplo- ;sando los datos de las edades, tenemos que-
$
41 3
1 15
X X
S
2
1
2
# J
9
9
J
Q
y 85 1 S # J # Para estos la desviacin es casi 0 a3os, lo
que indica una dispersin alta# 1tras medidas de variabilidad son- %esviacin 2ediana, %esviacin absoluta, etc#
Diagramas de ,arras e -istogramas!
,a informacin es presentada de manera gr&fica dependiendo del tipo de datos que esta contenga# !i la variable representa categoras o clasificaciones es
usual usar una tabla de frecuencias para resumir la informacin y luego un diagrama de barras para visuali@arla? en este caso el eje R estar& compuesto por
las categoras o niveles discretos de la variable y en el eje S la frecuencia o porcentajes que le corresponden a cata categora o nivel discreto#
Ejemplo- se tiene informacin resumida acerca del monto anual obtenido por donaciones en diferentes &reas#
Area 2onto Porcentaje
.eligin 4/#= 5F#E
Artes y Tumanidades 5#/ 8#4
!ervicios !ociales 8#D /#=8
Educacin D#= /4#D
!alud D#0 /5#0
1tros 5#F F#0
1 si lo que se quiere una representacin usando los porcentajes
obtenemos un diagrama de este estilo-
El programa en !A! usado es-
data monto;
input area$ 1-19 total porc;
cards;
Religion 31.0 47.8
Artes y Humanidades 4.1 6.3
er!icios ociales 6." 10.6
#ducacion ".0 13."
alud ".$ 14.$
%tros 4.7 7.$
;
run;
Proc gchart data&monto;
!'ar area()re*&total space&10;
!'ar area()re*&porc space&10;
run;
Ejemplo# .etomando los datos acerca del n:mero de faltas de un grupo de estudiantes en un curso de Estadstica, la tabla de frecuencias elaborada al
respecto muestra /= categoras diferentes# !i el rango del n:mero de faltas fuera muc(o mayor, el diagrama de barras resultante no sera operativo, en el
sentido en que muc(as barras quedaran sin frecuencia# !e recomienda agrupar para lograr captar mejor la informacin# ,a tabla de frecuencias y el
respectivo diagrama de barras se muestra a continuacin-
.ango o 'lase Crecuencia
= I / 8
0 I 4 /4
5 I 6 E
8 I F E
E I D F
'uando los datos son de tipo continuo se (ace necesario
agruparlos en intervalos disjuntos para tener una mejor
comprensin gr&fica de su comportamiento#
Ejemplo# ,as estaturas en centmetros de 6= estudiantes mujeres
un grupo se registraron# ,os datos son-
/6F /66 /F/ /6= /84 /6= /F0 /8/ /65 /F5 /84 /5E /60 /84 /5D /6E /F8 /85 /6F /64 /8D /8/ /8= /85 /66 /80 /6/ /8F /8F /8F /F= /6E /84 /F6 /8D
/8D /6E /6= /68 /6F /F5 /80 /6= /6/ /86 /F= /68 /F= /64 /65#
Agrupe adecuadamente los datos y elabore la respectiva tabla de frecuencias y el (istograma de frecuencias relativas#
El problema m&s importante a resolver aqu es En cu&ntas clases o intervalos debo agrupar la informacin? Es decir, cu&l es el n:mero m&s adecuado
de intervalos de agrupacin?# E)isten diversas reglas empricas acerca de cual debe ser un n:mero de intervalos o grupos adecuados# !ea n- n:mero de
observaciones, U- n:mero de intervalos o grupos, .- .ango, A- Amplitud del intervalo# Entre las reglas m&s conocidas se tienen-
9
K n =
9
5 K 25
9
10
K 1 3.33 log n = + .egla de !turges$
!i usamos la primera regla, corremos el riesgo de incrementar dr&sticamente el n:mero de intervalos a medida que aumenta el n:mero de datos# Por
ejemplo con nJ/==,
K 100 10 = =
# !i nJ/===,
K 1000 10 10 31.62 = =
# !e recomienda usar la :ltima regla pues esta permite
corregir el valor de U aunque se incremente dram&ticamente el n:mero de datos# ;sando la regla de !turges, un n:mero de clases inicial es
10
K 1 3.33 log 50 6.66 = + = # As apro)imamos
K 7
# ,a estatura mnima es /5E cms y la m&)ima estatura es /F8# As el rango ser&
R 176 148 28 = =
# ,a amplitud de estos ser&-
R 28
4
K 7
= = = #
,os intervalos que se generen deben ser disjuntos, de esta manera se proponen intervalos semi9abiertos a derec(a# As los intervalos de clases ser&n-
[ ) 148, 152 ,
[ ) 152, 156 ,
[ ) 156, 160 ,
[ ) 160, 164 ,#
[ ) 164, 168 ,
[ ) 168, 172 ,
[ ) 172, 176 # Es implicara que el m&)imo valor no
est incluido en el :ltimo intervalo# Es usual incrementar levemente la amplitud de los intervalos para garanti@ar que ning:n valor quede por fuera de la
clasificacin# En otros casos Taciendo 4. 2 = , entonces el nuevo rango es- R 4. 2 7 29. 4 = = # As, el rango se ampla en /#5 unidades que
pueden ser repartidas =#F a i@quierda y a derec(a# En el siguiente gr&fico ilustra lo antes dic(o#
,os intervalos de clase respectivos son-
[ ) 147.3, 151.5 ,
[ ) 151.5, 155.7 ,
[ ) 155.7, 159.9 ,
[ ) 159.9, 164.1 ,
[ ) 164.1, 168.3 ,
[ ) 168.3, 172.5
[ ) 172.5, 176.7 #
,a tabla de frecuencias para estos intervalos y el respectivo (istograma son-
Este gr&fico es llamado -istograma de recuencias# !e puede observar que las estaturas no est&n muy agrupadas alrededor de un rango de valores
especficos, de (ec(o, las personas con estaturas entre /5E y /8= cms# presentan frecuencias muy similares# Es muy frecuente encontrar personas con
estaturas que oscilan entre los /8= y /85 cms# Apro)imadamente#
Es usual graficar las clases contra las frecuencias de manera que el &rea de cada rect&ngulo sea igual a la frecuencia# El (istograma resultante se llama
-istograma de Densidad#
Diagrama de Ca.as / ,igotes0 ,o12P%ot
,os diagramas de caja y bigotes son (erramientas gr&ficas muy :tiles para describir caractersticas importantes en un conjunto de datos, como son centro,
simetra o asimetra, valores atpicos raros$, etc# ,a construccin de este diagrama emplea medidas descriptivas que son poco sensibles a datos e)tremos
y por lo tanto presentan una descripcin m&s clara de la informacin# "&sicamente empleamos para su construccin los tres cuarteles, los valores mnimos
y m&)imos y la media muestral solo como medida de locali@acin en el gr&fico#
;na observacin se dice #tpica o Inusual si est& a m&s de /#6 veces el rango intercualtil de alguno de los cuarteles N/ o N4# ;na observacin se dice
Atpica E)trema si est& a m&s de 4 veces el rango +ntercuartil de alguno de los cuarteles N/ o N4#
El diagrama est& conformado por una caja la cual se construye con ayuda del primer y tercer cuartil# ,a mediana es dibujada en el interior de la caja al igual
que la media muestral# ,os bigotes se e)tienden desde los cuartiles a la derec(a y a la i@quierda# !u longitud depende de si (ay o no datos atpicos#
!in valores Atpicos ni E)tremos-
'on valores Atpicos yBo E)tremos-
En algunos paquetes computacionales, los bigotes van siempre (asta los valores mnimo y m&)imo, sin (acer distincin en los valores atpicos#
Ejemplo# Para los datos de las estaturas tenemos- 148 Min J , 176 M!" J , 86 160 X # J 154 Q
1
J , 161 Q
2
J , 167 Q
3
J #
Ejemplo# En un estudio epidemiolgico, el 1rganoc(lorine y P'"Vs totales fueron registrados en 5= voluntarios en 'olorado# ,os datos son- 0F 54 60 64 64
64 8/ 84 84 86 8E F= F0 F6 E4 D6 D8 DF /=/ /=6 //= //6 //6 //6 //6 /08 /0F /45 /56 /60 /64 /E0 /D= /DF /DF 0E0 400 400 450 60/#
Algunas medidas descriptivas b&sicas son- 27 Min J , 521 M!" J , 925 133 X # J , 5 66 Q
1
# J , 5 107 Q
2
# J , 5 152 Q
3
# J # El
respectivo %iagrama de cajas y bigotes se muestra a continuacin-
En este caso e)isten datos inusuales de los dos tipos- atpicos y atpicos e)tremos# ,o que nos muestra una gran dispersin de los datos debido a
observaciones muy inusuales 0E0, 400,450 y 60/# El Tistograma de frecuencias evidencia dic(o sesgo a la derec(a# Esto indica que es muy inusual
encontrar niveles totales superiores a 0E=#