Vous êtes sur la page 1sur 20

[PROBABILIDAD Y ESTADSTICA]

Unidad 1


1

Probabilidad y Estadstica


Estadstica. La ciencia que estudia la tcnica o mtodo que se sigue para recoger, organizar,
resumir, representar, analizar, generalizar y predecir resultados de las observaciones de
fenmenos aleatorios.

Partes de la estadstica, en esquema:

ESTADSTICA
DESCRIPTIVA
Encuestas
Organizacin de Datos
Tabulacin
Representaciones
Calculo de parmetros
INFERENCIAL
Interpretacin de resultados
Conclusiones y predicciones

La estadstica descriptiva es la encargada de organizar, condensar y presentar los datos en
tablas y grficos; y de calcular las medidas numricas que permitan estudiar los aspectos ms
importantes de los datos.

La estadstica inferencial est definida por un conjunto de tcnicas, mediante las cuales se
hacen generalizaciones o se toman decisiones en base a informacin parcial obtenida
mediante tcnicas descriptivas.


Unidad 1. Estadstica descriptiva

1.1 Introduccin. Conceptos bsicos.

Poblacin. Es la coleccin de todas las posibles mediciones u observaciones que
pueden hacerse de una variable bajo estudio. Esta puede ser finita o infinita.
a. Finita. Es aquella que incluye una cantidad limitada contable de
observaciones, individuos o medidas. Siempre que sea posible contar el
nmero total de todas las posibles mediciones, se considera como finita la
poblacin.
b. Infinita. Es aquella que incluye un gran conjunto de observaciones o
mediciones que no pueden alcanzarse por conteo. Hipotticamente, no
existe lmite en cuanto al nmero de observaciones que el experimento
puede generar.

Muestra. Un conjunto de mediciones u observaciones tomadas a partir de una
poblacin. Una muestra se considera aleatoria siempre y cuando cada observacin,
medicin o individuo de la poblacin tenga la misma probabilidad de ser
seleccionado.
Variables. Son las caractersticas o lo que se estudia de cada individuo de la
muestra. Ej.: Edad, estatura, color de ojos, estado civil, temperatura, religin, etc.
Datos. Son los valores que toma la variable en cada caso. Ej.: 31 aos, 1.73
metros, marrn, soltero, 32C, etc. Estos datos pueden ser de carcter
cuantitativo o cualitativo. Los datos cuantitativos provienen de variables que
[PROBABILIDAD Y ESTADSTICA]
Unidad 1


2

pueden medirse, cuantificarse o expresarse numricamente, como lo seran los
datos de variables como la edad, la estatura y la temperatura.
Los variables cuantitativas pueden ser de dos tipos, discretas y
continuas.
Discretas. Es aquella que solo puede tomar un nmero finito o infinito
numerable de valores. Ejemplo: cantidad de hermanos. Continuas. Es
la variable que puede tomar cualquier valor en una escala continua.
Ejemplo: cantidad de lquido contenido en un recipiente.
Los datos cualitativos solo toman valores asociados a las cualidades o atributos,
clasificndolos en una de varias categoras, es decir, no son valores numricos
como por ejemplo el color de ojos, el estado civil y la religin.

1.1.1 Notacin sumatoria
En estadstica se requiere la suma de grandes masas de datos y es pertinente
tener una notacin simplificada para indicar la suma de estos datos. As, si una
variable se puede denotar por X, entonces las observaciones sucesivas de esta
variable se escriben:

X
1
+ X
2
+ X
3
+ + X
n

En general, la i-sima observacin se escribe X ; i=1, ..., n.

La letra griega sigma mayscula () se emplea para indicar la suma de estas n
observaciones.

La notacin se lee:

Suma de X sub-i ( sigma sub-i) donde i asume todos los valores de 1 hasta n,
simplemente suma de X sub-i donde i va de 1 a n.

La letra debajo del operador se llama ndice de la suma; en la expresin
note que el ndice de la suma es i.

Ejemplo 1: Si X
1
= 3 X
2
= 9 X
3
=11, encontrar:
Solucin:

= 3 + 9 + 11
= 23

Ejemplo 3. Si X
1
= 9 X
2
= 6 X
3
= 5 X
4
= 8 X
5
= 12, encontrar:
Solucin:
[PROBABILIDAD Y ESTADSTICA]
Unidad 1


3


= (9 5)
2
+ (6 5)
2
+ (5 5)
2
+ (8 - 5)
2
+ (12 5)
2

= (4)
2
+ (1)
2
+ (0)
2
+ (3)
2
+ (7)
2

= 16 + 1 + 0 + 9 + 49
= 75

Ahora bien, cuando se trabajan estas expresiones en forma algebrica se
necesita identificar variables y constantes, as s X es una variable, a y b son
dos constantes, probar que:


De lo anterior es evidente que la suma de una expresin que es la suma de dos
ms trminos es igual a la suma de las sumas de los trminos por separado.
Por ejemplo:


La suma de una constante multiplicada por una variable es lo misma que la
constante multiplicada por la suma de la variable, esto es


La suma de una constante, es igual a n veces la constante, esto es:



1.1.2 Datos no agrupados
Los datos se presentan en bruto, es decir no se presentan clasificados,
ordenados ni procesados.

Los datos no agrupados pueden ser ordenados y de esta forma determinar
media, desviacin estndar, hacer grficas, etc. El hecho de que los datos no
agrupados puedan ordenarse, no significa que se conviertan en datos
agrupados.
Ej. Se investigan las edades de 20 nios, las cuales se registran en el orden en
que se entrevista a los nios, obteniendo los siguientes valores:

2,2,1,3,3,3,4,4,5,6,1,2,2,3,3,3,4,4,3,6

(Estos datos son no agrupados ya que no se han clasificado y contado).

Los datos no agrupados pueden ordenarse, por ejemplo, de la edad menor a la
edad mayor. No estn contabilizados ni clasificados solamente estn
ordenados, por lo que siguen siendo datos no agrupados.

[PROBABILIDAD Y ESTADSTICA]
Unidad 1


4

Para que los datos sean agrupados es necesario contarlos y clasificarlos en
intervalos de clase.


1.1.3 Medidas de tendencia central
Corresponden a valores que generalmente se ubican en la parte central de un
conjunto de datos.
Forma como los datos pueden condensarse en un solo valor central alrededor
del cual todos los datos muestrales se distribuyen.
Un nico valor que resume un conjunto de datos. Seala el centro de los
valores. Existen 5 medidas de tendencia central:

Media aritmtica. Para datos no agrupados.

Media de la poblacin. Es la suma de todos los valores de ella divida
entre el total de valores en la poblacin. Es un parmetro.
= X
N
Media de la muestra. Es la suma de todos los valores dividida entre el
nmero total de los mismos. Es un dato estadstico.
X = X
n

Mediana o media posicional. Es el valor del trmino medio que divide
una distribucin de datos ordenados en dos partes iguales, es decir, el 50% de
los datos se ubican sobre la mediana o hacia los puntajes altos y el 50%
restante hacia los puntajes bajos. Para el clculo de la mediana interesa que los
valores estn ordenados de menor a mayor.
Para datos no agrupados.

Ej. Calcular la mediana de las siguientes calificaciones del curso 2012,
evaluadas sobre diez.

a) para un nmero de datos impar
Md = X
n+1
2

Solucin. Se ordenan los datos de menor a mayor:

X
1
X
2
X
3
X
4
X
5
X
6
X
7
X
8
X
9
4 6 6 7 8 9 9 10 10

Aplicando la ecuacin, n = 9. Entonces Md = X
(9+ 1)/2
= X
5

Md = X
5
= 8

b) para un numero de datos par
Md = X
n/2
+ X
(n/2)+1
2
Solucin. Se ordenan los datos de menor a mayor:

X
1
X
2
X
3
X
4
X
5
X
6
X
7
X
8
X
9
X
10

4 6 7 8 8 9 9 9 10
10
[PROBABILIDAD Y ESTADSTICA]
Unidad 1


5

Aplicando la ecuacin, tenemos n = 10. Entonces

Md = X
10/2
+ X
(10/2)+1
2
Md = X
5
+ X
6
= 8 + 9 = 8.5
2 2

La media y la mediana dan cada una un nmero simple que representa un
conjunto entero de datos; la media es, generalmente, utilizada en problemas
de estimacin y otros problemas de inferencia estadstica. Una razn intuitiva
para preferir la media es que la mediana no utiliza toda la informacin
contenida en las observaciones. Otra razn es que la mediana esta sometida,
en general, a mayores fluctuaciones, es decir, puede variar ms de una
muestra a otra.

Para dar un ejemplo en el que la mediana de una mejor descripcin que la
media, suponga que un contratista de personal dice que el salario medio
mensual pagado a los ingenieros en su firma es de $15,000MXN. Esto da la
impresin de que dicha firma es un buen lugar para trabajar. Sin embargo, en
un examen mas detallado, se ve que es una compaa pequea que paga
$5,000 a cada ingeniero de los 4 que tiene, adems del dueo, que recibe
$55,000. Luego, la distribucin de ingresos es muy asimtrica, lo que significa
que su media de $15,000 realmente no es una representacin til, mientras
que la mediana de $5,000 es al menos, representativa de lo que un ingeniero
joven puede ganar en dicha firma.

Moda. Observacin o clase que tiene la mayor frecuencia en un conjunto de
observaciones. Un conjunto de datos puede ser unimodal, bimodal o
multimodal. Es la nica medida de tendencia central que se puede determinar
para datos de tipo cualitativo. Se trata simplemente la observacin que ms se
repite.

1.1.4 Medidas de dispersin

La tendencia central no necesariamente proporciona informacin suficiente
para describir los datos en forma adecuada. Las medidas de dispersin sirven
para determinar el grado de variabilidad de un conjunto de datos, ya que los
promedios solo dan idea de la medida central, pero los datos pueden ser muy
cercanos entre si o pueden alejarse mucho del centro.
Ej. Considrese las resistencias al rompimiento obtenidas de dos muestras de
botellas.

Muestra 1 (psi): 230 250 245 258 265 240
Muestra 2 (psi): 190 228 305 240 265 260

Tenemos que la media para ambas muestras es de 248 psi; sin embargo, al
diagramar los resultados obtenidos en cada una de las muestras, podemos
observar que la dispersin de la muestra 2 es mucho mayor que la de la
muestra 1.
[PROBABILIDAD Y ESTADSTICA]
Unidad 1


6



Varianza de la muestra. La medida de dispersin ms importante es la varianza
de la muestra.
Si x
1
, x
2
, , x
n
es una muestra de n observaciones, entonces la varianza de la
muestra es




La forma en que la varianza de la muestra mide la dispersin o variabilidad, se
muestra a continuacin:


Cuanto mayor sea la cantidad de variabilidad en los datos de resistencia al
rompimiento, tanto mayores sern en magnitud absoluta algunas de las desviaciones.

Ej. Calculo de la varianza de la muestra de la resistencia de las botellas para la
segunda muestra.

n Observaciones x
i
- x (x
i
- x)
2

1 190 -58 3364
2 228 -20 400
3 305 57 3249
4 240 -8 64
5 265 17 289
6 260 12 144
Suma = 0 Suma = 7510

Y de la ecuacin, obtenemos:
s
2
= 1502 (psi)
2


Calculando la varianza de la muestra 1, encontramos que s
2
= 158 (psi)
2
, la cual
es considerablemente ms pequea que la varianza de la muestra 2, lo cual
confirma la impresin inicial que indica que la muestra 1 tiene menor
variabilidad que la muestra 2.
1
) (
1 2

=
n
X X f
s
n
i
i i
[PROBABILIDAD Y ESTADSTICA]
Unidad 1


7

Desviacin estndar. Debido a que s
2
se expresa en el cuadrado de las
unidades originales, no es fcil interpretarla. Este problema de
dimensionalidad puede resolverse trabajando con la raz cuadrada (positiva)
de la varianza, s, denominada desviacin estndar de la muestra. Esto brinda
una medida de la dispersin expresada en las mismas unidades que la variable
original. Una interpretacin aproximada de la desviacin estndar muestral es
que es el tamao de una desviacin caracterstica, o representativa, respecto a
la media muestral dentro de la muestra dada.

Ej. La desviacin estndar de las resistencias al rompimiento para la segunda
muestra de botellas es:
s = s
2
= 1502 = 38.76

As, si s = 38.76 entonces algunas de las x
i
de la muestra se acercan ms a x que
38.76, mientras que otras estn ms lejos. 38.76 es una es desviacin
representativa (o estndar) respecto a la resistencia de rompimiento de las
botellas.

Rango de la muestra. La medida ms sencilla de la variabilidad en una muestra
es el intervalo o recorrido, que es la diferencia entre los valores mximo y
mnimo en la muestra.

R = mx (x
i
) min (x
i
)

As el clculo del intervalo para ambas muestras sera:

R
1
= 265 230 = 35
R
2
= 305 190 = 115

Ntese que el intervalo de la segunda muestra es mucho mayor que el de la
primera, implicando que la segunda muestra tiene mayor variabilidad que la
primera. Sin embargo, una desventaja del intervalo es que solo depende de las
dos observaciones mas extremas, y no tiene en cuenta las posiciones de los
valores restantes, lo cual resulta en una desventaja si se tienen muestras que
contengan valores mximos y mnimos idnticos pero su distribucin alrededor
de la media sea distinta.

Coeficiente de variacin. En ocasiones se desea expresar la variacin como una
fraccin de la media. Una medida de la variacin relativa denominada
coeficiente de variacin de la media, se define como:

CV = _s_
x

El coeficiente de variacin es til cuando se compara la variabilidad de dos o
ms conjuntos de datos que difieren de modo considerable en la magnitud de
las observaciones. Por ejemplo, al utilizar la desviacin estndar para medir la
variabilidad de dos o mas conjuntos donde el efecto de error de 5 cm en
medidas del orden de 100 cm, es muy diferente al efecto de esta variacin (5
cm) en una distancia de 100 mts. El coeficiente de variacin es el que mide
[PROBABILIDAD Y ESTADSTICA]
Unidad 1


8

este tipo de efectos, ya que es un valor adimensional y representa la dispersin
relativa.
Ej. Dados los dos conjuntos de datos siguientes calcula sus coeficientes de
variacin y determine cual de ellos tiene mayor variabilidad.

Conjunto 1: 15, 20, 22, 25, 25, 30, 32
Conjunto 2: 10, 15, 17, 20, 20, 25, 27

Para el conjunto 1, x = 24.14, s = 5.38 y CV = 0.22
Para el conjunto 2, x = 19.14, s = 5.38 y CV = 0.28

Como puede observarse, la dispersin relativa del conjunto 1 es del 22%,
mientras que para el conjunto 2 es del 28%, es decir, el segundo conjunto tiene
una variabilidad mayor, aun cuando tienen la misma desviacin estndar. Una
de las desventajas que presenta este coeficiente es que para valores en
extremo pequeos, no es conveniente su uso.


1.2 Datos agrupados Datos agrupados Datos agrupados Datos agrupados

1.2.1 Tabla de frecuencia
Considrense los datos de la tabla 1-1, que se refieren a las resistencias en
libras por pulgada cuadrada de 100 botellas de vidrio de un litro de refresco.
Estas observaciones se registraron en el orden en el cual se probaron las
botellas, y en este formato no es posible responder a cuestionantes como
Cul es la resistencia promedio al rompimiento?, Qu porcentaje de las
botellas se rompe debajo de 260 psi?, etc.



Una distribucin de frecuencia es un resumen ms compacto de datos que las
observaciones originales. Para construir un diagrama de frecuencia, debemos
dividir la gama de los datos en intervalos que suelen denominarse intervalos de
clase. Si es posible, los intervalos deben ser de igual ancho para incrementar la
informacin visual en la distribucin de frecuencias. El nmero de intervalos
que se utiliza depende del nmero de observaciones y de la cantidad de
discriminacin o dispersin en los datos. Encontramos en general que entre 5 y
20 intervalos es satisfactorio en muchos casos y el nmero de intervalos debe
aumentar debe aumentar con n.
La eleccin del nmero de intervalos aproximadamente igual a la raz cuadrada
del nmero de observaciones a menudo funciona bien en la prctica. Puesto
que el conjunto de datos contienen 100 observaciones, sospechamos que
alrededor de 100 = 10 intervalos producirn una distribucin de frecuencias
[PROBABILIDAD Y ESTADSTICA]
Unidad 1


9

satisfactoria. Otra manera de obtener el nmero de intervalos k es utilizando la
regla de Sturges:
k = 1 + 3.3log n

Los valores del mas grande al mas pequeo son 346 y 176 respectivamente,
por lo que los intervalos deben cubrir al menos 346 176 = 170 unidades psi
en la escala. A este valor se le conoce como Rango. Si queremos que el lmite
inferior para el primer intervalo comience ligeramente debajo del valor de los
datos mas pequeos y que el lmite superior para el ltimo elemento este un
poco encima de los valores de los datos ms grandes, podramos entonces
iniciar la distribucin de frecuencias en 170 y terminarla en 350. Este es un
intervalo de unidades de 180 psi. Tambin es posible calcular la amplitud del
intervalo utilizando:
C = R / k
Donde C = Amplitud del intervalo
R = Rango de los datos
k = cantidad de intervalos

Nueve intervalos de clase, cada uno con un ancho de 120 psi, producen una
distribucin de frecuencias razonable y la tabla 1-2 se basa en consecuencia en
9 intervalos (de clase). A partir de esta tabla de frecuencias podemos entonces
determinar:

Punto medio (o marca de clase) Pm
i
= (L
m
+L
M
)/2
Frecuencia absoluta del intervalo (f
i
)
Frecuencia acumulada del intervalo (F
i
)
Frecuencia relativa del intervalo (fr
i
): fr
i
= f
i
/n
Frecuencia relativa acumulada del intervalo (FR
i
)













1.2.2 Medidas de tendencia central y de posicin

Media aritmtica.
Para datos agrupados.


Donde Pm
i
= punto medio del intervalo i-simo
f
i
= frecuencia observada del intervalo i
k = cantidad de intervalos

Intervalo
Punto
medio
Frecuencia
Frecuencia
acumulada
Frecuencia
relativa
Frecuencia relativa
Acumulada
170 x < 190 180 2 2 0.02 0.02
190 x < 210 200 4 6 0.04 0.06
210 x < 230 220 7 13 0.07 0.13
230 x < 250 240 13 26 0.13 0.26
250 x < 270 260 32 58 0.32 0.58
270 x < 290 280 24 82 0.24 0.82
290 x < 310 300 11 93 0.11 0.93
310 x < 330 320 4 97 0.04 0.97
330 x < 350 340 3 100 0.03 1
100 1
n
f Pm
X
k
i
i i
=
=
1
[PROBABILIDAD Y ESTADSTICA]
Unidad 1


10

Ej. Obtenga la resistencia al rompimiento promedio de la muestra de 100
botellas de vidrio de litro.

Intervalo
Punto
medio
Frecuencia
PM x
Frecuencia
170 x < 190 180 2 360
190 x < 210 200 4 800
210 x < 230 220 7 1540
230 x < 250 240 13 3120
250 x < 270 260 32 8320
270 x < 290 280 24 6720
290 x < 310 300 11 3300
310 x < 330 320 4 1280
330 x < 350 340 3 1020
= 26460

X = 26460 / 100 = 264.60

Mediana.
Para datos agrupados.




Donde: Lm: lmite menor (o inferior) del intervalo mediano.
f(x
m
): frecuencia absoluta de la clase mediana.
F(x
m-1
): frecuencia acumulada de intervalos antes del intervalo
mediano.
Cme: amplitud del intervalo mediano.

Ej. Obtenga la mediana para la resistencia al rompimiento de la muestra de
100 botellas de vidrio de litro.

El intervalo mediano se define como el intervalo en el cual estn acumulados la
mitad de los datos. En este caso 100/2 = 50.
La frecuencia acumulada de 58 corresponde al intervalo 5 (250 x < 270) por
lo que se considera el intervalo mediano.

Md = 250 + (100/2 26) . 20
32
X = 265

Moda. Para datos agrupados:




Donde: Lim: lmite inferior del intervalo modal.
1: diferencia entre f
i
del intervalo modal y el anterior.
2: diferencia entre f
i
del intervalo modal y el posterior.
Cmo: amplitud de la clase modal (clase de mayor frecuencia).
Cme
x f
x F
n
Lm Md
m
m
) (
) (
2
1

+ =
Cmo Lim Mo
2 1
1
+

+ =
[PROBABILIDAD Y ESTADSTICA]
Unidad 1


11

Ej. Obtenga la moda para la resistencia al rompimiento de la muestra de 100
botellas de vidrio de litro.

Mo = 250 + _____(32 13)_____ . 20
(32 13) + (32 24)

Mo = 284.55

1.2.3 Medidas de dispersin

Varianza.




Donde k = nmero de intervalos
f
i
= frecuencia del intervalo i
Pm
i
= Punto medio del intervalo i
n = nmero de datos

Ej. Obtenga la varianza para la muestra de 100 botellas de vidrio de litro de la
resistencia al rompimiento.

Intervalo
Punto
medio
Frecuencia
Pmi -
Promedio
(Pmi -
Promedio)
2

(Frecuencia)
(Pmi - Promedio)
2

170 x < 190 180 2 -84.6 7157.16 14314.32
190 x < 210 200 4 -64.6 4173.16 16692.64
210 x < 230 220 7 -44.6 1989.16 13924.12
230 x < 250 240 13 -24.6 605.16 7867.08
250 x < 270 260 32 -4.6 21.16 677.12
270 x < 290 280 24 15.4 237.16 5691.84
290 x < 310 300 11 35.4 1253.16 13784.76
310 x < 330 320 4 55.4 3069.16 12276.64
330 x < 350 340 3 75.4 5685.16 17055.48
Promedio = 264.60 = 102284

S
2
= 102,284 / 99 = 1033.18

Desviacin estndar.





Ej. Obtenga la varianza para la muestra de 100 botellas de vidrio de litro de la
resistencia al rompimiento.

s = 1033.18 = 32.15

1
) (
1
2

=
n
X Pm f
s
k
i
i i
1
) (
1
2
2

=
n
X Pm f
s
k
i
i i
[PROBABILIDAD Y ESTADSTICA]
Unidad 1


12

1.3 1.3 1.3 1.3 Representaciones grficas Representaciones grficas Representaciones grficas Representaciones grficas

1.3.1 Polgono de frecuencias

Otro de los grficos importantes en estadstica es el polgono de frecuencias
que consiste en una grfica lineal que se construye a partir de los puntos
medios de cada intervalo o marcas de clase. Para ello se unen los puntos
medios de los intervalos proyectados con su frecuencia y se generan un
intervalo ficticio superior y uno inferior, ambos de frecuencia cero, en cuyas
marcas de clase se trazan rectas para completar el polgono.

Ej. Trcese el polgono de frecuencias para la distribucin de los valores de la
resistencia al rompimiento de las botellas de vidrio.

Intervalo Punto medio Frecuencia
150 x < 170 160 0
170 x < 190 180 2
190 x < 210 200 4
210 x < 230 220 7
230 x < 250 240 13
250 x < 270 260 32
270 x < 290 280 24
290 x < 310 300 11
310 x < 330 320 4
330 x < 350 340 3
350 x < 370 360 0





1.3.2 Histogramas

Polgono de Frecuencias
0
2
4
6
8
10
12
14
16
18
20
22
24
26
28
30
32
34
36
140 160 180 200 220 240 260 280 300 320 340 360 380
Resistencias al rompimiento
F
r
e
c
u
e
n
c
i
a
[PROBABILIDAD Y ESTADSTICA]
Unidad 1


13

El histograma es la forma grfica de presentar la distribucin de frecuencias.
Para dibujar el diagrama se usa el eje horizontal para representar la escala de
medida y se dibujan las fronteras de los intervalos, el eje vertical representa la
escala de frecuencias (o frecuencia relativa). El histograma brinda una
interpretacin visual de la forma de la distribucin de las mediciones, as como
informacin acerca de la diseminacin o dispersin de los datos.

Ej. Realice el histograma de la distribucin de frecuencias de la resistencia al
rompimiento de las botellas.



En casos en que los datos tomen solo unos cuantos valores distintos, puede ser
innecesario formar intervalos. Podra construirse un histograma usando dichos
escasos valores diferentes como los valores sobre el eje horizontal.

El histograma es un formato de exhibicin grafico muy til en la presentacin
de la forma, localizacin y variabilidad de los datos. No obstante, el histograma
no permite identificar datos individuales, debido a que todas las observaciones
caen en una celda son indistinguibles. Hay varios recursos graficos que pueden
ser mas informativos que el histograma, como el diagrama de tallo y hojas y el
diagrama de caja.


1.3.3 Diagrama de tallo y hojas

Supongamos que tenemos un conjunto de datos x
1
, x
2
, , x
n
para el cual cada x
i

consta de, por lo menos, dos dgitos. Una forma rpida de obtener una
representacin visual ilustrativa del conjunto de datos es construir un
diagrama de tallo y hoja.

Construccin del diagrama de tallo y hojas
1. Seleccione uno o ms dgitos iniciales para los valores del tallo. El digito, o
dgitos, final(es) se convierte(n) en hojas.
2. Haga una lista de valores de tallo en una columna vertical.
[PROBABILIDAD Y ESTADSTICA]
Unidad 1


14

3. Enliste a lo largo del lado izquierdo y junto a cada tallo las hojas
correspondientes a los valores de los datos observados.
4. Indique las unidades para tallos y hojas en algn lugar del diagrama.

De este modo, si el conjunto de datos est formado por calificaciones de
exmenes, cada una entre 0 y 100, la calificacin de 83 tendria un tallo de 8 y
una hoja de 3. Para un conjunto de datos de eficiencia de combustible en
automviles (km/litro), todo entre 8.1 y 47.8, podramos usar el digito de las
decenas como el tallo, de modo que 32.6 tendra entonces una hoja de 2.6. En
general, se recomienda un diagrama basado en tallos entre 5 y 20.

Ej. Considrese los datos de la resistencia al rompimiento de las botellas. Para
construir el diagrama de rbol, seleccionamos como valores de tallo los
nmeros 17, 18, 19,, 34. El diagrama resultante se presenta a continuacin.


Tallo H o j a s
17 6
18 7
19 7
20 5 8 0
21 5 4 0
22 0 8 3 1
23 4 1 5 5 5 1
24 3 2 2 6 8 5 8
25 8 0 8 4 3 8 0 4 0 7 1
26 5 3 8 0 7 5 4 0 7 5 0 4 9 3 5 5 2 1 0 5 9
27 4 6 1 7 6 2 1 4 4 8 4 5 8
28 6 1 0 1 3 0 3 0 7 0
29 9 9 3 4 6 0 8
30 7 0 8 1
31 8 7
32 1 8
33 4 7
34 6


Inspeccionando el diagrama, se observa de inmediato que la mayor parte de
las resistencias al movimiento se encuentran entre 220 y 330 psi, y que el valor
central est en alguna parte entre 260 y 270 psi. Adems, las resistencias al
rompimiento se distribuyen casi en forma simtrica en torno al valor central.

Ntese que aqu los nmeros originales no se han perdido como sucede en un
histograma.
Alguna veces para apoyar la bsqueda de porcentajes (percentiles), ordenamos
los hojas por magnitud, produciendo un diagrama de tallo y hojas ordenado.

[PROBABILIDAD Y ESTADSTICA]
Unidad 1


15


Tallo H o j a s
17 6
18 7
19 7
20 0 5 8
21 0 4 5
22 0 1 3 8
23 1 1 4 5 5 5
24 2 2 3 5 6 8 8
25 0 0 0 1 3 4 4 7 8 8 8
26 0 0 0 0 1 2 3 3 4 4 5 5 5 5 5 5 7 7 8 9 9
27 1 1 2 4 4 4 4 5 6 6 7 8 8
28 0 0 0 0 1 1 3 3 6 7
29 0 3 4 6 8 9 9
30 0 1 7 8
31 7 8
32 1 8
33 4 7
34 6

Puesto que n =100 es un numero par, la mediana es el promedio de las dos
observaciones con rango 50 y 51

X = (265 + 265)/2 = 265

Ejemplos.
El dcimo percentil es la observacin con rango (0.1)(100) + 0.5 = 10.5 o,
a la mitad entre la observacin 10ma. y la 11va., es decir (220 + 221) = 220.5

El primer cuartil (Q1) es la observacin con rango (0.25)(100) + 0.5 = 25.5 o,
a la mitad de las observaciones vigsima quinta y vigsima sexta, es decir (248
+ 248) = 248

El tercer cuartil (Q3) es la observacin con rango (0.75)(100) + 0.5 = 75.5 o, a la
mitad entre las observaciones septuagsima quinta y septuagsima sexta, es
decir (280 + 280)/2=280


1.3.4 Diagrama de caja y ejes

Un diagrama de caja y ejes exhibe los 3 cuartiles, el mnimo y el mximo de los
datos en una caja rectangular, alineada en forma horizontal y vertical. La caja
encierra el intervalo intercuartil IQR (IQR = Q3 Q1), que puede usarse como
otra medida de variabilidad, con la lnea izquierda en el primer cuartil Q1, y la
lnea derecha en el tercer cuartil Q3. Se dibuja una lnea a travs de la caja en
el segundo cuartil (o, lo que es lo mismo, el quincuagsimo percentil o la
mediana) Q2 = x. Una lnea se extiende hasta los valores extremos. Estas lneas,
se conocen como ejes, bigotes o brazos.

[PROBABILIDAD Y ESTADSTICA]
Unidad 1


16



Este diagrama de caja indica que la distribucin de las resistencias al
rompimiento es bastante simtrica alrededor del valor central, debido a que
los ejes o bigotes izquierdo y derecho y las longitudes de las cajas izquierda y
derecha alrededor de la mediana son casi simtricos.

El diagrama de caja es til en la comparacin de dos o ms muestras. Para
ilustrar, considrense los datos en la tabla siguiente.

Medidas de viscosidad
Mezcla 1 Mezcla 2 Mezcla 3
22.02 21.49 20.33
23.83 22.67 21.67
26.67 24.62 24.67
25.38 24.18 22.45
25.49 22.78 22.28
23.5 22.56 21.95
25.9 24.46 20.49
24.98 23.79 21.81

Los datos representan las lecturas de viscosidad en 3 diferentes mezclas de
material en una lnea de manufactura. Uno de los objetivos del estudio es la
comparacin de las 3 mezclas. Los diagramas de caja para estos datos
permitiran la rpida interpretacin de estos datos.



Este formato permite observar:
1. la mezcla 1 tiene la mayor viscosidad que la mezcla 2 y est presenta
mayor viscosidad que la mezcla 3.
[PROBABILIDAD Y ESTADSTICA]
Unidad 1


17

2. la distribucin de viscosidad no es simtrica, y
3. la lectura de viscosidad mxima de la muestra 3 parece inusualmente
grande en comparacin con las otras lecturas. Esta observacin puede ser
un dato extrao y es posible que justifique un examen y anlisis
adicionales.


1.3.5 Ojivas

La ojiva es una grfica de distribucin de frecuencias acumuladas que puede
construirse con frecuencias absolutas y relativas. La forma en que se acumulan
los datos da pie a la construccin de dos tipos de ojivas, una llamada menor
que y otra, mayor que.
Utilizando los datos de la tabla de frecuencias de las resistencias al
rompimiento de las botellas, podemos fijarnos en la columna de frecuencia
acumulada F
i
, y plantear el siguiente razonamiento: Cuntos datos son
menores que 170psi? Ninguno y por lo tanto, este grfico comienza en cero. A
continuacin, Cuntas mediciones son menores que 190psi? 2, las cuales se
encuentran precisamente en el intervalo que de las mediciones que son iguales
o mayores a 170 pero menores que 190. Los valores menores a 210 son
entonces 6, ya que comprende los 2 datos del primer intervalo (170 x < 190)
y los 4 datos del segundo intervalo (190 x < 210). De esta manera podemos
encontrar todos los puntos que conforma esta ojiva de tipo Menor Que.

Resistencias al
rompimiento (psi)
Frecuencia
acumulada
x < 170 0
x < 190 2
x < 210 6
x < 230 13
x < 250 26
x < 270 58
x < 290 82
x < 310 93
x < 330 97
x < 350 100

La grfica se construye con los valores de las resistencias al rompimiento en el
eje horizontal y la frecuencia acumulada en el eje vertical.


[PROBABILIDAD Y ESTADSTICA]
Unidad 1


18

Para construir la Ojiva Mayor Que, basmonos en la misma tabla utilizando el
siguiente razonamiento: Cuntos datos son mayores que 170? El 100% de los
datos, es decir las 100 observaciones de las resistencias. Los puntos para la
construccin de la ojiva Mayor Que son los siguientes.

Resistencias al
rompimiento (psi)
Frecuencia
acumulada
X > 170 100
X > 190 98
X > 210 94
X > 230 87
X > 250 74
X > 270 42
X > 290 18
X > 310 93
X > 330 3
X > 350 0

El grfico Mayor Que tendr la forma siguiente.





[PROBABILIDAD Y ESTADSTICA]
Unidad 1


19

Problemas propuestos.


1.1 Encuentre el valor de (i +i
2
)
7
=2


1.2 Encuentre la expresin de (x

5
=1
+2)

1.3 Exprese la siguiente suma mediante notacin sumatoria:
(2X
1
+ 5)
2
+ (2X
2
+ 5)
2
+ (2X
3
+ 5)
2
+ (2X
4
+ 5)
2


1.4 Considere la siguiente distribucin de frecuencias.

x
i
115 116 117 118 119 120 121 122 123 124
f
i
4 6 9 13 15 19 20 18 15 10

a) Calcule la media, mediana y la moda.
b) Calcule la varianza y la desviacin estndar de la muestra.

1.5 Para el conjunto de datos en el ejercicio 1.4 y los de este ejercicio, calcule los coeficientes
de variacin de la muestra e interprete los resultados.

x
i
x -4 -3 -2 -1 0 1 2 3 4
f
i
f 60 120 180 200 240 190 160 90 30

1.6 Calcule la media, mediana, moda, varianza y desviacin estndar de la muestra para los
datos en la siguiente distribucin de frecuencias:

Intervalo de clase Frecuencia
-10 x < 0 3
0 x < 10 8
10 x < 20 12
20 x < 30 16
30 x < 40 9
40 x < 50 4
50 x < 60 2

1.7 La concentracin de solidos suspendidos en agua de ro es una caracterstica ambiental
importante. Un artculo cientfico reporto sobre dicha concentracin en partes por milln
(ppm) en varios ros diferentes. Supongamos que se obtuvieron las siguientes 50
observaciones para un ro en particular:

55.80 60.90 37.00 91.30 65.80
42.30 33.80 60.60 76.00 69.00
45.90 39.10 35.50 56.00 44.60
71.70 61.20 61.50 47.20 74.50
83.20 40.00 31.70 36.70 62.30
47.30 94.60 56.30 30.00 68.20
75.30 71.40 65.20 52.60 58.20
48.00 61.80 78.80 39.80 65.00
[PROBABILIDAD Y ESTADSTICA]
Unidad 1


20

60.70 77.10 59.10 49.50 69.30
69.80 64.90 27.10 87.10 66.30

a) Construya una distribucin de frecuencias con intervalos del ancho de 10ppm.
b) Encuentre: media, moda, mediana, varianza y desviacin estndar.

1.8 Considere los siguientes datos sobre tiempo activo de reparacin (horas) para una muestra
de n = 46 receptores de comunicacin en aeronaves:

0.2 0.3 0.5 0.5 0.5 0.6 0.6 0.7 0.7 0.7 0.8 0.8
0.8 1 1 1 1 1.1 1.3 1.5 1.5 1.5 1.5 2
2 2.2 2.5 2.7 3 3 3.3 3.3 4 4 4.5 4.7
5 5.4 5.4 7 7.5 8.8 9 10 22 25


Construya lo siguiente:
a) Un diagrama de tallo y hoja
b) Un histograma
c) Polgono de frecuencias

1.9 Unos transductores de temperatura de cierto tipo se embarcan en lotes de 50. Se
seleccion una muestra de 60 lotes y se determin la cantidad de transductores en cada
lote que no se apegaban a las especificaciones de diseo y resultaron los siguientes datos.

2 1 2 4 0 1 3 2 0 5 3 3 1 3 2 4 7 0 2 3
0 4 2 1 3 1 1 3 4 1 2 3 2 2 8 4 5 1 3 1
5 0 2 3 2 1 0 6 4 2 1 6 0 3 3 3 6 1 2 3

a) Determine las frecuencias y frecuencias relativas para los valores observados de la
cantidad de transductores defectuosos en un lote.
b) Qu proporcin de lotes en la muestra tienen cuando ms cinco transductores
defectuosos? Qu proporcin tienen menos que cinco? Cuntos tienen cuando
menos cinco unidades defectuosas. Realice una ojiva para observar estos
cuestionantes.

1.10 Se seleccionaron especmenes de tres tipos distintos de cable de alambre, y en cada
espcimen se determin el lmite de fatiga en MPa (megapascal) y se obtuvieron los
siguientes resultados:

Tipo I 350.00 350.00 350.00 358.00 370.00 370.00 370.00 371.00
371.00 372.00 372.00 384.00 391.00 391.00 392.00
Tipo II 350.00 354.00 359.00 363.00 365.00 368.00 369.00 371.00
373.00 374.00 376.00 380.00 383.00 388.00 392.00
Tipo III 350.00 361.00 362.00 364.00 364.00 365.00 366.00 371.00
377.00 377.00 377.00 379.00 380.00 380.00 392.00

Trace un diagrama de caja y ejes comparativo con una escala comn y comente sus
semejanzas y diferencias.

Vous aimerez peut-être aussi