Académique Documents
Professionnel Documents
Culture Documents
by Rueda, Jos A.
Recomendacin:
by Rueda, Jos A.
Conceptos base
Quien se enfrenta por primera vez a la Estadstica, es bombardeado con una pila de nmeros
que regularmente no tienen conexin con nada hasta antes conocido en su entorno; acto
seguido se le gua hacia el anlisis de esa lista de datos. El tiempo consumido en el anlisis no
permite al estudiante abundar sobre el objetivo o las implicaciones de su ejecucin. Por tanto,
el aprendiz puede confundirse fcilmente respecto al alcance, delimitacin y objeto de la
Estadstica como ciencia. En el campo de la investigacin, la toma de datos es una necesidad
by Rueda, Jos A.
s2), ya
n
i=1
xi/ n) o mediante intervalos de confianza (P[L < <L ] = [1-]),
donde el lado derecho es la precisin) para los parmetros que representan tales los
estimadores. El segundo campo de accin de la Estadstica son las pruebas de hiptesis
sobre los parmetros; es decir, se evala la posibilidad de que estos parmetros puedan ser
superiores o inferiores a un valor de referencia; o bien, se comparan dos o ms estimaciones
en muestras similares
Vs
2,
la que la muestra fue extrada (al igual que s2 estima 2). A los valores poblacionales se les
conoce como parmetros y a los valores calculados en la muestra como estimadores.
La Estadstica es usada para medir la variacin y para tratar de manipularla o modificarla a
nuestro favor, por lo que el concepto de variable es de hecho el punto de partida. Una
variable aleatoria, se genera cuando en el inters por comprender o manipular un fenmeno,
se mide una caracterstica de forma repetitiva en varios individuos u objetos (unidades
experimentales). Si la variable es en efecto una medicin (g, m, L, s, kg/cm-2, C, etc.) esta
ser una variable cuantitativa y cada dato ser un valor en la recta real; frecuentemente la
distribucin se adaptar a la curva normal. Si la variable es una caracterstica distintiva
(verde, vivo, muerto, liso), se tratar de una variable cualitativa y su rango ser un valor en
el conjunto de los nmeros naturales; no tenemos aqu una medicin sino un conteo. Existen
un sinfn de factores afectando a cualquier variable que deseemos estimar; estos factores (que
son tambin variables) son los responsables de que exista la variacin cuando se toman varios
datos de la variable, en condiciones similares. Las condiciones para aplicar las tcnicas de la
Estadstica estn perfectamente definidas: los datos deben provenir de una muestra aleatoria
de individuos (tomada al azar) de la poblacin sobre la cual se pretende inferir; la
by Rueda, Jos A.
caracterstica que nos interese medir debe presentar variacin entre y/o dentro de los grupos
en los que se lleven a cabo las mediciones; y los factores que afectan a la variable que nos
interesa deben conocerse y se debe estar en la posibilidad de manipular su magnitud. Las
estimaciones de parmetros o pruebas de hiptesis que se realicen en base a los datos,
tomados en una muestra aleatoria, deben dirigirse a la obtencin de algn beneficio prctico,
ya sea econmico o productivo.
Una poblacin es el conjunto de todos los elementos o individuos en los que se est
interesado en inferir al conducir un experimento. Un individuo u objeto de medicin es cada
uno de los elementos que componen la poblacin y son susceptibles de ser seleccionados en la
muestra; si se ejecuta una medicin en un individuo en particular en la muestra, tal individuo
funge como unidad experimental. Una muestra representativa es un conjunto de individuos o
elementos que conserva las caractersticas propias de la poblacin. El nmero de individuos
en una muestra es menor que el nmero de individuos en la poblacin. El muestreo es la
forma en que se seleccionan aquellos individuos en los que se har el experimento; es decir,
es la obtencin de una muestra representativa de la poblacin. Un dato es cada uno de los
valores que se han obtenido al realizar una medicin unitaria en un individuo o elemento de la
muestra.
2
by Rueda, Jos A.
C l c u l o d e m ed i d as d es c r i p t i v a s
Medidas de tendencia central
Dnde est?
A lo largo de toda la recta real, al menos tericamente, todos los valores son igualmente
probables como mediciones de una variable aleatoria continua en particular; por ello cada vez
que se pretende describir una variable la pregunta natural inicial sera Dnde est?. Las
medidas de tendencia central conducen a un punto especfico de la recta real y dan una idea
precisa de la localizacin fsica de la variable en la recta, situacin por la que tambin son
llamadas medidas de localizacin. Cada uno de los datos
localizacin de la nube de datos, pero son las estimaciones de tendencia central (la media, la
mediana y la moda) las que nos dicen en concreto a que parte de la recta real ir para
encontrar nuestra variable para representar la nube de datos grficamente. Para el clculo
de medidas de tendencia central aplique las frmulas anotadas en el Cuadro 2.
La media es la medida ms precisa para localizar una variable aleatoria, significa el centro
geomtrico y aritmtico de una distribucin de datos y por tanto la distancia desde cualquier
dato hasta la media es en promedio menor respecto a la distancia entre los datos y cualquier
otro punto localizado sobre a recta real. La mediana es meramente la posicin central de los
datos cuando se ordenan ascendentemente, en este sentido no est ligada a la magnitud de
los datos. La moda solo es aquel valor que circunstancialmente se ha repetido en la toma de
datos un mayor nmero de veces. Si se tiene una distribucin simtrica de los datos
respecto a su media, las tres medidas de tendencia central coinciden, sealando al mismo
punto como la localizacin de la distribucin de la variable en la recta real.
Las medidas de tendencia central no dan ninguna informacin respecto a la dispersin, es
decir, sobre la distancia entre el centro de localizacin respecto a cada uno de los datos. Dada
la localizacin de una serie de datos, la variable no se encontrar totalmente definida sino
hasta que se especifique la cercana o lejana (dispersin) que los datos respecto a la posicin
definida como su localizacin (Fbula al final de este apartado).
Medidas de dispersin De qu tamao es?
Una vez ubicado el punto en que nuestra variable aleatoria se localiza en la recta real, ser
necesario, para completar la definicin de la misma: especificar el espacio fsico que ocupa.
Esta es una metfora, pero en la grfica de una funcin, es un hecho muy concreto. Adems
del espacio ocupado, debe especificarse su densidad; es decir, la frecuencia o concentracin
de datos a diferentes distancias alrededor de su media aritmtica. Las mencionadas
condiciones refieren a la dispersin de los datos. Las medidas de dispersin explican que tan
by Rueda, Jos A.
el cero
implica que los datos son idnticos. 2. Si a todos los valores de la variable se les suma una
constante la varianza no cambia. 3. Si todos los valores de la variable se multiplican por una
constante la varianza queda multiplicada por el cuadrado de dicho valor. 4. Si se tienen varias
distribuciones con la misma media y varianza conocida se puede calcular la varianza conjunta.
Observaciones: 1. La varianza, al igual que la media, es un ndice muy sensible a las datos
extremos; es decir, lejanos a la media. 2. En los casos que no se pueda hallar la media
tampoco ser posible hallar la varianza. 3 La varianza no est expresada en las mismas
unidades que los datos, ya que las desviaciones estn elevadas al cuadrado.
Propiedades de la desviacin estndar: 1. La desviacin estndar ser siempre un valor positivo
o cero, cero implicar que los datos son idnticos. 2. Si a cada dato se les suma la misma
constante, la desviacin estndar no se modifica. 3. Si todos los valores de la variable se
multiplican por una constante la desviacin estndar queda multiplicada por dicho valor. 4. Si
tenemos varias distribuciones con la misma media y conocemos sus respectivas desviaciones
estndar se puede calcular la desviacin compartida o error estndar de su media compartida.
Observaciones: 1. La desviacin estndar, al igual que la media y la varianza, es un ndice muy
sensible a las puntuaciones extremas u outliers. 2. En los casos que no se pueda hallar la media
tampoco ser posible hallar la desviacin estndar, ya que esta es necesaria para su clculo. 3.
Entre ms pequea sea la desviacin estndar mayor ser la concentracin de datos alrededor
de la media y viceversa.
Datos agrupados Clasificando para visualizar rpidamente
Dado el volumen de informacin que puede acumularse al tomar mediciones de variables
aleatorias en la prctica, es comn que los datos se clasifiquen o agrupen para poderlos
by Rueda, Jos A.
Simblicamente
Cerrado
[5,10]
De 5 hasta 10
Abierto
(5,10)
(5,10]
De 5.00001 hasta 10
[5,10)
De 5 hasta 9.999
Mixto
En la recta real
Interpretacin
anchura A idntica; cada una de estas k clases abarca todos los datos que sean estrictamente
mayores a su lmite inferior Li y menores o iguales a su lmite superior i (intervalo abierto por la
izquierda y cerrado por la derecha). Las tablas de frecuencia se construyen usando un lmite
inferior de la primera clase (L1), un ancho de clase (A) y un nmero de intervalos (k) totalmente
arbitrarios a conveniencia. La tabla de frecuencias contiene las siguientes columnas: 1. Los
lmites de clase i & L
i.
promedio de los limites superior e inferior en cada clase. 3. La frecuencia absoluta fi de datos
que pertenecen a cada clase (conteo simple). 3. La frecuencia relativa pi de cada intervalo, es
decir, fi/n. 4. Puede agregarse la frecuencia absoluta acumulada Fi y 5. La frecuencia relativa
acumulada Pi. Note que se usa una f para denotar la frecuencia absoluta y una p para denotar
frecuencia relativa; si estas letras aparecen en maysculas (F P), implicarn frecuencias
acumuladas hasta la clase i en la que aparezcan.
Una vez clasificados los datos, es posible calcular las medidas descriptivas haciendo
operaciones con 5 a 20 clases o intervalos; lo que ser ms rpido en comparacin con hacer lo
mismo usando cientos de datos existentes antes de construir la tabla de frecuencia. El clculo de
medidas es muy simple y se restringe a la aplicacin de una frmula para cada medida
descriptiva (Cuadro 2). La clase de la mediana ser aquella para la cual la frecuencia relativa
acumulada hasta esta clase supere o iguale 0.5 (Pi 0.5).
Con fines de enseanza, es comn que se analicen todas las medidas descriptivas de una
serie de datos usndolos todos a la vez, y posteriormente se construya una tabla de frecuencias
en donde se vuelvan a calcular todas las medidas que ya fueron calculadas con los datos
completos (duplicidad de anlisis). Esta situacin puede llevar a dos confusiones: 1. El aprendiz
usa un estimador calculado en los datos (e.g.
by Rueda, Jos A.
la tabla de frecuencia (e.g. S2); lo cual es obviamente errneo. 2. El estudiante no infiere que en
la prctica si se usa una tabla de frecuencias los datos originales ya no se usan; y dado el
estrecho tamao de muestra que se usa como ejemplo en el aula, en la prctica no sera
necesario hacer una tabla de frecuencia para tal nmero de datos (e.g. menor a 40). Aclaremos
una vez ms entonces que no debe usarse ningn dato calculado en los datos originales como
base para estimar otra medida descriptiva en tablas de frecuencia; una vez construida la tabla,
la informacin original no es usada.
Construyendo una tabla de frecuencias Manos a la obra
Las medidas descriptivas en datos originales se realizan de acuerdo con las frmulas detalladas
en el Cuadro 2. A continuacin se detalla la construccin de una tabla de frecuencias con tal de
agrupar los datos para estimar en estos sus medidas descriptivas y/o construir grficos para
visualizar la informacin de manera geomtrica.
La primera decisin al construir una tabla de frecuencias es el nmero de intervalos k que
debern de integrarla. El nmero ms adecuado es arbitrario (entre 5 y 20); pero, para
ejemplos de clase es conveniente trabajar con intervalos de tamao fijo, para lo cual se aplicar
la regla de Strugess donde k = 1+3.3 log n , y se redondear al entero siguiente. Para decidir la
amplitud A de los intervalos, se divide R (donde: R = mx. mn.) entre el nmero de
k- L
intervalos k cuidando que el rango de la tabla Rt = k*A =
permisible, en tanto se conserve la idea de Rt > R y todos los datos sean contenidos en alguna
clase.
by Rueda, Jos A.
Cuadro 2. Frmulas para el clculo de las principales medidas descriptivas con informacin
completa y en tablas de frecuencia.
Datos Originales
Medidas de
tendencia
central
=Valor central o
media de los dos centrales
Mediana ( )
Moda (o)
Varianza ( )
Medidas de
Dispersin
Tablas de Frecuencia
=
=
Media ( )
Desviacin
estndar()
= (
Coeficiente de
variacin (C.V.)
C.V.= ( /
)*100
=
=
= Le +
)
(.
= (
(= )
=
C.V. = ( /
)*100
Rango (R)
R = mx. mn.
Rt = k - L 1
xi: cada uno de los valores de X. n: nmero de datos. fi: frecuencia absoluta de la clase i. vi: valor central de la clase i. Le : Lmite inferior de la clase de la
mediana. A: amplitud o ancho de clase, constante en todas las clases. : frecuencia relativa de la clase i. mx.: valor mximo. mn.: valor mnimo, k:
lmite superior de la ltima clase (clase k). & L1: lmite inferior de la clase 1. La flecha atrs significa que se tomar la clase anterior a la de la mediana.
by Rueda, Jos A.
Ejemplo 1.1.
A partir de la serie de datos que se le presenta, que corresponden al peso seco de 36
muestras (de dos tallos c/u ) de Pennisetum purpureum, gramnea utilizada en la produccin de
papel cuya principal fraccin til es el tallo (datos tomados por el autor de este libro):
a)
b)
c)
d)
e)
Datos:
250.6
403.3
284.2
141.6
254.1
141.7
251.5
224.4
235.5
285.6
439.5
239.9
299.7
284.4
212.1
194.5
153.3
342.2
237.5
258.8
243.8
298.7
448.1
260.7
300.1
178.5
322.5
278.1
329.6
328.9
248.1
267.1
219.1
241.1
414.4
341.6
vi
fi
Fi
pi
Pi
fi vi
(vi
)2 fi
[]
10
by Rueda, Jos A.
M e d i d a s d e a s o c i ac i n
Hasta ahora hemos lidiado con medidas que son de inters al describir una variable aleatoria;
ms en la prctica es muy frecuente que adems de estudiar alguna variable aislada, analicemos
a la par la forma en que esta es afectada por una segunda variable aleatoria. Para medir la
asociacin entre dos variables aleatorias, las medidas descriptivas de cada una de ellas por
separado no nos son de mucha utilidad. En los siguientes prrafos definiremos las principales
medidas de asociacin entre dos variables aleatorias, cuyos valores y cuyos estimadores (sus
medias y varianzas) pueden estar entrelazados en relaciones de tipo causa a efecto.
1.
2.
3.
0.92=0.81. Solo los valores altos de correlacin no sufren un castigo sustancial con esta
transformacin. El coeficiente de determinacin no da informacin sobre si la relacin
directa o inversamente proporcional entre las variables asociadas.
4.
Regresin lineal. [1] (-,+) El coeficiente de regresin que asocia una variable
efecto con su variable causa, es una asociacin precisa, proporcional y confiable que nos
da incluso la posibilidad de predecir un valor de la variable efecto a partir de cualquier
valor propuesto de la variable causa. El coeficiente como tal ( ), nos da una medida del
nmero de unidades en que aumenta o disminuye una en funcin al cambio en una unidad
de la otra; de esta forma podemos anotar la relacin de manera grfica. La ecuacin de
11
by Rueda, Jos A.
regresin me dice adems el punto en el que el eje ordenado es cortado por la recta de
regresin, es decir 0.Para conocer un valor de la variable respuesta, dado un valor de la
variable explicativa se aplica la recta de regresin estimada
= + . Puede
consultarse la forma de clculo para las medidas de asociacin en el Cuadro 2. Note como
las cuatro medidas de asociacin son tienen estrecha relacin, observe la Figura 1.
Cuadro 3. Frmulas para obtener las medidas de asociacin entre dos variables aleatorias
1. Covarianza
4. Coeficientes de Regresin Lineal
( )( )
0 1 estimados como b0 y b1
= =
2.
3. Coeficiente de Determinacin
= ( )
= +
Relacin
Directamente proporcional
(0,) positiva
Inversamente proporcional
(-,0) negativa
Ninguna relacin
0
(0,1) positiva
(-1,0) negativa
(0,1)
(0,1)
(0,) positivo
(-,0) negativo
12
by Rueda, Jos A.
Probabilidad
Conceptos
Los nmeros son ya una abstraccin, son un auxiliar en la representacin de la realidad que nos
rodea, nos ayudan a asirnos a hacernos del conocimiento; son una abstraccin ya que no existen
en la naturaleza, son una idea y un acuerdo entre los seres humanos. En un intento por describir
situaciones y hechos relativos a la incertidumbre diaria, tenemos a la Estadstica como una
poderosa herramienta constructora de conocimiento y a la Probabilidad como una pareja
perfecta para aceptar que nuestras conclusiones ms precisas de hecho no son tal cosa. La
experimentacin acerca al entendimiento y transforma la incertidumbre en hechos concretos;
convierte la abstraccin y el azar en verdades confiables; asla los errores a un rincn conocido y
manejable.
El hecho de que un suceso sea posible no nos da mucha informacin, pero un valor de
probabilidad nos da una medida inteligible de la certeza que tenemos de que dicho suceso en
efecto ocurra. La probabilidad de que se d un evento es igual a la suma de las probabilidades
de que ocurra cualquier elemento dentro de ese evento cuando pertenecen al mismo espacio
muestral (mismo experimento simple); por ejemplo, la probabilidad de obtener un non al lanzar
un dado es la suma de las probabilidades separadas para 1, 2 y 3 (P[X=non] = P[X=1] +
P[X=2] + P[X=3]).
La Estadstica y la Probabilidad son dos ciencias estrechamente ligadas. A la estimacin y a las
pruebas de hiptesis, dada su naturaleza de lidiar con la variacin, siempre se les asigna una
probabilidad. Al analizar los conceptos bsicos de esta relacin se prepara al estudiante para la
interpretacin de un intervalo de confianza y para la estimacin de los errores en una prueba de
hiptesis, algunas definiciones se presentan a continuacin
Un experimento aleatorio es aquel cuyos resultados no pueden predecirse antes de llevarlo a
cabo. Si un investigador pudiera predecir con total certeza los resultados de un experimento,
este no lo llevara a la prctica, por lo que la incertidumbre y la variacin estn ligadas a la
experimentacin; tales condiciones son manejadas mediante Probabilidad.
Un espacio muestral
13
by Rueda, Jos A.
pueden caer cada una de las mediciones ser el espacio muestral. Un espacio muestral puede
significar un segmento de recta que registre una medicin, espacio muestral continuo, o puede
incluir varios nmeros naturales que impliquen conteos, espacio muestral discreto. El primero en
relacin con una variable aleatoria cuantitativa y el segundo, con una variable aleatoria
cualitativa.
Una variable aleatoria es una funcin que asigna a cada resultado de un experimento, un
nmero en la recta real. Visto el concepto de espacio muestral redefiniremos que una variable
aleatoria es una funcin que asigna a cada elemento en S, un nmero en R es por tanto una
abstraccin de la realidad en nmeros.
Un evento es un suceso plenamente definido que implica regularmente uno o ms elementos
dentro de un conjunto. En el caso en que se lance un dado, el evento non implica los elementos
1,3, y 5 del espacio S={1,2,3,4,5,6}, y si llamamos evento H al hecho de obtener 6, entonces
H={6} y P(H)= 1/6. Para medir la probabilidad de ocurrencia de un evento deben conocerse
cuantos elementos contiene el espacio muestral (elementos totales en S) y el nmero de
elementos que favorecen al evento que nos incumbe; por lo tanto, es necesario contarlos.
Conviene retomar algunos conceptos bsicos sobre tcnicas de conteo y algo de teora de
conjuntos antes a fin de aterrizar de manera ms precisa en los axiomas elementales de la
probabilidad.
Teora de conjuntos
Un conjunto es una coleccin de elementos, objetos o individuos que comparten una
caracterstica en comn. El nombre de un conjunto es una letra mayscula; sus elementos se
enumeran dentro de llaves despus de un signo de igualdad que precede al nombre del
conjunto. Para enumerar los elementos de un conjunto pueden escribirse uno a uno todos ellos o
mencionar la caracterstica que comparten, cualquiera de estas dos formas es correcta. No
obstante,
M={x/x
es
un
nmero
primo
menor
que
20},
expresin
equivalente
a:
M={2,3,5,7,11,13, 17,19}
Operaciones con conjuntos
Dado un conjunto que incluya a todos los valores en los que estamos interesados, llmese
conjunto S,
14
by Rueda, Jos A.
Dados
P =
I-P =
EUP =
A B
A B
A-B
P =
Ic =
15
by Rueda, Jos A.
Conjunto A
Conjunto B
Operacin
indicada
Ac
Figura 2: Diagramas de Venn Euler para las operaciones bsicas entre conjuntos
Particin de S: Dado un conjunto universal S y una serie de conjuntos A 1, A2, An, tales que:
nj&=1
y que la
ii) Don Juan se llevar a cazar uno de sus 14 perros, una de sus 6 armas y lo
acompaara uno de los 4 mozos que le ayuda en sus labores diarias Cuntas
combinaciones diferentes de perro, arma y mozo puede llevar Don Juan?
Aplicando
En una
!
( )!
16
by Rueda, Jos A.
!
=( )=
! ( )!
Ejemplo:
(i)
ii)
De
cuantas
maneras
pueden
seleccionarse
los
representantes.
Cuntas
iv)
v)
Probabilidad
Dado un evento A que agrupa uno o ms elementos en S para un experimento con n resultados
igualmente posibles; la probabilidad de A, P(A), ser el cociente cuyo dividendo est definido
por el nmero de elementos favorables a A, na, y cuyo divisor es el nmero total de elementos
en S, n.
() =
Ejemplo:
i)
Entonces:
() =
= 7 = 0.7143
() =
= 7 = 0.2857
17
by Rueda, Jos A.
Juan saca una ficha al azar de su juego de domin. Los elementos de espacio
muestral son: S= {(0,0), (0,1), (5,6), (6,6)} & n=28.
Si definimos los
eventos M: {Mula}; PP: {ficha con (par, par)} & F: {Ficha (6,*)}. Obtenga las
probabilidades: P(M), P(PP) & P(F) segn la definicin general de probabilidad.
iii)
Axiomas de la probabilidad
1. Dado un evento A, la probabilidad de que ocurra tal evento ser un valor tal que:
0 P(A) 1
P r o b a b i l i d a d co n d i c i o na l
18
by Rueda, Jos A.
(B)
()
(|) =
(B)
()
(|) =
() (|) = (B)
(B)
()
() (|) = (B)
() (|) = () (|)
() =
() (|)
(|)
() =
() (|)
(|)
() (|)
() (|)
(|) =
()
()
Figura 3. Relaciones de probabilidad condicional entre dos conjuntos A y B.
(|) =
Ejemplo:
Se supone que los graduados son todlogos Entre 200 empleados de una empresa 150 del
total resultaron ser graduados y 60 del total resultaron ser todlogos.
pertenecen a ambas categoras son 40. Elabore con estos datos una tabla de doble entrada y
auxilindose de diagramas de Venn-Euler calcule la probabilidad que se le pide:
19
by Rueda, Jos A.
TC
Marginal G
40
110
150
GC
20
30
40
Marginal T
60
140
200
Los eventos no son independientes, dado que la probabilidad de ocurrencia de uno de ellos
depende de la previa o no ocurrencia del otro.
i) G= {graduado}, GC = {NO graduado}, T = {Todlogo} & TC = {NO todlogo}
ii) ( T)
iii) ( G)
iv) P(T|G) =
(T G)
()
v) P(T|G) =
P (G|T) P(T)
()
C
ii)
G
G
110/200 40/200
T
20/200
150
60
200
40
200 =
170
200
= 0.85
20
by Rueda, Jos A.
TC
TC
30/200
TC
110/200 40/200
iv)
(|) =
v)
(|) =
vi)
(GC T C ) =
P(G)
40
200
150
200
40 60
( )
60 200
150
200
P(G|T)P(T)
P(G)
30
200
40
150
= 0.15
2400
60
150
40
150
P(T G)
P(T)
40
200
60
200
40
60
= 0.667
40
200
140
200
30
200 =
150
200
= 0.75
Ejercisios:
i)
Se seleccionan dos semillas aleatoriamente, una por una, de una bolsa que contiene
diez semillas de flores rojas y cinco de flores blancas. Cul es la probabilidad de
que:?
ii)
a) La primera semilla de una flor roja P(R)
b) La segunda semilla sea roja dado que la primera fue blanca P(R|B)
iii)
iv)
Erradicacin
29
Ningn cambio
69
Suma
98
21
by Rueda, Jos A.
Placebo
15
Suma
44
AE
60
75
129
173
A
P
S
Teorema de Bayes:
Si A1, A2, A3, An forman una particin de S, y D es un evento en S; tal que P(D|Ai)0;
entonces:
a) P(D) = P(D|A1) P(A1) + P(D|A2) P(A2) + P(D|An) P(An) = =1 P(D|A i )P(Ai )
(| ) ( )
b) ( |) =
= (| ) ( )
P(D|Ai ) P(Ai )
()
Ejercisios:
i)
22
by Rueda, Jos A.
0.05, 0.04, 0.009, y 0.02 en cada parcela, respectivamente. Una cosecha parcial ha
mezclado maz de las cuatro parcelas en proporciones 2:2:3:3.
a) Si solo se almacenar como semilla aquella cuya contaminacin no supere el
0.02; podr usarse la cosecha parcial mezclada como semilla y debe
almacenarse?
b) Si el genetista detect una mazorca de hibrido y quiere localizar mazorcas
del mismo tipo entre aquellas de la parcela de la que provenga. A qu
parcelas deber ir primero en su bsqueda, en funcin de la probabilidad de
que la mazorca pertenezca a tales parcelas?
M o d e l o s d e p r o b a b i l i d a d:
I . F u n c io n e s
23
by Rueda, Jos A.
1. () =1
2. () = para cualquier valor especfico x de X
3. P(a<x<b)= ()
4. P(a<x<b) = P(ax<b) = P(a<xb) = P(axb)
Funcin de distribucin (F.D.).
1. () = () (variables continuas)
& ()= () (variables discretas)
2. ( ()) = 0
&
( ()) = 1
24
by Rueda, Jos A.
pi
Funcin de probabilidad
() = ( = )
() = ( ) =
f.p.
Variables
aleatorias
continuas
Pi
Funcin de distribucin
()
F.D.
() = ( ) = ()
F.D.
Funcin de densidad
Funcin de distribucin
() = ( = )
f.d.
Notacin:
Para delimitar bien una funcin de densidad, una funcin de probabilidades o una funcin de
distribucin; debe especificarse, adems de la funcin misma, los limites en recta real para los
cuales esta es vlida. La notacin ms convencional incluye: a) el smbolo () () (segn
sea el caso) seguido de b) una llave de agrupacin que delimita dos casos: c) la frmula de la
funcin y los valores de X para los cuales la funcin es definida o verdadera & d) un cero
separado por una coma de la leyenda de otra forma que implica que los valores de X no
mencionados en el primer caso darn como resultado que la funcin sea nula o no vlida.
e.g.:
()
() =
,
,
= 0,1,
. .
Para el caso de una F.D., FX (x), se especificarn al menos tres casos: a) los valores para los
cuales la funcin sea cero, b)aquellos para los que la funcin sea vlida y c) aquellos para los
cuales la funcin sea siempre igual a 1.
Representacin grfica de una funcin
Suponga que se tiene un f.p. & su F.D., representadas por los datos mostrados a continuacin;
entonces las grficas que representan a f.p. y a su F.D. son las presentadas en la Fig. 4a.
X
()
()
4
3/24
3/24
5
2/24
5/24
6
8/24
13/24
7
5/24
18/24
8
4/24
22/24
9
2/24
24/24
Suponga que se tiene la f.d. fX (x) = 2/X2 ; entonces tanto la f.d. como su F.D. correspondiente
son las presentadas en la Fig. 4b.
25
by Rueda, Jos A.
0.4
1.5
0.3
0.2
0.5
0.1
0
0
10
10
[, ()]
[, ()]
1.5
0.5
0
0
0.5
1.5
2.5
0.5
1.5
2.5
[, ()]
[, ( () = 2/X2) ]
Note que en la grfica de la f.p. y su F.D. las probabilidades estn marcadas por puntos sobre
valores enteros; mientras que en el caso de f. d. y su respectiva F.D., la representacin curva
indica un nmero infinito de valores posibles en una escala continua.
Media y varianza con base en una distribucin terica
Si se conoce la funcin de probabilidades (variable discreta), o en su caso, la funcin de
densidad (variable continua) (); es posible calcular la media y la varianza a partir de la
mencionada funcin, aplicando las siguientes definiciones (a la derecha las frmulas para una
variable continua):
2 =
()
2 () 2
= ()
2 = 2 () 2
26
i)
by Rueda, Jos A.
Usemos el clsico ejemplo del dado para simplificar la explicacin. Si se lanza un dado
= 1/6, (4) = P(X4) =P(X<5) = [ (1) +
al aire tendremos: (4) = P(X=4)= 0.1
= 4/6 .
(2) + (3) + (4)] = 0.6
La media de esta variable sera:
6
=
() = =1 ( ) = [1 (1) + 2 (2) + 3 (3) + 6 (6)]
() =
d.o.f.), entonces:
Verifiquemos que en efecto es una f.d.:
() = ?
[ ] = ?
1=1
= () = (
( )
= () = (
) (1.386)
= 1.92 =0.08
La probabilidad de obtener un valor entre 1 & 1.5 entre 1.5 & 2 ser:
.
P(1<x<1.5)=
() =
= [ ]
= -1.33+ 2 = 0.66
27
by Rueda, Jos A.
P(1.5<x<2)= . () =. = [ ]
M o d e l o s d e p r o b a b i l i d a d:
I I . D i s t r i b u c i o n e s D i s c r e t a s M o d e l o s d e P ro b a b i l i d a d C ua l i t a t i v o s
Cuando se trabaja con variables aleatorias cualitativas o discretas; las modelos con los que
tenemos que lidiar ms frecuentemente son: Distribucin Bernoulli, Distribucin Binomial,
Distribucin Poisson, Distribucin Hipergeomtrica y Distribucin Geomtrica.
Distribucin Bernoulli
En principio una variable cualitativa nace de un conteo de elementos que cumplen con una
condicin dada. Por ejemplo, superar una longitud de 2 m, ser verde, soportar un voltaje de
220, tener ms de 100 pginas, saber nadar, aprobar el examen, etc. Todas estas condiciones
son preguntas de SI NO, variables dicotmicas cuyas nicas posibilidades son: que se cumpla
la condicin (xito), o que esta no se cumpla (fracaso).
Un evento Bernoulli asocia una probabilidad p al hecho de que se verifique la condicin buscada,
y una probabilidad q al evento de que la condicin no se cumpla. Aqu el espacio muestral tendr
slo dos elementos, S={Exito, Fracaso}, con P(Exito) =p, P(Fracaso)=q & p+q =1. La f.p. de
la distribucin Bernoulli es: Si X B (p) entonces:
() =
1 ,
0
= 0,1
. .
28
by Rueda, Jos A.
Ejemplos:
i)
iii)
Distribucin Binomial
Dados n Eventos Bernoulli con P(Si)=p P(No)=q, la Distribucin binomial cuenta nmero de
xitos obtenidos, x, al buscar la condicin dada, y por ende cuenta indirectamente el nmero de
fracasos o de veces n-x en que la condicin no se cumple.
Si (, ) entonces:
() , = 0,1,
() =
. .
& ()
29
by Rueda, Jos A.
0
() =
() =
. .
<0
5
( ) 0.8 0.25 ,
0
= 0,1, 5
,
. .
b)
X
()
-04
3x10
()
2
()
=
()
c)
0.328
4
16.8
=
() = ()
=1 ( 3) = 1 ()=1-.263
30
by Rueda, Jos A.
g)
Pese a que la respuesta obedece a cada criterio, acorde con (), podemos
notar que entre 3 a 5 de las piezas tendrn en efecto la proteccin a veinte aos.
Esta conclusin se basa en que () representa realmente a la realidad y que se
puede verificar mediante un experimento. El problema con el estudio que se
plantea, es que tardara 10 aos en concluirse.
Distribucin Poisson
Dados un nmero muy grande de Eventos Bernoulli, cuya probabilidad de xito p es muy
baja; la Distribucin Poisson cuenta el nmero de xitos dentro de un intervalo de tiempo o
espacio. El nmero promedio de veces que la condicin se cumple en cada intervalo es .
Si
() entonces:
() =
, = ,1,2
. .
i)
ii)
31
by Rueda, Jos A.
() =
(
) (
)
()
, <& <
= 0,1,2
,
d. o. f.
, con p = A/N.
Ejemplo:
i)
En una sala de cmputo se ha notado que de los 55 estudiantes que usan las
maquinas, el 40% las usan de manera ldica. El supervisor de zona llegar el da de
hoy y decomisar las maquinas si ms de la mitad resultan ser usadas de manera
ldica en el momento; cuando el supervisor llega solo 10 estudiantes estn usando
los equipos.
a) Modele este caso mediante una Distribucin Hipergeomtrica y anote sus
parmetros.
b) Calcule la probabilidad de que las maquinas sean decomisadas
c) Calcule la probabilidad de que solo dos maquinas se estn usando para trabajar
ii)
32
by Rueda, Jos A.
Distribucin Geomtrica
Dados un nmero dado de repeticiones de un Evento Bernoulli, cuya probabilidad de xito es p;
la Distribucin geomtrica cuenta el nmero de veces que ha de repetirse el evento Bernoulli
para obtener un solo xito. La notacin y la f.p. que describen a las principales distribuciones
discretas se resumen en el Cuadro 4.
Si ()entonces:
= 1,2
() =
d. o. f.
y su 2 =
Ejemplo:
i)
Don John sali hoy a la busca de patos para cazar. Su puntera no es muy buena, y
las ltimas veces ha tenido que disparar a diez patos para cazar apenas uno.
a) Modele este caso mediante una Distribucin Geomtrica y anote sus parmetros,
su f.p. y su F.D.
b) Cul es la media y la varianza para este caso en particular?
c) A cuntos patos debe disparar John si pretende volver a casa con un pato?
() , = 0,1,
0
. .
()
() =
, = ,1,2
. .
Distribucin Hipergeomtrica
Distribucin Geomtrica
()
Si (, , )
1
, = 1,2
() =
(
) (
)
()
, <& <
= 0,1,2
() =
d. o. f.
33
by Rueda, Jos A.
d. o. f.
M o d e l o s d e p r o b a b i l i d a d:
I I I. D i s t r i b u c i o n e s C o n t i n u a s M o d e l o s d e P rob a b i l i d a d C ua n t i t a t i v o s
Las distribuciones continuas ms comunes en el ejercicio de la inferencia estadstica han sido
modeladas en funcin a las necesidades en el anlisis de datos, y frecuentemente no describen
el comportamiento de una variable aleatoria natural (mediciones directas en campo), sino a
parmetros o a estimadores de los parmetros, obtenidos a partir de mediciones en una
muestra. Por lo que a estas distribuciones se les denomina Distribuciones derivadas del
muestreo.
Existe un sin nmero de distribuciones tericamente vlidas como funciones de densidad, ya que
la definicin matemtica agrupa a toda densidad o rea bajo una curva o recta cuya integral
en todo su rango sea exactamente igual a 1.0 (vea Propiedad 1 de la f. d.); como es el caso de
la funcin:
() =
2
2
cualquier intervalo vlido han sido descritas al final del captulo de funciones, sirva ese caso
como un ejemplo anticipado. Antes de adentrarnos en las distribuciones derivadas del muestreo,
analizaremos un ejemplo ms sobre una distribucin continua clsica.
Distribucin Uniforme Continua
Cuando una variable aleatoria es equi-probable para cualquier par de intervalos (a 1, b1) & (a2,
b2) de anchura idntica; su fX(x) es una lnea de altura igual a fX(x) que parte de 1 y termina en
1 . SI X
(1 ,
1 < < 2
() =
d. o. f.
2 1
1 +2
2
( 2 1 )2
; su varianza =
12
; y para
1
.
2 1
34
by Rueda, Jos A.
modelo probabilstico. Inicialmente fue descrita por Karl Gauss (1777-855), por lo que es llamada
tambin la Campana de Gauss, o distribucin normal de errores. Su funcin de densidad es:
()
2
, < <
() =
d. o. f.
normal estndar representa una curva normal con media CERO y varianza UNO. Toda variable X
con distribucin normal es susceptible de transformarse en Z para facilitar el clculo de
probabilidades; despus de lo cual, es factible retransformar a las unidades originales.
1
2
()
< <
,
d.o.f.
Por no representar Z una variable natural tomada del mundo real, se dice que es una distribucin
derivada del muestreo. La curva Z conserva todas las propiedades que la distribucin normal tiene;
adicionalmente, facilita el clculo de probabilidades.
35
by Rueda, Jos A.
Distribucin normal
Distribucin ji-cuadrada
(, 2 )
(0,1)
2 = 12 + 12 + + 2
Transformacin de X cuando
para facilitar el clculo de
probabilidades
Distribucin F de Fisher
Distribucin t de Student
()
Transformacin de la curva
normal estndar para analizar
datos procedentes de
muestras pequeas
36
by Rueda, Jos A.
Pr u e b as de h i p t e si s
37
by Rueda, Jos A.
complemento de Ha ([H0] = [Ha]C); es decir, todo evento no considerado por la [H0], estar
contemplado en [Ha]. e.g.
[H0]
[Ha] Correcta
[Ha] Incorrecta
La luna es de queso
A lo mucho es medio da
Ya pasa de medio da
Es la una de la tarde
La varianza es menor a 5
(2<5)
Tipos de error: Dada una hiptesis nula y la necesidad de rechazarla como un objetivo en los ms
de los casos, y dada tambin la imposibilidad de verificar la certeza de la hiptesis con seguridad
tendremos los siguientes casos:
Decisin tomada
Rechazar
Condicin
desconocida
Hiptesis verdadera
Hiptesis falsa
No rechazar
()
(d) Error tipo II
El caso a) consiste en rechazar una hiptesis nula que en realidad es verdadera, la probabilidad
de cometer el error tipo I se denota por ( =PETI) y se est siempre en riesgo de cometer un ETI,
dada la imposibilidad de conocer la veracidad de la hiptesis y dado tambin la imposibilidad de
manipular la decisin (ya que se toma con base a una regla- Regla de Decisin-).
El caso d) corresponde a no rechazar una hiptesis nula que en realidad es falsa, la probabilidad
de cometer el error tipo II se denota por (= PETII); pese a la idntica importancia semntica de
ambos conceptos, es el ETI el que se usa ms en la toma de decisiones.
Los casos b) & c) no representan un error, rechazar una mentira (b) no rechazar una verdad
(d), suenan a simple vista como una decisin acertada. Existe un ETIII, el cual consiste en
desarrollar un anlisis incorrecto, basndose en datos errneos; definmoslo as: el ETIII consiste
en no verificar los supuestos bsicos de un anlisis antes de ejecutarlo.
by Rueda, Jos A.
39
by Rueda, Jos A.
Pr u e b as de h i p t e si s
I I . P r ueba s d e h ip tes is s o bre la m ed ia d e u na d is tri buc i n no rm a l
Al realizar una prueba de hiptesis sobre la media de una distribucin normal, se pueden dar tres
casos de inters prctico: a) el investigador est interesado en demostrar que la media poblacional
() es menor a cierta constante ( ), por lo que esta ser Ha y la prueba ser de cola izquierda; b) el
investigador desea comprobar que la media poblacional () supera a un valor dado ( ), dando lugar a una
prueba de cola derecha; c) el investigador desea probar que la media es igual al valor de referencia, lo que
significar una hiptesis que descarta la mitad de en cada lado de la distribucin. A continuacin se
detallan los tres casos en una prueba de hiptesis de este tipo:
Caso
a)
b)
c)
Cola
Izquierda
Derecha
Dos colas
Hiptesis
Hiptesis
Regla de decisin
Regla de decisin
nula
alterna
n<30 2estimada
n>30 2conocida
H0: 0
H0: 0
H0: = 0
Ha: <
Ha: >
Ha:
Rechazar H0 si < - ,
Rechazar H0 si > , 1
Rechazar H0 si | | > ,1
2
Rechazar H0 si <
Rechazar H0 si > 1
by Rueda, Jos A.
( )
( )
La regla de decisin parte el espacio muestral en dos zonas (en la curva de la funcin de densidad
t Z) que representan dos eventos mutuamente excluyentes. Donde t ( Z) de tablas es el punto
de divisin de estas reas, el rea ms pequea aislada en la cola (o colas) es el valor de ; el
rea ms grande corresponde a (1-), a la cual se denomina precisin la prueba.
(i)
(ii)
Ejemplos:
Si la calificacin de una prueba psicomtrica es de 1000 y la S es de 100 en una muestra de
tamao 16, es el parmetro realmente mayor a 980?
Si en el ejemplo anterior damos por sentado que =100, ser el parmetro menor a 1050?
Respuestas (i)&(ii)
(i)
= 1000 S =100 & n= 16 ; 0 = 980 Ha: Es > 980?
[)] Muestra pequea varianza desconocida (t). Cola derecha
a) H0: 980
Ha: > 980
b) =
( )
16 (1000980)
100
= 0.8
c) , 1 = 0.05, 15 = 1.7531
d) Rechazar H0 si > , 1
Rechazar H0 si > 0.05, 15
Rechazar H0 si 0.8 > 1.7531
( )
16 (10001050)
100
= 2.0
c) = 0.05 = 1.65
d) Rechazar H0 si <
Rechazar H0 si <0.05
Rechazar H0 si 2.0 <1.65
41
by Rueda, Jos A.
e) SI se rechaza H0 con =0.05.
La media poblacional de la calificacin de los sustentantes
de esta prueba psicomtrica es inferior a 1050 puntos
(P<0.05)
(iii)
Pr u e b as de h i p t e si s
I I I . P r ueba s d e H ip tes is s o bre la d ife renc ia ent re d o s m ed ia s ( ) c o n
d is t rib uc i n no rma l:
; entonces se pueden dar cualquiera de los tres casos
Sea = & =
descritos en seguida:
Caso
a)
b)
c)
Cola
Izquierda
Derecha
Dos colas
Hiptesis
Hiptesis
Regla de decisin
nula
alterna
Varianzas homogneas y
estimadas (t)
Varianzas heterogneas
y conocidas (Z)
Ho: 0
Ha: <
Rechazar H0 si < ,
Ho: 0
Ha: >
Ho: = 0
Ha:
Rechazar H0 si > ,
Rechazar H0 si <
Rechazar H0 si > 1
Rechazar H0 si | | > ,
2
Regla de decisin
+2
+2
+2
El caso ms importante es aquel donde = 0 y la hiptesis es el caso c), ya que implica que los
parmetros 1 & 2 son iguales. Puede verificarse que los tres casos aqu planteados son
equivalentes a los presentados para el caso de las pruebas de hiptesis sobre una sola media
(tema anterior) y que son basados de hecho en t y Z tambin. Las nicas dos diferencias residen
en que el valor calculado refleja la diferencia entre dos medias y el valor de tablas se consulta con
n+m-2 grados de libertad. Cuando el valor de a usar no sea especificado en el requerimiento de
una prueba deber de usarse regular e indistintamente un =0.05.
Varianzas homogneas y
estimada (t)
Valor
calculado
Varianzas heterogneas
y conocidas s (Z)
(1 2 ) 0
2 (1 + 1 )
42
2 =
by Rueda, Jos A.
12 (
22 (
1) +
1)
+2
(1 2 ) 0
(
12 22
+ )
La regla de decisin separa la funcin de densidad de Z o t en dos reas (bajo la curva) es funcin
al valor de tabas (Z t ). En el caso de las pruebas de una sola cola, el valor del rea ms
pequea (PET I ) est aislado en uno de los extremos en la grfica de la funcin de densidad. En
las pruebas de dos colas, el valor de est dividido en dos pequeas reas en los extremos de la
funcin de densidad. Los valores de Z ( t) que se ubican bajo el rea que representa
comprende un segmento de recta que se conoce como zona de rechazo de H0; los valores que
estn fuera de esta zona comprenden la zona de NO rechazo de H0.
Ejemplos:
(i)
(ii)
En una empresa ensambladora de circuitos plug in para nodos de red, se midi el nmero
de unidades que se ensamblaban por da bajo A un esquema de descansos de 5 min c/h o&
B 15 min c/2 h. Obteniendo los sig. datos: A: 1735, 2002, 1820, 2082, 1894, 2873, 1816,
2008, 1758, 1898, 2223, 2313 & B: 3403, 3294, 2899, 3350, 3212, 2964,3098, 2984, 2492.
Son las medias poblacionales resultados diferentes? qu mtodo recomendara?
El empresario del caso (i) ha estimado que de acuerdo con la energa requerida para
encender la maquinaria cada dos horas solo ser rentable establecer el esquema de
descansos largos si la diferencia entre los mtodos de descanso rebasa 700 unidades (es
mayor qu). puede usted ayudar a tomar esta decisin?
Respuestas (i)&(ii)
(i)
1 = 2035.2 12 =101678.5 & n = 12,
2 = 3077.3 22 =80235.8 & m = 9,
Es 2 1?
= - 1 0 4 2 . 1
0 = & =
[)] Varianzas homogneas y estimadas (t) n & m pequeos. Dos colas
a) H0: = 0
H a: 0
b) =
2 =
c)
,
2
( 1 2)0
1 1
2 ( + )
1042.10
1 1
12 9
92650( + )
12 (1)+22 (1)
+2
+2
= 0.025,
19
= -7.7641
101678.5(11)+80235.8(8)
12+92
= 92650
= 2.0930
d) Rechazar H0 s| | > ,
2
+2
43
by Rueda, Jos A.
Rechazar H0 s | | > 0.025,19
Rechazar H0 s |-7.7641| >2.0930
(Se rechaza por la izquierda)
= 1 0 4 2 . 1
0 =
& =
2 =
1 1
2( + )
1042.1700
1 1
12 9
92650( + )
12(1)+22(1)
+2
= 2.5487
101678.5(11)+80235.8(8)
19
= 92650
= 1 0 4 2 . 1 ;
Note que en la frmula de t se ha sustituido el valor (1 2 ) por =
i n d i c n d o l e q u e l a p r u e b a d e h i p te s i s e s to ta l m e n te d i f e r e n te s i s e p eg u n ta
p o r l a d i f e r e n ci a 2 - 1 que si se pregunta por a diferencia 2 - 1
c)
+2
= 0.05,
19
= 1.7291
d) Rechazar H0 s > , +2
Rechazar H0 s > 0.05, 19
Rechazar H0 s 2 .5487 > 1.7291
(iii)
by Rueda, Jos A.
P r u e b as de h i p t e si s
I V. P rue ba s d e H ip tes is s o bre la v a ria nz a d e una d is tr ibuc i n no rm a l
En situaciones donde es primordial que las medias de ciertas mediciones sean lo ms precisas posibles, es
necesario hacer pruebas para comprobar que la varianza no rebase ciertos lmites. Para ello, las condiciones
generales que aplican a una prueba de hiptesis son iguales a las ya revisadas en los temas II y III de Pruebas
de hiptesis. No obstante, el modelo probabilstico que se ajusta a la distribucin de la varianza es ji
cuadrada.
Caso
Cola
Hiptesis nula
Hiptesis alterna
Regla de decisin
a)
b)
c)
Izquierda
Derecha
Dos colas
H0: 0
H0: 0
Ho:: = 0
Ha: < 0
Ha: > 0
Ha: : 0
2
Rechazar H0 s
< 21, 1
2
Rechazar H0 s
> 2, 1
2
Rechazar H0 s < 2(1), 1
2
S
> 2(),
2
( 1) 2
02
Ejercicios:
Resuelva
(i)
El llenado de las bolsas de alimentos a granel presenta un reto importante cuando el
9llenado y sellado de las bolsas se hace mecnicamente; es posible encontrar desde
987 hasta 1019 g en las bolsas de 1 kg de una muestra tomada al azar durante una
hora de funcionamiento de la empacadora; el supervisor ha decidido detener la
produccin y ajustar las maquinas si la varianza es mayor a 49. Si se tomo una muestra
de 37 productos al azar se obtuvo una varianza de 56, Qu decidir el supervisor?.
(ii)
Con las condiciones mencionadas en (i) podr declararse que la desviacin estndar
es diferente de 6.4 g?
(iii)
El proceso usado para pulir discos de silicio a fin de que su grosor sea el apropiado es
aceptable solo si su desviacin no supera 0.005 pulg. En una muestra de 15 discos se
45
by Rueda, Jos A.
In t e r val os de C on fi an za
I.
Est i maci n
Estimacin puntual:
Cada vez que estamos en inters de describir un fenmeno a travs de sus variables aleatorias
relacionadas; deseamos en primer lugar estimar sus parmetros. Al clculo de una media muestral
( ) con el fin de tener una aproximacin de la media poblacional () se le llama estimacin
puntual, de igual manera ser una estimacin puntual cualquier dato que sea obtenido
directamente a partir de una lista de datos y su resultado sea una constante simple (s, b0, rxy, etc.).
No obstante, la idea principal es representar al parmetro poblacional con base en la muestra; y
son los parmetros los que regularmente sern el motivo de nuestras conclusiones.
Estimacin por intervalo:
Dada la intrnseca variacin de todo fenmeno, de toda variable y de toda estimacin en una
muestra (esta variacin es el motivo de esta ciencia que nos ocupa) un estimador resulta ser poco
creble o confiable a nivel cientfico. En la prctica es comn usar los estimadores como semilla
para calcular un intervalo, en el cual podra localizarse el parmetro que este estima; asociando
adems a tal intervalo un grado de precisin [precisin =1 ] o confianza [confianza = 100*(1
46
by Rueda, Jos A.
)]. A estos intervalos se les llama intervalos de confianza y constituyen una segunda forma de
estimacin (adems de la estimacin puntual, e. g. ), llamada estimacin por intervalo.
En la estimacin puntual se obtiene una constante cuya esperanza es el parmetro que se estima
[E( )=]. En la estimacin por intervalo se acepta el hecho de que el estimador es impreciso y por
ello se le afirma que la media poblacional se encuentra entre dos valores dados (L < < ),
equidistantes de ; asignando adems una probabilidad a tal afirmacin. De tal manera que se
acepta que aun cuando tenemos un intervalo de valores en los que posiblemente se localice el
parmetro, de alguna manera estamos tambin afirmando que el parmetro no estar contenido
entre esos valores en el 100(1-)% de los casos.
= , e n to n ce s = ,
2
(+2)
( + )
= ( 1 +
2
22
) , segn la
naturaleza de las variables implcitas. Para el primer caso de este prrafo, hablamos usamos como
semilla () al estimador y para el segundo caso al estimador (1 2 ) .
O bien, usando una notacin familiar para nosotros P (L < < ) = 1 , donde L =
y = + . Se pueden plantear intervalos de confianza para con base en , intervalos de
confianza para
1 2 con base en 1 2 , para 2 con base en s2, o para
12
22
con base en
12
22
by Rueda, Jos A.
dos varianzas, contiene al valor 1.0; entonces la hiptesis nula de igualdad entre estas dos
varianzas no se rechazar con un =0. 05. En general, un intervalo de confianza tiene una estrecha
relacin con una prueba de hiptesis de dos colas que use la misma PETI.
Por otro lado, el lmite superior de un intervalo de confianza podra equipararse con l punto que
divide la zona de no rechazo - a la izquierda - de la zona de rechazo - a la derecha - en una prueba
de hiptesis de con la derecha con una PETI igual a la mitad del usado en el intervalo. Sin
embargo, este lmite conserva las unidades originales de la variable aleatoria en el intervalo de
confianza, pero el valor de tablas (t, Z, 2 F) es el mismo (en el IC respecto a la PH de cola
derecha) cuando se cumplen las condiciones mencionadas arriba.
II.
In t e r val os de C on f i an za
S
n
S
n
)) = 1
III .
) < < + (
2
)) = 1
In t e r val os de C on fi an za
48
by Rueda, Jos A.
((1 2 ) ,
(+2)
2 ( + ) < 1 2 < (1 2 ) + ,
((2 1 ) ,
(+2)
2 ( + ) < 2 1 < ( 2 1 ) + ,
2 ( + ) ) = 1
(+2)
2 ( + ) ) = 1
(+2)
Varianzas heterogneas
2 2
2 2
((1 2 ) ( 1 + 2 ) < 1 2 < (1 2 ) + ( 1 + 2 ) ) = 1
2
2
2 2
2 2
(( 2 1 ) ( 1 + 2 ) < 2 1 < (2 1 ) + ( 1 + 2 ) ) = 1
2
2
IV.
In t e r val os de C on fi an za
by Rueda, Jos A.
In t e r val os de C on fi an za
V.
12
22
de
22
12
1, o bien
12
22
expresiones totalmente diferentes, dado que las unidades en las que expresa el resultado toman
al divisor (e.g. 12 , para la primera expresin) como el total. Si la varianza dos es mayor
22
12
>1
& 21 < 1 ; el resultado del primer caso toma como 100% a 12 y el segundo toma a 22 como el
2
100%. En este sentido la prueba sufre una ligera modificacin en funcin de la unidad de
referencia (denominador en el cociente). Que dos varianzas sean homogneas iguales no implica
50
by Rueda, Jos A.
que sean idnticas, sino similares. Dado que ya se ha explicado cmo funcionan las tablas F, aqu
solo se presentan las frmulas para el clculo del intervalo de confianza.
22
1
22
22
1
( 1 ) < 2 < 2 (1
, )) = 1
12 1
2
,
1
1
2
12
1
12
12
(
)
<
<
( 1 )) = 1
1
22 1
22
22 1 , 2
,
2
Si un intervalo de confianza para la razn de dos varianzas, contiene entre sus lmites el valor 1.0,
entonces puede concluirse que las dos varianzas usadas en este cociente son homogneas entre
s. Si el intervalo de confianza no contiene el valor 1.0, entonces se declara que las varianzas son
heterogneas.
Esta prueba funciona como una prueba de homogeneidad de varianzas y debera realizarse cada
vez que se pretenda hacer una prueba de hiptesis o un intervalo de confianza para la diferencia
de medias de dos muestras con distribucin normal. Si las varianzas resultan homogneas
entonces los mencionados casos deberan evaluarse mediante la distribucin t de Student; si por
el contrario, resultan heterogneas, entonces deber usarse la distribucin Z como modelo.
51
by Rueda, Jos A.
carrera ya haba terminado e iba a recoger a McQueen para resguardarlo. Sin embargo Mac result ser el ganador de
acuerdo con el reglamento. El enorme cuerpo del triler haba sido lo nico que logro tomar la foto ya que todos los
competidores fueron obstruidos por el trailer. En efecto, para que la carrera sea justa: todos los autos competidores
deberan tener dimensiones similares.
52