Vous êtes sur la page 1sur 52

Statistics for human beings

by Rueda, Jos A.

Recomendacin:

Dirjase a los cuadros que concentran las frmulas y a las figuras


Dirjase despus a las tres fbulas
Valla finalmente al tema de su inters le parecer simple y puede aplicarlo
sistemticamente sin mayor conocimiento previo

Favor de no compartir el documento electrnico completo con estudiantes ni


colegas, es un material original y escrito letra a letra por un servidor,
evitemos plagios.

Statistics for human beings An Introduction

La estadstica es la herramienta esencial de la experimentacin y esta ltima a su vez es el


paso crucial del mtodo cientfico. El hombre desea tener el control de los fenmenos que le
afectan y suea con que tal control le permita predecir el futuro comportamiento de tales
fenmenos. El deseo por el control y el sueo de la prediccin son el principio de esta historia. No
obstante, no hay control ni prediccin si no hay antes un anlisis de informacin dura en direccin
al conocimiento profundo de los hechos.
Para definir que es Estadstica, un buen punto de partida es aclarar lo que no es
Estadstica. Los nmeros e, i & estn definidos en matemticas como constantes y su valor no
cambia aunque sean estimados en un sinfn de ocasiones. Ahora bien, s se toma una medicin de
altura de varios individuos similares en general, se espera que cada medicin conduzca a un
nmero diferente en la recta real (i. e. : 1.01 y 1.001 para dos de ellos). El que el nmero sea
diferente implica que la altura de la poblacin de la que se eligen estos individuos es una variable,
o bien, es una variable aleatoria. El concepto de variable aleatoria es uno de los pilares principales
en la definicin de estadstica; la estadstica no tiene aplicacin en fenmenos donde no exista
variabilidad o varianza en las mediciones de una caracterstica dada. Elegantemente, se dice que
cuando se trabaja con constantes se trata de fenmenos o modelos determinsticos y que cuando
se trabaja con variables se trata de o procesos estocsticos (con variacin o aleatorios). Dicho lo
anterior, se puede aventurar una primera definicin: la Estadstica es el estudio de los procesos
estocsticos. Retomemos el significado de una medicin como la asignacin de un nmero real
nico a una observacin de carcter cuantitativo o continuo, o bien el registro de un dato unitario
que describe un fenmeno. En la prctica las mediciones son comnmente registradas en
1

Statistics for human beings

by Rueda, Jos A.

unidades tales como g, m, L, C, s y sus derivados y se distinguen de un dato de tipo cualitativo en


que sus unidades admiten el uso de decimales sin perder sentido lgico.
La varianza es entonces el concepto fundamental de la estadstica. Y con el concepto de,
varianza viene implcita otra definicin, la de rplica o repeticin. La razn de esta estrecha
relacin entre la varianza y la repeticin de las mediciones se debe a que la presencia de variacin
se puede solo detectar si la medicin se toma ms de una vez. Y en efecto, no se toman
mediciones con fines de anlisis estadstico con un nmero de rplicas menor a tres. As, si se
pierde uno de esos datos las dos repeticiones restantes siguen siendo rplicas una de la otra. Un
segundo aspecto de la repeticin en una medicin, es que si bien los datos deben ser valores
diferentes para cumplir con el requisito de representar una variable aleatoria, la distancia entre
ellos en la recta real no debe ser grande, dado que representan a un mismo valor medido dos
veces. Empricamente es fcil inferir que la confianza que una persona tiene sobre un hecho se
debe a que este ha ocurrido ms de una vez y que el resultado no ha sido muy diferente entre
tales veces. Si adems de entender el fenmeno a partir de una o ms variables que lo definen y
construir una confianza emprica, se anotan los datos y se procesan mediante procedimientos
estandarizados, se construye entonces conocimiento cientfico. Aqu podemos darle una segunda
definicin a la Estadstica, es la ciencia creadora por excelencia de conocimiento cientfico a partir
de conocimiento emprico.
El objetivo del tratamiento estadstico de datos es entonces conocer la varianza a partir
de mediciones replicadas, y la media no es sino un recurso para conocer la varianza. Cuanto mayor
sea la varianza de una variable, ms sensible ser de modificar el fenmeno a partir de cambios en
los factores que provocan tal varianza. Cada uno de estos factores ser responsable de una
fraccin de la varianza total observada y por tanto la varianza ser la suma de tales fracciones.
Cada uno de los mencionados factores son variables tambin y la relacin entre los cambios en
uno de esos factores y los cambios en la variable de inters, es una funcin que puede graficarse
en el plano como causa-efecto. Si la recta real se concibe como un lugar fsico y se anota un punto
en la posicin que corresponde a cada una de las mediciones, entonces la varianza indica la
distribucin de la mancha de puntos sobre la recta real (tamao de la mancha de datos). Si solo
dos factores son responsables de tal mancha, una fraccin de esa mancha es debida a un factor y
otra fraccin al segundo.

Conceptos base
Quien se enfrenta por primera vez a la Estadstica, es bombardeado con una pila de nmeros
que regularmente no tienen conexin con nada hasta antes conocido en su entorno; acto
seguido se le gua hacia el anlisis de esa lista de datos. El tiempo consumido en el anlisis no
permite al estudiante abundar sobre el objetivo o las implicaciones de su ejecucin. Por tanto,
el aprendiz puede confundirse fcilmente respecto al alcance, delimitacin y objeto de la
Estadstica como ciencia. En el campo de la investigacin, la toma de datos es una necesidad

Statistics for human beings

by Rueda, Jos A.

comn y recurrente. Los datos se acumulan en grandes cantidades, y en efecto, despus de


tomarlos deben ser analizados con tal de obtener, a partir de estos, informacin sustancial con
aplicacin prctica.
La Estadstica es en principio una serie de tcnicas que aplicadas al conocimiento emprico, lo
convierten en conocimiento cientfico. Dicho de otra forma, es un conjunto de herramientas
para el anlisis de datos generados en la experimentacin y su conocimiento y aplicacin se
limitan a dos grandes reas. La primera de ellas es la estimacin de parmetros
poblacionales (i.e.: , 2) a partir de estimadores muestrales (equivalentemente:
sea de forma puntual

s2), ya

n
i=1
xi/ n) o mediante intervalos de confianza (P[L < <L ] = [1-]),

donde el lado derecho es la precisin) para los parmetros que representan tales los
estimadores. El segundo campo de accin de la Estadstica son las pruebas de hiptesis
sobre los parmetros; es decir, se evala la posibilidad de que estos parmetros puedan ser
superiores o inferiores a un valor de referencia; o bien, se comparan dos o ms estimaciones
en muestras similares

Vs

2,

etc.) respecto a su igualdad o diferencia. Las pruebas de

hiptesis y los intervalos de confianza siempre se refieren a los parmetros poblacionales,


pese a que se usen los estimadores en el proceso.
Al calcular valores como una media aritmtica ( ) o la varianza musetral (s2), ello implica que
se ha (i) tomado una muestra de individuos de alguna poblacin de inters, (ii) que en dicha
muestra se ha medido una variable que el investigador considera til y que al medir tal
variable un numero dado de veces (iii) se ha generado una lista de datos a partir de la cual
es posible calcular tanto la media y la varianza como otros estimadores. La media obtenida de
tales datos (

representa solo una estimacin de la media verdadera en la poblacin ( ) de

la que la muestra fue extrada (al igual que s2 estima 2). A los valores poblacionales se les
conoce como parmetros y a los valores calculados en la muestra como estimadores.
La Estadstica es usada para medir la variacin y para tratar de manipularla o modificarla a
nuestro favor, por lo que el concepto de variable es de hecho el punto de partida. Una
variable aleatoria, se genera cuando en el inters por comprender o manipular un fenmeno,
se mide una caracterstica de forma repetitiva en varios individuos u objetos (unidades
experimentales). Si la variable es en efecto una medicin (g, m, L, s, kg/cm-2, C, etc.) esta
ser una variable cuantitativa y cada dato ser un valor en la recta real; frecuentemente la
distribucin se adaptar a la curva normal. Si la variable es una caracterstica distintiva
(verde, vivo, muerto, liso), se tratar de una variable cualitativa y su rango ser un valor en
el conjunto de los nmeros naturales; no tenemos aqu una medicin sino un conteo. Existen
un sinfn de factores afectando a cualquier variable que deseemos estimar; estos factores (que
son tambin variables) son los responsables de que exista la variacin cuando se toman varios
datos de la variable, en condiciones similares. Las condiciones para aplicar las tcnicas de la
Estadstica estn perfectamente definidas: los datos deben provenir de una muestra aleatoria
de individuos (tomada al azar) de la poblacin sobre la cual se pretende inferir; la

Statistics for human beings

by Rueda, Jos A.

caracterstica que nos interese medir debe presentar variacin entre y/o dentro de los grupos
en los que se lleven a cabo las mediciones; y los factores que afectan a la variable que nos
interesa deben conocerse y se debe estar en la posibilidad de manipular su magnitud. Las
estimaciones de parmetros o pruebas de hiptesis que se realicen en base a los datos,
tomados en una muestra aleatoria, deben dirigirse a la obtencin de algn beneficio prctico,
ya sea econmico o productivo.
Una poblacin es el conjunto de todos los elementos o individuos en los que se est
interesado en inferir al conducir un experimento. Un individuo u objeto de medicin es cada
uno de los elementos que componen la poblacin y son susceptibles de ser seleccionados en la
muestra; si se ejecuta una medicin en un individuo en particular en la muestra, tal individuo
funge como unidad experimental. Una muestra representativa es un conjunto de individuos o
elementos que conserva las caractersticas propias de la poblacin. El nmero de individuos
en una muestra es menor que el nmero de individuos en la poblacin. El muestreo es la
forma en que se seleccionan aquellos individuos en los que se har el experimento; es decir,
es la obtencin de una muestra representativa de la poblacin. Un dato es cada uno de los
valores que se han obtenido al realizar una medicin unitaria en un individuo o elemento de la
muestra.
2

b1 en una muestra de individuos (en base a las

mediciones de la variable en esos individuos); lo que se obtiene es una estimacin de esos


valores en la poblacin; a tal aproximacin se le llama estimador o estadstico. Sin
embargo, los valores reales que representan a la poblacin se denominan parmetros, y pese
que los llamamos tambin media (), varianza (2) o coeficiente de Regresin (1), su
significado es diferente. Los parmetros, son valores nicos que solo pueden ser aproximados
(no podemos conocer su magnitud real) mediante los estadsticos obtenidos en una muestra y
por tanto no son estimables directamente. Por ejemplo la (media poblacional) es estimada
(media de la variable en los individuos de la muestra); no obstante,
la media muestral no es una representacin fiel de la media poblacional, sino una
aproximacin a esta.

Statistics for human beings

by Rueda, Jos A.

C l c u l o d e m ed i d as d es c r i p t i v a s
Medidas de tendencia central

Dnde est?

A lo largo de toda la recta real, al menos tericamente, todos los valores son igualmente
probables como mediciones de una variable aleatoria continua en particular; por ello cada vez
que se pretende describir una variable la pregunta natural inicial sera Dnde est?. Las
medidas de tendencia central conducen a un punto especfico de la recta real y dan una idea
precisa de la localizacin fsica de la variable en la recta, situacin por la que tambin son
llamadas medidas de localizacin. Cada uno de los datos

puede dar una idea parcial de la

localizacin de la nube de datos, pero son las estimaciones de tendencia central (la media, la
mediana y la moda) las que nos dicen en concreto a que parte de la recta real ir para
encontrar nuestra variable para representar la nube de datos grficamente. Para el clculo
de medidas de tendencia central aplique las frmulas anotadas en el Cuadro 2.
La media es la medida ms precisa para localizar una variable aleatoria, significa el centro
geomtrico y aritmtico de una distribucin de datos y por tanto la distancia desde cualquier
dato hasta la media es en promedio menor respecto a la distancia entre los datos y cualquier
otro punto localizado sobre a recta real. La mediana es meramente la posicin central de los
datos cuando se ordenan ascendentemente, en este sentido no est ligada a la magnitud de
los datos. La moda solo es aquel valor que circunstancialmente se ha repetido en la toma de
datos un mayor nmero de veces. Si se tiene una distribucin simtrica de los datos
respecto a su media, las tres medidas de tendencia central coinciden, sealando al mismo
punto como la localizacin de la distribucin de la variable en la recta real.
Las medidas de tendencia central no dan ninguna informacin respecto a la dispersin, es
decir, sobre la distancia entre el centro de localizacin respecto a cada uno de los datos. Dada
la localizacin de una serie de datos, la variable no se encontrar totalmente definida sino
hasta que se especifique la cercana o lejana (dispersin) que los datos respecto a la posicin
definida como su localizacin (Fbula al final de este apartado).
Medidas de dispersin De qu tamao es?
Una vez ubicado el punto en que nuestra variable aleatoria se localiza en la recta real, ser
necesario, para completar la definicin de la misma: especificar el espacio fsico que ocupa.
Esta es una metfora, pero en la grfica de una funcin, es un hecho muy concreto. Adems
del espacio ocupado, debe especificarse su densidad; es decir, la frecuencia o concentracin
de datos a diferentes distancias alrededor de su media aritmtica. Las mencionadas
condiciones refieren a la dispersin de los datos. Las medidas de dispersin explican que tan

Statistics for human beings

by Rueda, Jos A.

separados o disgregados estn los datos respecto a su media, implican la localizacin ya no


del centro de la mancha o nube de datos, si no la localizacin de la mancha en general.
Datos originales o completos. Todo a la vez
El rango es la diferencia entre los valores mximo y mnimo de una serie de datos en la
distribucin de una variable aleatoria, pero los valores extremos o outliers lo modifican
afectando su interpretacin. La desviacin media es el promedio de las diferencias entre
cada uno de los valores de la variable aleatoria y la media. La varianza es la media
aritmtica del cuadrado de las desviaciones de la media respecto a cada uno de los datos (el
divisor es n-1 para la varianza muestral), su interpretacin directa no es posible dado que su
unidad es la unidad original de la variable elevada al cuadrado. La desviacin estndar es la
raz cuadrada de la de la varianza y geomtricamente equivale a la distancia horizontal entre
la media y el punto de inflexin de curva normal en la campana de Gauss, su interpretacin
se facilita dado que. Para calcular las medidas de dispersin aplique las frmulas presentadas
en el Cuadro 2.
Propiedades de la varianza: 1. La varianza ser siempre un valor positivo o cero,

el cero

implica que los datos son idnticos. 2. Si a todos los valores de la variable se les suma una
constante la varianza no cambia. 3. Si todos los valores de la variable se multiplican por una
constante la varianza queda multiplicada por el cuadrado de dicho valor. 4. Si se tienen varias
distribuciones con la misma media y varianza conocida se puede calcular la varianza conjunta.
Observaciones: 1. La varianza, al igual que la media, es un ndice muy sensible a las datos
extremos; es decir, lejanos a la media. 2. En los casos que no se pueda hallar la media
tampoco ser posible hallar la varianza. 3 La varianza no est expresada en las mismas
unidades que los datos, ya que las desviaciones estn elevadas al cuadrado.
Propiedades de la desviacin estndar: 1. La desviacin estndar ser siempre un valor positivo
o cero, cero implicar que los datos son idnticos. 2. Si a cada dato se les suma la misma
constante, la desviacin estndar no se modifica. 3. Si todos los valores de la variable se
multiplican por una constante la desviacin estndar queda multiplicada por dicho valor. 4. Si
tenemos varias distribuciones con la misma media y conocemos sus respectivas desviaciones
estndar se puede calcular la desviacin compartida o error estndar de su media compartida.
Observaciones: 1. La desviacin estndar, al igual que la media y la varianza, es un ndice muy
sensible a las puntuaciones extremas u outliers. 2. En los casos que no se pueda hallar la media
tampoco ser posible hallar la desviacin estndar, ya que esta es necesaria para su clculo. 3.
Entre ms pequea sea la desviacin estndar mayor ser la concentracin de datos alrededor
de la media y viceversa.
Datos agrupados Clasificando para visualizar rpidamente
Dado el volumen de informacin que puede acumularse al tomar mediciones de variables
aleatorias en la prctica, es comn que los datos se clasifiquen o agrupen para poderlos

Statistics for human beings

by Rueda, Jos A.

manipular e interpretar ms rpido La tcnica ms frecuente de agrupacin son las tablas de


frecuencia. En una tabla de frecuencia los datos se clasifican en intervalos de longitud idntica,
podemos auxiliarnos de corchetes y parntesis para definir los lmites de un intervalo (Cuadro
1).

Cuadro 1. Lmites de un intervalo definido sobre la recta real


Intervalo

Simblicamente

Cerrado

[5,10]

De 5 hasta 10

Abierto

(5,10)

De 5.00001 hasta 9.999

(5,10]

De 5.00001 hasta 10

[5,10)

De 5 hasta 9.999

Mixto

Una tabla de frecuencia

En la recta real

Interpretacin

se construye agrupando los n datos en k intervalos o clases de

anchura A idntica; cada una de estas k clases abarca todos los datos que sean estrictamente
mayores a su lmite inferior Li y menores o iguales a su lmite superior i (intervalo abierto por la
izquierda y cerrado por la derecha). Las tablas de frecuencia se construyen usando un lmite
inferior de la primera clase (L1), un ancho de clase (A) y un nmero de intervalos (k) totalmente
arbitrarios a conveniencia. La tabla de frecuencias contiene las siguientes columnas: 1. Los
lmites de clase i & L

i.

2. El valor central de clase vi o valor medio, que no es ms que el

promedio de los limites superior e inferior en cada clase. 3. La frecuencia absoluta fi de datos
que pertenecen a cada clase (conteo simple). 3. La frecuencia relativa pi de cada intervalo, es
decir, fi/n. 4. Puede agregarse la frecuencia absoluta acumulada Fi y 5. La frecuencia relativa
acumulada Pi. Note que se usa una f para denotar la frecuencia absoluta y una p para denotar
frecuencia relativa; si estas letras aparecen en maysculas (F P), implicarn frecuencias
acumuladas hasta la clase i en la que aparezcan.
Una vez clasificados los datos, es posible calcular las medidas descriptivas haciendo
operaciones con 5 a 20 clases o intervalos; lo que ser ms rpido en comparacin con hacer lo
mismo usando cientos de datos existentes antes de construir la tabla de frecuencia. El clculo de
medidas es muy simple y se restringe a la aplicacin de una frmula para cada medida
descriptiva (Cuadro 2). La clase de la mediana ser aquella para la cual la frecuencia relativa
acumulada hasta esta clase supere o iguale 0.5 (Pi 0.5).
Con fines de enseanza, es comn que se analicen todas las medidas descriptivas de una
serie de datos usndolos todos a la vez, y posteriormente se construya una tabla de frecuencias
en donde se vuelvan a calcular todas las medidas que ya fueron calculadas con los datos
completos (duplicidad de anlisis). Esta situacin puede llevar a dos confusiones: 1. El aprendiz
usa un estimador calculado en los datos (e.g.

) para usarlo en el clculo de otro estimador en

Statistics for human beings

by Rueda, Jos A.

la tabla de frecuencia (e.g. S2); lo cual es obviamente errneo. 2. El estudiante no infiere que en
la prctica si se usa una tabla de frecuencias los datos originales ya no se usan; y dado el
estrecho tamao de muestra que se usa como ejemplo en el aula, en la prctica no sera
necesario hacer una tabla de frecuencia para tal nmero de datos (e.g. menor a 40). Aclaremos
una vez ms entonces que no debe usarse ningn dato calculado en los datos originales como
base para estimar otra medida descriptiva en tablas de frecuencia; una vez construida la tabla,
la informacin original no es usada.
Construyendo una tabla de frecuencias Manos a la obra
Las medidas descriptivas en datos originales se realizan de acuerdo con las frmulas detalladas
en el Cuadro 2. A continuacin se detalla la construccin de una tabla de frecuencias con tal de
agrupar los datos para estimar en estos sus medidas descriptivas y/o construir grficos para
visualizar la informacin de manera geomtrica.
La primera decisin al construir una tabla de frecuencias es el nmero de intervalos k que
debern de integrarla. El nmero ms adecuado es arbitrario (entre 5 y 20); pero, para
ejemplos de clase es conveniente trabajar con intervalos de tamao fijo, para lo cual se aplicar
la regla de Strugess donde k = 1+3.3 log n , y se redondear al entero siguiente. Para decidir la
amplitud A de los intervalos, se divide R (donde: R = mx. mn.) entre el nmero de

k- L
intervalos k cuidando que el rango de la tabla Rt = k*A =

supere al rango de los datos

originales R. El valor resultante (A =R/k ) se redondea, si es posible, al valor entero siguiente y


se anota como lmite inferior del primer intervalo un valor menor al mnimo de los datos
originales (L 1 < mn.), lo cual puede hacerse siguiendo la siguiente regla L 1 = mn. (Rt-R)/2 . El
lmite inferior de la clase uno L

se redondea hacia abajo al siguiente decimal o entero

permisible, en tanto se conserve la idea de Rt > R y todos los datos sean contenidos en alguna
clase.

1) se consigue al sumar la A al lmite


El lmite superior de la primera clase o intervalo (
inferior de la misma (L 1); el lmite superior de la primera clase es igual al lmite superior de la
primera; y a partir de este punto se contina sumando A a los limites inferiores para obtener los
superiores en cada una de las k clases, as como igualando el lmite superior de una clase con el
inferior de la siguiente de manera montona y sucesiva. La frecuencia absoluta fi es un conteo
simple de los datos originales que pertenezcan a cada intervalo y la frecuencia relativa es en
cada fila igual a fi dividida por n.
Una vez construida la tabla de frecuencia siguiendo sistemticamente las recomendaciones
arriba mencionadas, nuestra labor se reduce a la obtencin de estimadores con base en las
frmulas del Cuadro 2.

Statistics for human beings

by Rueda, Jos A.

Cuadro 2. Frmulas para el clculo de las principales medidas descriptivas con informacin
completa y en tablas de frecuencia.

Datos Originales

Medidas de
tendencia
central

=Valor central o
media de los dos centrales

Mediana ( )
Moda (o)

o : Dato que se repite ms veces

Varianza ( )

Medidas de
Dispersin

Tablas de Frecuencia

=
=

Media ( )

Desviacin
estndar()

= (

Coeficiente de
variacin (C.V.)

C.V.= ( /

)*100

=
=

= Le +

)
(.

o : de la clase con mayor


=

= (

(= )
=

C.V. = ( /

)*100

Rango (R)
R = mx. mn.
Rt = k - L 1
xi: cada uno de los valores de X. n: nmero de datos. fi: frecuencia absoluta de la clase i. vi: valor central de la clase i. Le : Lmite inferior de la clase de la
mediana. A: amplitud o ancho de clase, constante en todas las clases. : frecuencia relativa de la clase i. mx.: valor mximo. mn.: valor mnimo, k:
lmite superior de la ltima clase (clase k). & L1: lmite inferior de la clase 1. La flecha atrs significa que se tomar la clase anterior a la de la mediana.

R epr esenta ci n gr f ica


A partir de la tabla de frecuencias, se facilita la construccin de grficos simples que nos ayuden
a analizar visualmente la localizacin y la dispersin de los datos. Algunos de los grficos ms
usados son
a) Histograma. Se construye colocando en el eje de las abscisas a los lmites de clase Li y i
para cada clase i, a partir de los que se erigen barras verticales de anchura A y con altura igual
a la frecuencia absoluta fi o relativa pi en cada intervalo.
b) Polgono de frecuencias. Segmentos de recta que unen los puntos de interseccin entre los
valores centrales de clase en el eje de las abscisas y las frecuencias absolutas o relativas en
el eje de las ordenadas (vi, fi vi, pi).

Statistics for human beings

by Rueda, Jos A.

c) Ojiva o Polgono de frecuencias acumuladas. Resulta de unir mediante segmentos de recta


los puntos de interseccin entre los lmites superiores de clase, en el eje de las abscisas, con las
frecuencias absolutas o relativas, en el eje de las ordenadas ( i, Fi i, Pi).
d) Diagrama de tallo y hojas: Consiste en anotar el intervalo como ttulo a margen izquierdo y
hacia la derecha en orden ascendente enumerar todos y cada uno de los valores que
pertenezcan a este. Si se dibujase una lnea curveada a la derecha de los ltimos valores
conectando todas las filas (intervalos), tendramos simulada una funcin de densidad cuyo eje
ser el margen izquierdo, donde se anotan los lmites de cada intervalo; o bien un polgono de
frecuencias girado a la derecha.

Ejemplo 1.1.
A partir de la serie de datos que se le presenta, que corresponden al peso seco de 36
muestras (de dos tallos c/u ) de Pennisetum purpureum, gramnea utilizada en la produccin de
papel cuya principal fraccin til es el tallo (datos tomados por el autor de este libro):
a)
b)
c)
d)
e)

Obtenga las medidas descriptivas con los datos completos


Construya una tabla de frecuencias
Obtenga las medidas descriptivas en la tabla de frecuencia
Haga un cuadro comparativo de los estimadores en a) vs. aquellos en c)
Dibuje las grficas pertinentes
Sugerencia: Agregue al menos dos columnas ms a la tabla de frecuencias:
& ( )

Datos:
250.6
403.3
284.2
141.6
254.1

141.7
251.5
224.4
235.5
285.6

439.5
239.9
299.7
284.4
212.1

194.5
153.3
342.2
237.5
258.8

243.8
298.7
448.1
260.7

300.1
178.5
322.5
278.1

329.6
328.9
248.1
267.1

219.1
241.1
414.4
341.6

Su tabla debe lucir as:


Intervalo

vi

fi

Fi

pi

Pi

fi vi

(vi

)2 fi

[]

10

Statistics for human beings

by Rueda, Jos A.

M e d i d a s d e a s o c i ac i n
Hasta ahora hemos lidiado con medidas que son de inters al describir una variable aleatoria;
ms en la prctica es muy frecuente que adems de estudiar alguna variable aislada, analicemos
a la par la forma en que esta es afectada por una segunda variable aleatoria. Para medir la
asociacin entre dos variables aleatorias, las medidas descriptivas de cada una de ellas por
separado no nos son de mucha utilidad. En los siguientes prrafos definiremos las principales
medidas de asociacin entre dos variables aleatorias, cuyos valores y cuyos estimadores (sus
medias y varianzas) pueden estar entrelazados en relaciones de tipo causa a efecto.
1.

Covarianza: [Sxy] (-,+) La covarianza es la varianza conjunta de dos variables


aleatorias; medida como el producto de las desviaciones de cada una de ellas respecto a
su media. El valor terico de la varianza va desde - hasta +. Su magnitud nos da
una idea del grado de dispersin conjunta y su signo nos dice si la asociacin es directa o
inversamente proporcional.

2.

Correlacin. [rxy] (- 1,+1) El coeficiente de correlacin transforma el valor de la


covarianza en una asociacin probabilstica, conservando el signo de la covarianza. La
correlacin puede interpretarse burdamente como un grado de asociacin directamente
proporcional (0, 1) o inversamente proporcional (-1, 0).

3.

Determinacin. [R2xy] (0,1)

El coeficiente de determinacin es el cuadrado del

coeficiente de correlacin. Transforma la linealidad de la correlacin en una idea de rea


o superficie. Con esta transformacin se elimina o menosprecia toda correlacin que sea
menor relativamente baja, por ejemplo 0.6;

ntese que 0.62=0.36, mientras que

0.92=0.81. Solo los valores altos de correlacin no sufren un castigo sustancial con esta
transformacin. El coeficiente de determinacin no da informacin sobre si la relacin
directa o inversamente proporcional entre las variables asociadas.
4.

Regresin lineal. [1] (-,+) El coeficiente de regresin que asocia una variable
efecto con su variable causa, es una asociacin precisa, proporcional y confiable que nos
da incluso la posibilidad de predecir un valor de la variable efecto a partir de cualquier
valor propuesto de la variable causa. El coeficiente como tal ( ), nos da una medida del
nmero de unidades en que aumenta o disminuye una en funcin al cambio en una unidad
de la otra; de esta forma podemos anotar la relacin de manera grfica. La ecuacin de

11

Statistics for human beings

by Rueda, Jos A.

regresin me dice adems el punto en el que el eje ordenado es cortado por la recta de
regresin, es decir 0.Para conocer un valor de la variable respuesta, dado un valor de la
variable explicativa se aplica la recta de regresin estimada

= + . Puede

consultarse la forma de clculo para las medidas de asociacin en el Cuadro 2. Note como
las cuatro medidas de asociacin son tienen estrecha relacin, observe la Figura 1.

Cuadro 3. Frmulas para obtener las medidas de asociacin entre dos variables aleatorias
1. Covarianza
4. Coeficientes de Regresin Lineal
( )( )

0 1 estimados como b0 y b1
= =

2.

3. Coeficiente de Determinacin
= ( )

= +

Relacin

Directamente proporcional
(0,) positiva

Inversamente proporcional
(-,0) negativa

Ninguna relacin
0

(0,1) positiva

(-1,0) negativa

(0,1)

(0,1)

(0,) positivo

(-,0) negativo

Figura 1. Tipos de asociacin entre dos variables aleatorias

12

Statistics for human beings

by Rueda, Jos A.

Probabilidad
Conceptos
Los nmeros son ya una abstraccin, son un auxiliar en la representacin de la realidad que nos
rodea, nos ayudan a asirnos a hacernos del conocimiento; son una abstraccin ya que no existen
en la naturaleza, son una idea y un acuerdo entre los seres humanos. En un intento por describir
situaciones y hechos relativos a la incertidumbre diaria, tenemos a la Estadstica como una
poderosa herramienta constructora de conocimiento y a la Probabilidad como una pareja
perfecta para aceptar que nuestras conclusiones ms precisas de hecho no son tal cosa. La
experimentacin acerca al entendimiento y transforma la incertidumbre en hechos concretos;
convierte la abstraccin y el azar en verdades confiables; asla los errores a un rincn conocido y
manejable.
El hecho de que un suceso sea posible no nos da mucha informacin, pero un valor de
probabilidad nos da una medida inteligible de la certeza que tenemos de que dicho suceso en
efecto ocurra. La probabilidad de que se d un evento es igual a la suma de las probabilidades
de que ocurra cualquier elemento dentro de ese evento cuando pertenecen al mismo espacio
muestral (mismo experimento simple); por ejemplo, la probabilidad de obtener un non al lanzar
un dado es la suma de las probabilidades separadas para 1, 2 y 3 (P[X=non] = P[X=1] +
P[X=2] + P[X=3]).
La Estadstica y la Probabilidad son dos ciencias estrechamente ligadas. A la estimacin y a las
pruebas de hiptesis, dada su naturaleza de lidiar con la variacin, siempre se les asigna una
probabilidad. Al analizar los conceptos bsicos de esta relacin se prepara al estudiante para la
interpretacin de un intervalo de confianza y para la estimacin de los errores en una prueba de
hiptesis, algunas definiciones se presentan a continuacin
Un experimento aleatorio es aquel cuyos resultados no pueden predecirse antes de llevarlo a
cabo. Si un investigador pudiera predecir con total certeza los resultados de un experimento,
este no lo llevara a la prctica, por lo que la incertidumbre y la variacin estn ligadas a la
experimentacin; tales condiciones son manejadas mediante Probabilidad.
Un espacio muestral

(S) es un conjunto que contiene todos los resultados posibles de un

experimento aleatorio; por lo que al llevar un experimento, el rango en el que tericamente

13

Statistics for human beings

by Rueda, Jos A.

pueden caer cada una de las mediciones ser el espacio muestral. Un espacio muestral puede
significar un segmento de recta que registre una medicin, espacio muestral continuo, o puede
incluir varios nmeros naturales que impliquen conteos, espacio muestral discreto. El primero en
relacin con una variable aleatoria cuantitativa y el segundo, con una variable aleatoria
cualitativa.
Una variable aleatoria es una funcin que asigna a cada resultado de un experimento, un
nmero en la recta real. Visto el concepto de espacio muestral redefiniremos que una variable
aleatoria es una funcin que asigna a cada elemento en S, un nmero en R es por tanto una
abstraccin de la realidad en nmeros.
Un evento es un suceso plenamente definido que implica regularmente uno o ms elementos
dentro de un conjunto. En el caso en que se lance un dado, el evento non implica los elementos
1,3, y 5 del espacio S={1,2,3,4,5,6}, y si llamamos evento H al hecho de obtener 6, entonces
H={6} y P(H)= 1/6. Para medir la probabilidad de ocurrencia de un evento deben conocerse
cuantos elementos contiene el espacio muestral (elementos totales en S) y el nmero de
elementos que favorecen al evento que nos incumbe; por lo tanto, es necesario contarlos.
Conviene retomar algunos conceptos bsicos sobre tcnicas de conteo y algo de teora de
conjuntos antes a fin de aterrizar de manera ms precisa en los axiomas elementales de la
probabilidad.

Teora de conjuntos
Un conjunto es una coleccin de elementos, objetos o individuos que comparten una
caracterstica en comn. El nombre de un conjunto es una letra mayscula; sus elementos se
enumeran dentro de llaves despus de un signo de igualdad que precede al nombre del
conjunto. Para enumerar los elementos de un conjunto pueden escribirse uno a uno todos ellos o
mencionar la caracterstica que comparten, cualquiera de estas dos formas es correcta. No
obstante,

la segunda es muy til cuando los elementos de un conjunto son infinitos o no

denumerables. Por mencionar algunos ejemplos:

A={ x / x es un numero par menor que diez} A={x/x= x par<10}; se lee A es el


conjunto de todas las x, tal que x es un nmero par menor que 10} y equivale a
A={2,4,6,8}

M={x/x

es

un

nmero

primo

menor

que

20},

expresin

equivalente

a:

M={2,3,5,7,11,13, 17,19}
Operaciones con conjuntos
Dado un conjunto que incluya a todos los valores en los que estamos interesados, llmese
conjunto S,

es posible definir tantos subconjuntos dentro de este y hacer con estos

14

Statistics for human beings

by Rueda, Jos A.

subconjuntos operaciones como: resta, unin, interseccin, complemento e inclusin.

Dados

dos conjuntos A y B en S, definamos las operaciones:


1. Unin: Conjunto (AB) contiene a todo elemento a A & a todo elemento b B. Para
que un elemento pertenezca a la unin debe ser elemento de A de B (o de ambos).
2. Interseccin: El conjunto (AB) comprende todo elemento a A&B a la vez. Para que
pertenezca a la unin, un elemento debe pertenecer a A y a B a la vez.
3. Resta: El conjunto (A-B) contiene a todo elemento de A tal que a A y tal que a B
4. Complemento: El complemento Ac de un conjunto A, ser aquel que contenga a todo
elemento en S que no est contenido en A. Si b A & b S b Ac.
5. Inclusin: Se dice que

A (A es subconjunto de B A est incluido en B ), si todo

elemento a A es tambin elemento a B. Si todos los elementos de A son tambin


elementos de B, diremos que: A es un subconjunto en B.
Ejemplo: Sea S ta
l que S= {x/x es un nmero natural menor que diez}, definidos:
S= {1, 2, 3, 4, 5, 6, 7, 8, 9};
P= {x/x es un nmero primo menor que 10)} P = {2, 3, 5, 7};
I= {x/x es un nmero impar menor que 10} I = {1, 3, 5, 7, 9}; &
E= {x/x es un nmero par menor que diez} E = {2, 4, 6, 7, 8}
Defina los conjuntos indicados y grafique con diagramas Venn Euler

P =

I-P =

EUP =

A B

A B

A-B

P =

Ic =

15

Statistics for human beings

by Rueda, Jos A.

Conjunto A

Conjunto B
Operacin

indicada

Ac
Figura 2: Diagramas de Venn Euler para las operaciones bsicas entre conjuntos
Particin de S: Dado un conjunto universal S y una serie de conjuntos A 1, A2, An, tales que:

todo conjunto , la unin de todos ellos es igual al conjunto S ( =1


= )

interseccin ente ellos sea el espacio vaco (

nj&=1

y que la

= 0); entonces se dice que los conjuntos

A1, A2, An forman una particin de S.


Tcnicas de conteo
Si los experimentos que se llevan a cabo en la prctica fuesen tan sencillos como lanzar un dado
al aire, leer la cara superior y contar el nmero de resultados posibles, no habra ninguna
necesidad de aplicar tcnicas de conteo en el clculo de probabilidades. No obstante, en
ocasiones el nmero total de posibilidades que se pueden dar no es una obviedad; para ello se
aplicar una de las tres tcnicas descritas a continuacin.
1. Regla multiplicativa: Dadas n formas de elegir un objeto tipo A y m formas de elegir
un objeto del tipo B, existen nm formas diferentes de elegir un objeto tipo A y uno tipo
B a la vez. Por ejemplo:
i)

Suponga que el da de hoy Samanta tena en su armario 10 blusas, 6 pantalones y


6 pares de zapatos. Cuntas maneras diferentes tena de vestirse si todo atuendo
es igualmente atractivo a la vista e igualmente probable de ser elegido? Aplicando la
regla: 10*6*6 = 360.

ii) Don Juan se llevar a cazar uno de sus 14 perros, una de sus 6 armas y lo
acompaara uno de los 4 mozos que le ayuda en sus labores diarias Cuntas
combinaciones diferentes de perro, arma y mozo puede llevar Don Juan?

Aplicando

la regla: 14*6*4 = Cuntas?.


2. Permutaciones [nPr]: El nmero de permutaciones es el nmero de formas diferentes
en que pueden ser seleccionados n objetos, tomados de r en r a la vez.

En una

permutacin, un mismo nmero de objetos producen varias maneras de ser tomados en


funcin del orden en el que sean tomados. As por ejemplo abc ser una permutacin
diferente a bca a acb.

!
( )!

16

Statistics for human beings

by Rueda, Jos A.

3. Combinaciones [nCr]: El nmero de combinaciones es el nmero de formas diferentes


en que pueden ser tomados r objetos de un total de n (el concepto es idntico hasta
aqu al de permutaciones), sin importar el orden de estos r elementos. As por ejemplo,
una combinacin abc ser para fines prcticos exactamente igual a la combinacin bca
o acb.

!
=( )=

! ( )!

Ejemplo:
(i)

Se pretende que de entre el grupo de F J & Q se tome la decisin de quienes


sern los representantes de la organizacin que componen. Cabe mencionar que
de estos tres posibles candidatos solo pueden seleccionarse dos representantes y
que uno de ellos tendr la palabra final en las decisiones.

ii)

De

cuantas

maneras

pueden

seleccionarse

los

representantes.

Cuntas

combinaciones existen? Cules son?


iii)

Si el primer elegido ser el representante en jefe y en ese sentido el orden en


que se elijan es importante. Cuntas permutaciones son posibles y cules son?

iv)

Si se agregaran G P & R al grupo de F J & Q y se estuviera interesado en


seleccionar 3 representantes Cuntas combinaciones y permutaciones habr?

v)

De cuantas maneras se pueden acomodar n objetos tomados todos a la vez?

Probabilidad
Dado un evento A que agrupa uno o ms elementos en S para un experimento con n resultados
igualmente posibles; la probabilidad de A, P(A), ser el cociente cuyo dividendo est definido
por el nmero de elementos favorables a A, na, y cuyo divisor es el nmero total de elementos
en S, n.
() =

Ejemplo:
i)

Un individuo para el que el tiempo no existe pregunta varias veces cada da Qu


da es hoy?. A lo que la gente responde siempre con el da de la semana en el
que pregunta. Asumiendo que pregunte el dato el mismo nmero de veces cada
da; definamos los eventos:
W: Su interlocutor contesta, un da entre Lunes, Martes, Viernes
F: Su interlocutor contesta, Sbado Domingo

Entonces:
() =

= 7 = 0.7143

() =

= 7 = 0.2857

Note que W y F forman una particin de S y que P(W) = P(Fc)

17

Statistics for human beings


ii)

by Rueda, Jos A.

Juan saca una ficha al azar de su juego de domin. Los elementos de espacio
muestral son: S= {(0,0), (0,1), (5,6), (6,6)} & n=28.

Si definimos los

eventos M: {Mula}; PP: {ficha con (par, par)} & F: {Ficha (6,*)}. Obtenga las
probabilidades: P(M), P(PP) & P(F) segn la definicin general de probabilidad.
iii)

Si Olga tiene en su sombrero mgico 6 crayones negros, 5 crayones azules y 8


crayones verdes, y desea sacar uno de ellos al azar de qu color ser el
seleccionado?. Definamos el evento N: Negro, A: Azul y V: Verde. Evale P(N),
P(A) & P(V).

Axiomas de la probabilidad
1. Dado un evento A, la probabilidad de que ocurra tal evento ser un valor tal que:
0 P(A) 1

es decir, no existen valores de probabilidad menores a cero o mayores a uno.

2. Dado un experimento cuyos resultados posibles se agrupan en el conjunto S: P(S)=1


es decir, con toda seguridad uno entre todos los resultados probables aparecer.
3. Si A y B son eventos mutuamente excluyentes, entonces: P(AUB) = P(A) + P(B) y si se
tienen n eventos mutuamente excluyentes: P(=1 ) = P(A1) + P(A1) + P(An).
Teoremas de la probabilidad
1. Si se tiene un conjunto vaco Q, entonces la P(Q) = 0
2. Dado un conjunto A en S y su complemento Ac, la P(Ac) = 1-P(A)
3. Si un evento A B, entonces la P(A) P(B).
4. La P( A\B )= P(A) P(AB).
5. Para dos eventos A y B, la P(AB)= P(A) + P(B) P(AB).

P r o b a b i l i d a d co n d i c i o na l

18

Statistics for human beings

by Rueda, Jos A.

Dados dos eventos A y B en S, tal que P(A)>0, la probabilidad de B dada la ocurrencia de A,


P(B|A), se definir por:
(|) =

(B)
()

Note que la ocurrencia de A modifica la P(B), ya que P(B|A) P(B)


Eventos independientes:
Dados dos eventos A y B en S, se dice que A y B son eventos independientes si y solo si
P(A|B)= P(A), P(B|A)= P(B) & P(AB)=P(A)P(B); es decir, la ocurrencia de uno no modifica la
probabilidad de ocurrencia del otro. Por lo tanto dos eventos dependientes Ay B en S; sern
aquellos cuya probabilidad de interseccin sea tal que P(AB)>0, P(A|B) P(A) &P(B|A) P(B);
es decir, la ocurrencia de uno si modifica la probabilidad de ocurrencia del otro.
En ocasiones la dependencia est asociada al muestreo sin reemplazo. Al existir dependencia,
las probabilidades son condicionales.
Eventos mutuamente excluyentes:
Dados dos eventos A y B en S, se dice que A y B son mutuamente excluyentes si y solo si
P(A|B)= 0, P(B|A)=0 y P(AB)=0. Dos eventos mutuamente excluyentes no pueden ocurrir
simultneamente y adems la ocurrencia de uno imposibilita la ocurrencia del otro.

(|) =

(B)
()

(|) =

() (|) = (B)

(B)
()

() (|) = (B)
() (|) = () (|)

() =

() (|)
(|)

() =

() (|)
(|)

() (|)
() (|)
(|) =
()
()
Figura 3. Relaciones de probabilidad condicional entre dos conjuntos A y B.
(|) =

Ejemplo:
Se supone que los graduados son todlogos Entre 200 empleados de una empresa 150 del
total resultaron ser graduados y 60 del total resultaron ser todlogos.

Los empleados que

pertenecen a ambas categoras son 40. Elabore con estos datos una tabla de doble entrada y
auxilindose de diagramas de Venn-Euler calcule la probabilidad que se le pide:

19

Statistics for human beings

by Rueda, Jos A.

i) Defina los eventos graduado, no graduado, todlogo y no todlogo usando la inicial de la


palabra y el smbolo para complemento de un conjunto. i.e.: G= {graduado} & Gc = {NO
graduado}.
ii) Cul es la probabilidad de que un empleado sea graduado o todlogo (Unin)
iii) Cul es la probabilidad de que NO sea todlogo y si sea graduado (Interseccin)
iv) Cul es la probabilidad de que sea todlogo dado que es graduado, usando como referencia
la probabilidad de la interseccin.
v) Cul es la probabilidad de que sea todlogo dado que es graduado, usando como referencia la
probabilidad condicional inversa (Condicional)
vi) Cul es la P(GcUTc) y la P (GUT)c?
Solucin:
T

TC

Marginal G

40

110

150

GC

20

30

40

Marginal T

60

140

200

Los eventos no son independientes, dado que la probabilidad de ocurrencia de uno de ellos
depende de la previa o no ocurrencia del otro.
i) G= {graduado}, GC = {NO graduado}, T = {Todlogo} & TC = {NO todlogo}
ii) ( T)
iii) ( G)
iv) P(T|G) =

(T G)
()

v) P(T|G) =

P (G|T) P(T)

()
C

vi) (G T ) , P(G T ) P (G T)C


i)

G= {graduado}, GC = {NO graduado}, T = {Todlogo} & TC = {NO todlogo}

ii)

Auxilindose del diagrama de Venn, se tiene:

G
G

110/200 40/200

T
20/200

150

P (G T) = P(G)+ P(T) - P (G T) = 200 +

60
200

40

200 =

170
200

= 0.85

20

Statistics for human beings


iii)

by Rueda, Jos A.

Procediendo de igual forma

TC
TC
30/200

TC

110/200 40/200

Es obvio que P (TC G) = 0.55


P(T G)

iv)

(|) =

v)

(|) =

vi)

(GC T C ) =

P(G)

40
200
150
200

40 60
( )
60 200
150
200

P(G|T)P(T)
P(G)

30
200

40
150

= 0.267 & P(G|T) =

= 0.15

2400
60

150

40
150

P(T G)
P(T)

40
200
60
200

40
60

= 0.667

=0.267 ; Obtngase P(G|T)

P (G T)C = 1 0.85 = 0.15

(GC T C) = P(GC)+ P(T C) - P (GC T C )


=

40
200

140
200

30

200 =

150
200

= 0.75

Ejercisios:

i)

Se seleccionan dos semillas aleatoriamente, una por una, de una bolsa que contiene
diez semillas de flores rojas y cinco de flores blancas. Cul es la probabilidad de
que:?

ii)
a) La primera semilla de una flor roja P(R)
b) La segunda semilla sea roja dado que la primera fue blanca P(R|B)
iii)

En un grupo hay 3 varones y 9 mujeres


a) Cul ser la probabilidad de seleccionar un varn al azar en el grupo?
b) Cul es la probabilidad de seleccionar un varn dado que ya se ha seleccionado
a una mujer?

iv)

Suponga que se ha llevado un estudio sobre la efectividad de un nuevo producto que


combate el acn en los jvenes (llmese Asexia) y que tal producto se ha usado en
los pacientes por un ao, los resultados son:
Asexia

Erradicacin
29

Ningn cambio
69

Suma
98

21

Statistics for human beings

by Rueda, Jos A.

Placebo

15

Suma

44

AE

60

75

129

173

A
P
S

Evale la dependencia o independencia del tratamiento con el padecimiento


c) Cul es la probabilidad de que se Erradique la enfermedad en un ao, P(E)?
d) Cul es la probabilidad de que se erradique, dado que fue tratado con Asexia?

Teorema de Bayes:
Si A1, A2, A3, An forman una particin de S, y D es un evento en S; tal que P(D|Ai)0;
entonces:
a) P(D) = P(D|A1) P(A1) + P(D|A2) P(A2) + P(D|An) P(An) = =1 P(D|A i )P(Ai )
(| ) ( )

b) ( |) =

= (| ) ( )

P(D|Ai ) P(Ai )
()

Ejercisios:
i)

Se plantea la necesidad de resolver un problema sobre probabilidad condicional. Los


estudiantes de la Universidad del Papaloapan lo resuelven en 8 de cada 13
ocasiones, los de la Universidad del Golfo en 5 de cada 30 y los del REU en 6 de cada
20. La poblacin estudiantil en cada Universidad fue de 50, 30 y 20%, en el mismo
orden.

a) Dado un nuevo problema lgico sobre el mismo tema Cul es la probabilidad


de que el problema sea resuelto si se plantea a estudiantes de todas las
Universidades?
b) Si el problema ya ha sido resuelto, Cul es la probabilidad de que se haya
resuelto en REU?
ii)

En tres lneas de ensamblaje de radios transmisores detectaron error en la


instalacin de la antena. Un estudio revela que el error aparece en 0.09, 0.03 y
0.16

de los casos en cada lnea respectivamente. Si el sbado pasado las lneas

produjeron 700, 918 & 1180 aparatos, en el mismo orden.


a) Cul es la probabilidad de que al toma un dispositivo al azar, este presente
el defecto mencionado.
b) Si el supervisor detect un dispositivo con la antena mal colocada el da
sbado Cul lnea de ensamblaje es ms probable que sea la responsable?
iii)

En cuatro parcelas se siembra maz criollo para renovar la semilla en un banco de


germoplasma. El genetista ha notado que existe contaminacin de semilla
transgnica y ha localizado mediante una muestra que la contaminacin abarca un

22

Statistics for human beings

by Rueda, Jos A.

0.05, 0.04, 0.009, y 0.02 en cada parcela, respectivamente. Una cosecha parcial ha
mezclado maz de las cuatro parcelas en proporciones 2:2:3:3.
a) Si solo se almacenar como semilla aquella cuya contaminacin no supere el
0.02; podr usarse la cosecha parcial mezclada como semilla y debe
almacenarse?
b) Si el genetista detect una mazorca de hibrido y quiere localizar mazorcas
del mismo tipo entre aquellas de la parcela de la que provenga. A qu
parcelas deber ir primero en su bsqueda, en funcin de la probabilidad de
que la mazorca pertenezca a tales parcelas?

M o d e l o s d e p r o b a b i l i d a d:

I . F u n c io n e s

Una vez explorados los datos de un experimento, mediante la estimacin de medidas


descriptivas de dispersin y localizacin, o mediante el clculo de frecuencias y probabilidades
de ocurrencia; encontramos que en muchos de los casos la variable con la que se trabaja sigue
una distribucin conocida. A los patrones que ya han sido identificados y caracterizados se les
llama modelos probabilsticos, o distribuciones.
En funcin a la naturaleza de la variable, esta se puede adecuar a una distribucin discreta,
variable cualitativa, como lo es la distribucin binomial; o bien, a un modelo continuo, variable
cuantitativa, como es el caso de la distribucin normal o campana de Gauss. Antes de comenzar
a estudiar los modelos discretos y continuos ms comunes, resulta conveniente definir algunos
conceptos sobre funciones, as como sobre el clculo de la media y la varianza a partir de una
distribucin terica.

23

Statistics for human beings

by Rueda, Jos A.

Funcin de probabilidades (f.p.). Dada una variable aleatoria discreta o cualitativa X, su


funcin de probabilidades (), evaluada para un valor exactamente igual a x de la variable, se
define como: la probabilidad de ocurrencia de un valor exactamente igual a x, entre todos los
posibles valores de X. Esto coincide con lo definido un como frecuencia relativa pi en una tabla
de frecuencias, y puede equipararse con la medida vertical de una barra del histograma. Ntese
que se usa la X mayscula para referirse al nombre de la variable y x minscula para referirse a
un valor especfico de la misma. Las propiedades elementales de la f.p. son:
1. +
( () ) = 1
2. 0 () 1
3. P(a<x<b) P(ax<b) P(a<xb) P(axb)
Funcin de densidad (f.d.). Dada una variable aleatoria cuantitativa o continua X, su funcin
de densidad (), evaluada para un valor igual x de la variable se define como: la probabilidad
de ocurrencia de un valor exactamente igual a x, entre todos los posibles valores de X. Pese a
que la definicin es homloga a la mencionada arriba; la f.d. es igual a cero ( () = ) ya que
explora la probabilidad puntual en una curva continua, donde lo ms adecuado es calcular la
densidad de datos mediante el clculo de un rea. La probabilidad puntual simboliza una lnea
dibujada verticalmente sobre la grfica de la f.d., y una lnea no tiene rea. Las propiedades
elementales de la f.d. son:

1. () =1
2. () = para cualquier valor especfico x de X

3. P(a<x<b)= ()
4. P(a<x<b) = P(ax<b) = P(a<xb) = P(axb)
Funcin de distribucin (F.D.).

Dada una variable aleatoria cualitativa (discreta) o

cuantitativa (continua) X, su funcin de distribucin (), evaluada hasta un valor x, se define


como la probabilidad de ocurrencia de un valor menor o igual a x. Esta definicin puede
equipararse con la frecuencia relativa acumulada Pi de una tabla de frecuencias. La F.D. puede
obtenerse a partir de la f.p. para el caso discreto, o a partir de la f.d. si la variable es continua;
en las variables cualitativas se obtiene mediante una suma de f.p., y en las variables
cuantitativas se integra la f.d. desde el lmite inferior de la variable hasta el valor de x en el que
se evala la funcin. Las definiciones simblicas de F.D., f.d. y f.p., as como sus relaciones, se
muestran en el Cuadro 3. Las propiedades elementales de la F.D. son:

1. () = () (variables continuas)
& ()= () (variables discretas)
2. ( ()) = 0

&

( ()) = 1

3. Es montona creciente (si b>a entonces ()> () )

24

Statistics for human beings

by Rueda, Jos A.

Cuadro 3. Relaciones entre las funciones de probabilidades y de densidad con la funcin de


distribucin
Variables
aleatorias
discretas

pi

Funcin de probabilidad

() = ( = )

() = ( ) =

f.p.
Variables
aleatorias
continuas

Pi

Funcin de distribucin
()

F.D.

() = ( ) = ()

F.D.

Funcin de densidad

Funcin de distribucin

() = ( = )

f.d.

Notacin:
Para delimitar bien una funcin de densidad, una funcin de probabilidades o una funcin de
distribucin; debe especificarse, adems de la funcin misma, los limites en recta real para los
cuales esta es vlida. La notacin ms convencional incluye: a) el smbolo () () (segn
sea el caso) seguido de b) una llave de agrupacin que delimita dos casos: c) la frmula de la
funcin y los valores de X para los cuales la funcin es definida o verdadera & d) un cero
separado por una coma de la leyenda de otra forma que implica que los valores de X no
mencionados en el primer caso darn como resultado que la funcin sea nula o no vlida.
e.g.:

()

() =

,
,

= 0,1,
. .

Para el caso de una F.D., FX (x), se especificarn al menos tres casos: a) los valores para los
cuales la funcin sea cero, b)aquellos para los que la funcin sea vlida y c) aquellos para los
cuales la funcin sea siempre igual a 1.
Representacin grfica de una funcin
Suponga que se tiene un f.p. & su F.D., representadas por los datos mostrados a continuacin;
entonces las grficas que representan a f.p. y a su F.D. son las presentadas en la Fig. 4a.
X
()
()

4
3/24
3/24

5
2/24
5/24

6
8/24
13/24

7
5/24
18/24

8
4/24
22/24

9
2/24
24/24

Suponga que se tiene la f.d. fX (x) = 2/X2 ; entonces tanto la f.d. como su F.D. correspondiente
son las presentadas en la Fig. 4b.

25

Statistics for human beings

by Rueda, Jos A.

0.4

1.5

0.3

0.2

0.5

0.1

0
0

10

10

[, ()]

[, ()]

Figura 4a. Representacin grfica de una fucin de probabilidades y su funcin de distribucin

1.5

0.5

0
0

0.5

1.5

2.5

0.5

1.5

2.5

[, ()]

[, ( () = 2/X2) ]

Figura 4b. Representacin grfca de una fucin de densidad y su funcin de distribucin

Note que en la grfica de la f.p. y su F.D. las probabilidades estn marcadas por puntos sobre
valores enteros; mientras que en el caso de f. d. y su respectiva F.D., la representacin curva
indica un nmero infinito de valores posibles en una escala continua.
Media y varianza con base en una distribucin terica
Si se conoce la funcin de probabilidades (variable discreta), o en su caso, la funcin de
densidad (variable continua) (); es posible calcular la media y la varianza a partir de la
mencionada funcin, aplicando las siguientes definiciones (a la derecha las frmulas para una
variable continua):

2 =

()

2 () 2

= ()

2 = 2 () 2

Clculo de probabilidades, medias y varianzas


Si se conoce la (), y/o la () de una variable aleatoria, el clculo de probabilidades a partir
de estas es muy sencillo. De igual manera pueden aproximarse su media y varianza.

26

Statistics for human beings

i)

by Rueda, Jos A.

Caso de una variable discreta

Usemos el clsico ejemplo del dado para simplificar la explicacin. Si se lanza un dado
= 1/6, (4) = P(X4) =P(X<5) = [ (1) +
al aire tendremos: (4) = P(X=4)= 0.1
= 4/6 .
(2) + (3) + (4)] = 0.6
La media de esta variable sera:
6
=
() = =1 ( ) = [1 (1) + 2 (2) + 3 (3) + 6 (6)]

= [1(1/6) + 2(1/6) + 3(1/6) + 6(1/6)] =3.5


Y su varianza:
6
2
2
2
2 =
() = =1 ( )

= [12 (1) + 22 (2) + 32 (3) + 62 (6)]- 2

= [1(1/6) + 4(1/6) + 9(1/6) + 36(1/6)] 3.52 = 2.91


Si para el ejemplo descrito = 2 = 3.5, Se considera esta manera de aproximar la varianza,
una buena estimacin?. Note que en la definicin de la varianza, los lmites de la variable
aleatoria X (-, +), se sustituyen por los lmites que corresponden al caso particular (1, 6).
La varianza obtenida mediante la frmula directa debe contrastarse contra la varianza
poblacional, con n como divisor y no n-1 como el caso de la varianza muestral (2.91 vs 3.5).
ii) Caso de una variable aleatoria continua
2

() =

Si la f.d. de una variable continua est dada por

para X|1x 2 (0,

d.o.f.), entonces:
Verifiquemos que en efecto es una f.d.:

() = ?

[ ] = ?

1=1

La media y la varianza de esta f.d. seran:

= () = (

( )

= 2[ln x]12 = 2[ln 2- ln 1] = 1.386

= () = (

) (1.386)

= 1.92 =0.08
La probabilidad de obtener un valor entre 1 & 1.5 entre 1.5 & 2 ser:
.

P(1<x<1.5)=

() =

= [ ]

= -1.33+ 2 = 0.66

27

Statistics for human beings

by Rueda, Jos A.

P(1.5<x<2)= . () =. = [ ]

= -1+ 1.33 = 0.33

NOTA: Hasta este momento no se ha abordado ningn modelo probabilstico

distribucin en concreto. El tema de funciones se ha detallado a manera de introduccin,


con tal de facilitar el entendimiento de los principales modelos existentes para describir
la distribucin de una variable aleatoria.

M o d e l o s d e p r o b a b i l i d a d:
I I . D i s t r i b u c i o n e s D i s c r e t a s M o d e l o s d e P ro b a b i l i d a d C ua l i t a t i v o s
Cuando se trabaja con variables aleatorias cualitativas o discretas; las modelos con los que
tenemos que lidiar ms frecuentemente son: Distribucin Bernoulli, Distribucin Binomial,
Distribucin Poisson, Distribucin Hipergeomtrica y Distribucin Geomtrica.

Distribucin Bernoulli
En principio una variable cualitativa nace de un conteo de elementos que cumplen con una
condicin dada. Por ejemplo, superar una longitud de 2 m, ser verde, soportar un voltaje de
220, tener ms de 100 pginas, saber nadar, aprobar el examen, etc. Todas estas condiciones
son preguntas de SI NO, variables dicotmicas cuyas nicas posibilidades son: que se cumpla
la condicin (xito), o que esta no se cumpla (fracaso).
Un evento Bernoulli asocia una probabilidad p al hecho de que se verifique la condicin buscada,
y una probabilidad q al evento de que la condicin no se cumpla. Aqu el espacio muestral tendr
slo dos elementos, S={Exito, Fracaso}, con P(Exito) =p, P(Fracaso)=q & p+q =1. La f.p. de
la distribucin Bernoulli es: Si X B (p) entonces:
() =

1 ,
0

= 0,1
. .

La distribucin Bernoulli tiene como nico parmetro a p, su media es igual a p y su varianza


2 es igual a pq, esto puede verificarse mediante las frmulas para obtener la media y la varianza
a partir de una distribucin terica.

28

Statistics for human beings

by Rueda, Jos A.

Ejemplos:
i)

Solo 10 de los 25 estudiantes de la clase de mecnica de fluidos, podrn asistir a la


embotelladora de cerveza del grupo Modelo.

De acuerdo con la Distribucin

Bernoulli, cul es la probabilidad de que un estudiante elegido al azar de la lista,


pueda asistir a la embotelladora, si suponemos que la asistencia de cada estudiante
es equiprobable?
ii)

Regularmente el profesor Perez, deja la luz encendida al retirarse del aula en 5 de


cada 20 de sus clases; cul es la probabilidad de que al revisar el conserje un da
cualquiera el saln despus de su clase, la luz est apagada?

iii)

Verifique que su media es igual a p

y su varianza 2 es igual a pq usando las

frmulas para el clculo de & 2 a partir de una funcin de distribucin terica.

Distribucin Binomial
Dados n Eventos Bernoulli con P(Si)=p P(No)=q, la Distribucin binomial cuenta nmero de
xitos obtenidos, x, al buscar la condicin dada, y por ende cuenta indirectamente el nmero de
fracasos o de veces n-x en que la condicin no se cumple.

Si (, ) entonces:

() , = 0,1,
() =

. .

La Distribucin Binomial tiene como nicos parmetros a n & p, su media es igual a np y su


varianza 2 es igual a npq, esto puede verificarse mediante las frmulas para obtener la media y
la varianza a partir de una distribucin terica.
El coeficiente de la funcin de probabilidades de la Distribucin Binomial indica una combinacin
de elementos entre los n eventos Bernoulli; de entre los cuales x elementos si cumplen con la
condicin y n-x elementos no cumplen con la condicin deseada.
Ejemplo:
i)

Un producto a base de pintura de goma es aplicado para impedir la corrosin en


componentes mecnicos metlicos. El producto presuntuosamente protege hasta por
veinte aos el 80% de las piezas en las que se usa; si se aplica a 5 piezas:
a)

Anote la funcin de probabilidades especfica para este caso y obtenga la funcin de


distribucin.

b) Tabule los resultados de las funciones ()

& ()

29

Statistics for human beings

by Rueda, Jos A.

c) Obtenga la media y la varianza a partir de las frmulas generales y verifquelas con


las frmulas puntuales para la Distribucin Binomial.
d) Cul es la probabilidad de que al menos 4 de las cinco piezas no estn daadas
segn el fabricante?
e) Cul es la probabilidad de que sea efectivo en exactamente 3 las piezas?
f)

Evale por complemento, cul es la probabilidad de que sea efectivo en por lo


menos una sola pieza?

g) Usara y recomendara el producto?


Solucin: La aplicacin de las f.p. y F.D. a cada caso se aplican de forma idntica a cada
Distribucin o Modelo Probabilstico. Por ser el primer ejemplo al respecto, iremos detallando el
proceso paso a paso.
a)

(5) 0.8 0.25 , = 0,1, 5

0
() =

() =

. .

<0

5
( ) 0.8 0.25 ,
0

= 0,1, 5
,

. .

b)
X
()

-04

3x10

()
2

()
=

3x10-04 0.006 0.051 0.205 0.41

()

c)

0.328

0.006 0.058 0.263 0.672 1


0.614
1.843

4
16.8

Mediante las frmulas desarrolladas

() = () = (0)(3x10-04) + + (5) (0.328) =4

=
() = ()

= [ (02)(3x10-04) + (12)(0.006) +(52)(0.328) ] [42] = 16.8-16 = 0.8


-

Mediante las frmulas concretas para la Distribucin Binomial


=np = (5)(0.8)= 4

=npq = (5)(0.8)(.2)= 0.8


d) al menos 4 significa cuatro o ms
P(X4) = P(X>3) = [P(X=4)+P(X=5)] = (4) + (5) = = 0.41 + 0.328
alternativamente

=1 ( 3) = 1 ()=1-.263

e) Exactamente equivale a decir P(X=x) = ()


(3) =0.205
f)

Por lo menos en una pieza implica una o ms

30

Statistics for human beings

by Rueda, Jos A.

P(X>0) = 1-P(X0) = 1- (0) = 1 3x10-04 = 0.9996

g)

Pese a que la respuesta obedece a cada criterio, acorde con (), podemos
notar que entre 3 a 5 de las piezas tendrn en efecto la proteccin a veinte aos.
Esta conclusin se basa en que () representa realmente a la realidad y que se
puede verificar mediante un experimento. El problema con el estudio que se
plantea, es que tardara 10 aos en concluirse.

Distribucin Poisson
Dados un nmero muy grande de Eventos Bernoulli, cuya probabilidad de xito p es muy
baja; la Distribucin Poisson cuenta el nmero de xitos dentro de un intervalo de tiempo o
espacio. El nmero promedio de veces que la condicin se cumple en cada intervalo es .

Si

() entonces:

() =

, = ,1,2

. .

La Distribucin Poisson puede compararse con una Distribucin Binomial en la que la


probabilidad de xito es muy baja. El nico parmetro de la Distribucin Poisson es , siendo =
= 2.
Ejemplo:

i)

Despus de sufrir una derrota en futbolito de robots acuticos, el equipo M6 ha


corregido todas las fallas que provocaban que los robots se atoraran en las porteras
durante todo el partido; despus de esto, el equipo solo ha recibido a lo mucho 0.5
goles por partido.
a) Cul es la probabilidad de no recibir un gol durante un partido del siguiente
torneo?
b) Cul es la probabilidad de recibir menos de tres goles en un partido?
c) Cul es la probabilidad de recibir ms de cuatro goles en un partido?
d) Si los torneos son de diez partidos Podramos replantear la Distribucin Poisson
y modificar el intervalo de partido a torneo?

ii)

El nmero de estrellas en el rea abarcada por la posicin fija de un telescopio result


ser de 0.69.

31

Statistics for human beings

by Rueda, Jos A.

a) Al apuntar el telescopio a una direccin al azar Cul es la probabilidad de localizar


menos de tres estrellas?
b) Cul es la probabilidad de encontrar ese punto en especfico, sin estrellas?
c) Cul es la probabilidad de encontrar cuatro o ms estrellas en un punto dado?
d) Cul es la probabilidad de encontrar diez estrellas en una posicin fija del
telescopio?
Distribucin Hipergeomtrica
Dadas n repeticiones de un Evento Bernoulli, cuya probabilidad de xito es p; la Distribucin
Hipergeomtrica cuenta el nmero de xitos obtenidos al seleccionar los elementos de forma
sucesiva y con muestreo sin reemplazo; de manera que a cada evento se modifican las
probabilidades. Si XHyp(N, A, n), entonces:

() =

(
) (
)

()

, <& <
= 0,1,2
,

d. o. f.

Donde A es el nmero de elementos con la condicin buscada, B es el nmero de elementos que


no tienen tal condicin, N es el tamao de la poblacin y n el tamao de la muestra. Los
parmetros que definen la forma de la Distribucin Hipergeomtrica son N y A. La media es
= y la varianza es 2 = npq

, con p = A/N.

Ejemplo:
i)

En una sala de cmputo se ha notado que de los 55 estudiantes que usan las
maquinas, el 40% las usan de manera ldica. El supervisor de zona llegar el da de
hoy y decomisar las maquinas si ms de la mitad resultan ser usadas de manera
ldica en el momento; cuando el supervisor llega solo 10 estudiantes estn usando
los equipos.
a) Modele este caso mediante una Distribucin Hipergeomtrica y anote sus
parmetros.
b) Calcule la probabilidad de que las maquinas sean decomisadas
c) Calcule la probabilidad de que solo dos maquinas se estn usando para trabajar

ii)

El equipo mixto de baloncesto que representar al jardn de nios Amis en las


olimpiadas infantiles, reclutar a 12 integrantes para el torneo. Si en el grupo
disponible para la seleccin, existen 32 varones y 18 damitas

32

Statistics for human beings

by Rueda, Jos A.

a) Cuntas damitas podran ser reclutadas en promedio?


b) Cul ser la varianza del nmero de damitas que sern reclutadas?
c) Cul es la probabilidad de que ninguna damita sea elegida?
d) Cul es la probabilidad de que un tercio de los reclutados sean nias?

Distribucin Geomtrica
Dados un nmero dado de repeticiones de un Evento Bernoulli, cuya probabilidad de xito es p;
la Distribucin geomtrica cuenta el nmero de veces que ha de repetirse el evento Bernoulli
para obtener un solo xito. La notacin y la f.p. que describen a las principales distribuciones
discretas se resumen en el Cuadro 4.

Si ()entonces:

= 1,2

() =

d. o. f.

El nico parmetro de la Distribucin Geomtrica es p. Su media =

y su 2 =

Ejemplo:
i)

Don John sali hoy a la busca de patos para cazar. Su puntera no es muy buena, y
las ltimas veces ha tenido que disparar a diez patos para cazar apenas uno.
a) Modele este caso mediante una Distribucin Geomtrica y anote sus parmetros,
su f.p. y su F.D.
b) Cul es la media y la varianza para este caso en particular?
c) A cuntos patos debe disparar John si pretende volver a casa con un pato?

Cuadro 4. Principales modelos probabilsticos discretos


Distribucin Binomial
Si (, ) Distribucin Poisson
() =

() , = 0,1,
0

. .

()

() =

, = ,1,2

. .

Distribucin Hipergeomtrica
Distribucin Geomtrica
()
Si (, , )
1
, = 1,2
() =

(
) (
)

()

, <& <
= 0,1,2

() =

d. o. f.
33

Statistics for human beings

by Rueda, Jos A.

d. o. f.

M o d e l o s d e p r o b a b i l i d a d:
I I I. D i s t r i b u c i o n e s C o n t i n u a s M o d e l o s d e P rob a b i l i d a d C ua n t i t a t i v o s
Las distribuciones continuas ms comunes en el ejercicio de la inferencia estadstica han sido
modeladas en funcin a las necesidades en el anlisis de datos, y frecuentemente no describen
el comportamiento de una variable aleatoria natural (mediciones directas en campo), sino a
parmetros o a estimadores de los parmetros, obtenidos a partir de mediciones en una
muestra. Por lo que a estas distribuciones se les denomina Distribuciones derivadas del
muestreo.
Existe un sin nmero de distribuciones tericamente vlidas como funciones de densidad, ya que
la definicin matemtica agrupa a toda densidad o rea bajo una curva o recta cuya integral
en todo su rango sea exactamente igual a 1.0 (vea Propiedad 1 de la f. d.); como es el caso de
la funcin:

() =

2
2

para X|1x 2 (0, d. o. f.), para cuyo calculo de , 2 & P(a<x<b) en

cualquier intervalo vlido han sido descritas al final del captulo de funciones, sirva ese caso
como un ejemplo anticipado. Antes de adentrarnos en las distribuciones derivadas del muestreo,
analizaremos un ejemplo ms sobre una distribucin continua clsica.
Distribucin Uniforme Continua
Cuando una variable aleatoria es equi-probable para cualquier par de intervalos (a 1, b1) & (a2,
b2) de anchura idntica; su fX(x) es una lnea de altura igual a fX(x) que parte de 1 y termina en
1 . SI X

(1 ,

2 ) , entoces su f.d. es:


1
2 1

1 < < 2

() =

d. o. f.

La media de la D. Uniforme Continua est dada por =


cualquier intervalo [a,b] la P(a<x<b) =

2 1

1 +2
2

( 2 1 )2

; su varianza =

12

; & su F.D se obtiene al integrar () =

; y para

1
.
2 1

Distribucin Normal. Es la distribucin cuantitativa con mayor nmero de aplicaciones prcticas,


una gran diversidad de variables aleatorias naturales que describen situaciones reales sigue este

34

Statistics for human beings

by Rueda, Jos A.

modelo probabilstico. Inicialmente fue descrita por Karl Gauss (1777-855), por lo que es llamada
tambin la Campana de Gauss, o distribucin normal de errores. Su funcin de densidad es:

()
2

, < <

() =

d. o. f.

Donde es la media y 2 es la varianza de la distribucin normal.

A diferencia de los modelos


probabilsticos vistos hasta ahora, la funcin de densidad de la distribucin normal no se usa para
el clculo de probabilidades. Convencionalmente la variable original se transforma a un modelo
estndar para el cual las probabilidades ya han sido calculadas y tabuladas.
Propiedades:
1. La distribucin normal es simtrica respecto a y la P(X>) = P(X<) =0.5.
2. Debido a la simetra, = e = o (la media, la moda y la mediana coinciden).
3. La distancia horizontal entre el punto de inflexin (por cualquier lado) y es .
4. La probabilidad P (-< < ) = 0.68, P (-2< <2) = 0.95.

Distribuciones derivadas del muestreo

Distribucin Normal Estndar


Si (, 2 ), entonces Z =

; tal que Z (0,1). A la variable Z se le denomina distribucin

normal estndar representa una curva normal con media CERO y varianza UNO. Toda variable X
con distribucin normal es susceptible de transformarse en Z para facilitar el clculo de
probabilidades; despus de lo cual, es factible retransformar a las unidades originales.
1
2

()

< <
,

d.o.f.

Por no representar Z una variable natural tomada del mundo real, se dice que es una distribucin
derivada del muestreo. La curva Z conserva todas las propiedades que la distribucin normal tiene;
adicionalmente, facilita el clculo de probabilidades.

35

Statistics for human beings

by Rueda, Jos A.

Otras distribuciones derivadas del muestreo


A este selecto y til grupo pertenecen: adems de la ya mencionada 1. Distribucin Normal
Estndar o Z, que describe el comportamiento de una media muestral, una media poblacional, o
de una adicin de medias; 2. La Distribucin t de Student, que es til para los mismos casos que Z,
cuando los tamaos de muestra son reducidos o no se conoce la varianza poblacional; 3. La
Distribucin ji cuadrada 2, til al hacer inferencias sobre la varianza de una Distribucin Normal;
& 4. La Distribucin F de Fisher, til al hacer inferencia sobre la razn de dos varianzas de variables
con Distribucin Normal. Todas ellas guardan estrecha relacin entre s, sus funciones de densidad
se representan de una forma abreviada en la Figura 5.

Distribucin normal

Distribucin normal estndar

Distribucin ji-cuadrada

(, 2 )

(0,1)

2 = 12 + 12 + + 2

Distribucin normal de errores


de una variable aleatoria
continua

Transformacin de X cuando
para facilitar el clculo de
probabilidades

Evaluar sumas de valores Z


elevados al cuadrado
(distribucin de una varianza)

Distribucin F de Fisher

Distribucin t de Student

()

Razn entre dos 2 ; til al


hacer estimaciones sobre la
razn de dos varianzas

Transformacin de la curva
normal estndar para analizar
datos procedentes de
muestras pequeas

Figura 5. Relacin entre las distribucin derivadas del muestreo


El clculo de probabilidades en las distribuciones derivadas del muestreo no se realiza mediante la
integracin de la funcin de densidad, la cual es ms compleja de lo que aqu se indica; estas
curvas de distribucin son nicas y una vez especificados sus parmetros, todos los valores de
probabilidad son nicos y se pueden consultar en una tabla. Las tablas se proporcionarn como
material del curso. En particular la tabla Z reporta el rea acumulada a la derecha del valor z
consultado; es decir la P(Zz), lo que equivale a la Funcin de Distribucin de Z. La tabla t reporta
valor de t tal que P (Tt,n-1), lo que equivale a delimitar un rea a la derecha, exactamente igual a
, lo contrario a lo reportado por la tabla Z, el complemento de la Funcin de Distribucin. La
consulta de la tabla de 2 funciona exactamente de la misma forma, acumulando el rea desde la
derecha hacia la izquierda.

36

Statistics for human beings

by Rueda, Jos A.

Pr u e b as de h i p t e si s

I. Con cep t os ti l es en el pl an t eam i en t o de u n a pru eba


Usando las distribuciones continuas derivadas del muestreo como modelos que describen la
distribucin de los parmetros y la distribucin normal como una funcin que se adapta, casi de
manera universal, a un sin fin de variables naturales; es posible hacer predicciones sobre la media
y la varianza de una distribucin normal o sobre las medias y varianzas de un par de muestras
cuyos datos sea de inters prctico comparar. Al respecto cabe mencionar dos hechos concretos:
1. Una prediccin no es sino una respuesta a una a una hiptesis estadstica & 2. Tales hiptesis
producen una conclusin con respecto a los parmetros poblacionales y no respecto a los
estimadores.
Hiptesis estadstica: Una hiptesis es una aseveracin con respecto a un hecho, pero aun siendo
una frase imperativa, su veracidad o falsedad debe ser probada. En estadstica, una hiptesis
implica una sospecha sobre la localizacin del parmetro de una distribucin; sobre si este es
menor, mayor o igual a cierto valor de referencia. En este sentido, una hiptesis puede ser falsa o
no, sin que el investigador pueda probar con certeza lo uno o lo otro. Despus de aplicar un
procedimiento, el investigador puede refutarla o no refutarla, tal decisin conlleva un error
intrnseco.
El investigador solo somete a prueba un parmetro cuando desea comprobar alguna
diferencia que prev como cierta; el investigador siempre est en bsqueda de diferencias. Con
base en esto se define la hiptesis Hiptesis alterna (Ha) o hiptesis de investigacin, que alega
que los valores que se contrastan son diferentes; a la vez es necesario definir su complemento
(negacin), la Hiptesis nula (H0) o hiptesis del modelo, que alega que los valores que se
contrastan son iguales. Por lo hasta aqu dicho, la prueba de hiptesis tiene, las ms de las veces,
como objetivo rechazar la hiptesis nula con el menor margen de error posible. H0 &Ha
contendrn en un experimento a todo elemento en S, siendo adems el evento [H 0] el

37

Statistics for human beings

by Rueda, Jos A.

complemento de Ha ([H0] = [Ha]C); es decir, todo evento no considerado por la [H0], estar
contemplado en [Ha]. e.g.
[H0]

[Ha] Correcta

[Ha] Incorrecta

La luna es de queso

La luna es de cualquier material


excepto queso

La luna es de rocas baslticas

A lo mucho es medio da

Ya pasa de medio da

Es la una de la tarde

La media poblacional es a lo mucho


16 (16)

La media poblacional es mayor a 16


(>16)

La media es a lo menos 16 ( 16)

La varianza de X es por lo menos 5


(25)

La varianza es menor a 5
(2<5)

La varianza es por mucho 5 (25)

La proporcin de estudiantes con


10 es 0.1 (P=0.1)

La proporcin de estudiantes 10.0


difiere de 0.1 (P>0.1 P<0.1)

La proporcin de estudiantes con 10.0


es mayor a 0.1 (P>0.1)

Tipos de error: Dada una hiptesis nula y la necesidad de rechazarla como un objetivo en los ms
de los casos, y dada tambin la imposibilidad de verificar la certeza de la hiptesis con seguridad
tendremos los siguientes casos:
Decisin tomada
Rechazar
Condicin
desconocida

Hiptesis verdadera
Hiptesis falsa

(a) Error tipo I


()

No rechazar
()
(d) Error tipo II

El caso a) consiste en rechazar una hiptesis nula que en realidad es verdadera, la probabilidad
de cometer el error tipo I se denota por ( =PETI) y se est siempre en riesgo de cometer un ETI,
dada la imposibilidad de conocer la veracidad de la hiptesis y dado tambin la imposibilidad de
manipular la decisin (ya que se toma con base a una regla- Regla de Decisin-).
El caso d) corresponde a no rechazar una hiptesis nula que en realidad es falsa, la probabilidad
de cometer el error tipo II se denota por (= PETII); pese a la idntica importancia semntica de
ambos conceptos, es el ETI el que se usa ms en la toma de decisiones.
Los casos b) & c) no representan un error, rechazar una mentira (b) no rechazar una verdad
(d), suenan a simple vista como una decisin acertada. Existe un ETIII, el cual consiste en
desarrollar un anlisis incorrecto, basndose en datos errneos; definmoslo as: el ETIII consiste
en no verificar los supuestos bsicos de un anlisis antes de ejecutarlo.

Procedimiento para realizar una prueba de hiptesis


Usualmente el estudiante presta demasiada atencin a los clculos y al hacerlo deja de lado la
hiptesis misma y no logra concluir acertadamente. La hiptesis y el por qu de esta, as como la
conclusin de la prueba son las dos partes ms importantes; bsicamente o se puede hacer una
prueba de hiptesis si no se tiene una hiptesis.
38

Statistics for human beings

by Rueda, Jos A.

a) Plantear en smbolos Ha, la hiptesis del investigador y su complemento H0, la hiptesis


del modelo. El signo de Ha refleja la cola de la distribucin en la que se rechazara o no la
H0, y el signo de la Regla de Decisin.
b) Elegir la distribucin a la que se adapta el parmetro al que se refiera la hiptesis (las
hiptesis son asunciones sobre los parmetros, no sobre los estimadores) y calcular el
estadstico de prueba o valor calculado de la distribucin con base en la muestra. e.g.
si se ha elegido la distribucin t para resolver una hiptesis sobre la media, se calcula tCAL .
c) Consultar la tabla de la f.d. de la distribucin elegida para obtener el valor tabulado con
base en el tamao de la muestra y la PETI que se est dispuesto a tolerar. e.g.
partiendo de que ya se ha calculado tCAL, se debe obtener aqu t , n-1.
d) Aplicar la Regla de Decisin que para el caso ejemplificado en b) y c) versara Rechace H 0
con si tCAL (aqu el signo de Ha) t , n-1. La regla de decisin contrasta el valor de H0 con el
valor de Ha, lo cual se puede evaluar grficamente.
e) Concluir fuera de todo leguaje estadstico. Este paso es el ms importante.
Definiendo una prueba de hiptesis
Siempre que se evale una prueba de hiptesis, tendremos exclusivamente tres posibles
casos: a) probar que nuestro parmetro est por debajo de cierto valor, b) probar que el
parmetro supera cierto valor c) probar que el parmetro difiere de un valor de referencia.
Lo que grficamente representar una cola izquierda, derecha o dos colas a la vez. Estos tres
casos son una constante independientemente del parmetro que se desee explorar. Es de
nuestro inters el plantear y resolver pruebas de hiptesis para medias, varianzas, diferencias
entre dos medias y para la razn o cociente de dos varianzas de distribuciones normales.

39

Statistics for human beings

by Rueda, Jos A.

Pr u e b as de h i p t e si s
I I . P r ueba s d e h ip tes is s o bre la m ed ia d e u na d is tri buc i n no rm a l
Al realizar una prueba de hiptesis sobre la media de una distribucin normal, se pueden dar tres
casos de inters prctico: a) el investigador est interesado en demostrar que la media poblacional
() es menor a cierta constante ( ), por lo que esta ser Ha y la prueba ser de cola izquierda; b) el
investigador desea comprobar que la media poblacional () supera a un valor dado ( ), dando lugar a una
prueba de cola derecha; c) el investigador desea probar que la media es igual al valor de referencia, lo que
significar una hiptesis que descarta la mitad de en cada lado de la distribucin. A continuacin se
detallan los tres casos en una prueba de hiptesis de este tipo:
Caso

a)
b)
c)

Cola

Izquierda
Derecha
Dos colas

Hiptesis

Hiptesis

Regla de decisin

Regla de decisin

nula

alterna

n<30 2estimada

n>30 2conocida

H0: 0
H0: 0
H0: = 0

Ha: <
Ha: >
Ha:

Rechazar H0 si < - ,

Rechazar H0 si > , 1
Rechazar H0 si | | > ,1
2

Rechazar H0 si <
Rechazar H0 si > 1

Rechazar H0 si | |> |/2 |

Como podemos notar en el Cuadro 5, en funcin al tamao de la muestra o al conocimiento de la


varianza, tendremos dos formas de estimar el valor calculado; dado que la distribucin t fue
desarrollada para muestras pequeas. Los valores calculados para Z & t tienen una expresin
equivalente, ambas se muestran a continuacin.
Muestra pequea varianza
desconocida (t)

Varianza conocida o muestra


grande (Z)
40

Statistics for human beings

by Rueda, Jos A.

( )

( )

La regla de decisin parte el espacio muestral en dos zonas (en la curva de la funcin de densidad
t Z) que representan dos eventos mutuamente excluyentes. Donde t ( Z) de tablas es el punto
de divisin de estas reas, el rea ms pequea aislada en la cola (o colas) es el valor de ; el
rea ms grande corresponde a (1-), a la cual se denomina precisin la prueba.

(i)
(ii)

Ejemplos:
Si la calificacin de una prueba psicomtrica es de 1000 y la S es de 100 en una muestra de
tamao 16, es el parmetro realmente mayor a 980?
Si en el ejemplo anterior damos por sentado que =100, ser el parmetro menor a 1050?

Respuestas (i)&(ii)
(i)
= 1000 S =100 & n= 16 ; 0 = 980 Ha: Es > 980?
[)] Muestra pequea varianza desconocida (t). Cola derecha
a) H0: 980
Ha: > 980
b) =

( )

16 (1000980)
100

= 0.8

c) , 1 = 0.05, 15 = 1.7531
d) Rechazar H0 si > , 1
Rechazar H0 si > 0.05, 15
Rechazar H0 si 0.8 > 1.7531

e) NO se rechaza H0 con =0.05


No existe razn para sospechar que la media poblacional de
la calificacin de los sustentantes de esta prueba
psicomtrica sea superior a 980 puntos (P<0.05)
(ii)

= 1000, =100, n=16, 0 = 1050 & Ha: Es < 1050?

[)] Varianza conocida o muestra grande (Z). Cola izquierda


a) H0: 050
Ha: < 050
b) =

( )

16 (10001050)
100

= 2.0

c) = 0.05 = 1.65
d) Rechazar H0 si <
Rechazar H0 si <0.05
Rechazar H0 si 2.0 <1.65

41

Statistics for human beings

by Rueda, Jos A.
e) SI se rechaza H0 con =0.05.
La media poblacional de la calificacin de los sustentantes
de esta prueba psicomtrica es inferior a 1050 puntos
(P<0.05)

(iii)

Suponiendo que se ha tomado una muestra de tamao 27 y se ha encontrado una media y


desviacin idnticas a las reportadas en el ejercicio resuelto. Un sustentante alega que su
calificacin fue de 975 y que por tanto est en la media de inteligencia nacional. (i) Ser
la media poblacional significativamente diferente de 975? Resuelva.

Pr u e b as de h i p t e si s
I I I . P r ueba s d e H ip tes is s o bre la d ife renc ia ent re d o s m ed ia s ( ) c o n
d is t rib uc i n no rma l:

; entonces se pueden dar cualquiera de los tres casos
Sea = & =
descritos en seguida:
Caso

a)
b)
c)

Cola

Izquierda
Derecha
Dos colas

Hiptesis

Hiptesis

Regla de decisin

nula

alterna

Varianzas homogneas y
estimadas (t)

Varianzas heterogneas
y conocidas (Z)

Ho: 0

Ha: <

Rechazar H0 si < ,

Ho: 0

Ha: >

Ho: = 0

Ha:

Rechazar H0 si > ,

Rechazar H0 si <
Rechazar H0 si > 1

Rechazar H0 si | | > ,
2

Regla de decisin

+2

+2
+2

Rechazar H0 si | |> |/2 |

El caso ms importante es aquel donde = 0 y la hiptesis es el caso c), ya que implica que los
parmetros 1 & 2 son iguales. Puede verificarse que los tres casos aqu planteados son
equivalentes a los presentados para el caso de las pruebas de hiptesis sobre una sola media
(tema anterior) y que son basados de hecho en t y Z tambin. Las nicas dos diferencias residen
en que el valor calculado refleja la diferencia entre dos medias y el valor de tablas se consulta con
n+m-2 grados de libertad. Cuando el valor de a usar no sea especificado en el requerimiento de
una prueba deber de usarse regular e indistintamente un =0.05.

Varianzas homogneas y
estimada (t)

Valor
calculado

Varianzas heterogneas
y conocidas s (Z)

(1 2 ) 0
2 (1 + 1 )

42

Statistics for human beings

2 =

by Rueda, Jos A.

12 (

22 (

1) +
1)
+2

(1 2 ) 0
(

12 22
+ )

La regla de decisin separa la funcin de densidad de Z o t en dos reas (bajo la curva) es funcin
al valor de tabas (Z t ). En el caso de las pruebas de una sola cola, el valor del rea ms
pequea (PET I ) est aislado en uno de los extremos en la grfica de la funcin de densidad. En
las pruebas de dos colas, el valor de est dividido en dos pequeas reas en los extremos de la
funcin de densidad. Los valores de Z ( t) que se ubican bajo el rea que representa
comprende un segmento de recta que se conoce como zona de rechazo de H0; los valores que
estn fuera de esta zona comprenden la zona de NO rechazo de H0.
Ejemplos:
(i)

(ii)

En una empresa ensambladora de circuitos plug in para nodos de red, se midi el nmero
de unidades que se ensamblaban por da bajo A un esquema de descansos de 5 min c/h o&
B 15 min c/2 h. Obteniendo los sig. datos: A: 1735, 2002, 1820, 2082, 1894, 2873, 1816,
2008, 1758, 1898, 2223, 2313 & B: 3403, 3294, 2899, 3350, 3212, 2964,3098, 2984, 2492.
Son las medias poblacionales resultados diferentes? qu mtodo recomendara?
El empresario del caso (i) ha estimado que de acuerdo con la energa requerida para
encender la maquinaria cada dos horas solo ser rentable establecer el esquema de
descansos largos si la diferencia entre los mtodos de descanso rebasa 700 unidades (es
mayor qu). puede usted ayudar a tomar esta decisin?
Respuestas (i)&(ii)
(i)
1 = 2035.2 12 =101678.5 & n = 12,
2 = 3077.3 22 =80235.8 & m = 9,
Es 2 1?


= - 1 0 4 2 . 1
0 = & =
[)] Varianzas homogneas y estimadas (t) n & m pequeos. Dos colas
a) H0: = 0
H a: 0
b) =

2 =
c)

,
2

( 1 2)0
1 1
2 ( + )

1042.10
1 1
12 9

92650( + )

12 (1)+22 (1)

+2

+2

= 0.025,

19

= -7.7641

101678.5(11)+80235.8(8)
12+92

= 92650

= 2.0930

d) Rechazar H0 s| | > ,
2

+2

43

Statistics for human beings

by Rueda, Jos A.
Rechazar H0 s | | > 0.025,19
Rechazar H0 s |-7.7641| >2.0930
(Se rechaza por la izquierda)

e) SI se rechaza H0 con =0.05


Los dos mtodos de descanso producen resultados
diferentes en cuanto a produccin de unidades (P<0.05)
(ii)

1 = 2035.2 12 =101678.5 & n = 12,


2 = 3077.3 22 =80235.8 & m = 9,
Es 2 - 1 > 700


= 1 0 4 2 . 1
0 =
& =

[)] Varianzas homogneas y estimadas (t) n & m pequeos, cola derecha


a) H0: 700
Ha: > 700

= =
=
b) =

2 =

1 1
2( + )

1042.1700
1 1
12 9

92650( + )

12(1)+22(1)
+2

= 2.5487

101678.5(11)+80235.8(8)
19

= 92650


= 1 0 4 2 . 1 ;
Note que en la frmula de t se ha sustituido el valor (1 2 ) por =
i n d i c n d o l e q u e l a p r u e b a d e h i p te s i s e s to ta l m e n te d i f e r e n te s i s e p eg u n ta
p o r l a d i f e r e n ci a 2 - 1 que si se pregunta por a diferencia 2 - 1
c)

+2

= 0.05,

19

= 1.7291

d) Rechazar H0 s > , +2
Rechazar H0 s > 0.05, 19
Rechazar H0 s 2 .5487 > 1.7291

e) SI se rechaza H0 con =0.05


El mtodo de descansos ms largos supera en ms de 700
unidades la produccin diaria lograda por el mtodo de
descansos cortos en esta empresa (P<0.05)

(iii)

Se evala la capacidad de produccin de calor que tiene el carbn proveniente de la mina A:


1 = 8230 12 =15750 n = 5; respecto al de la mina B: 2 = 7940 22 = 10920 & m = 6. Use un
=0.01 para responder, es esta diferencia, estadsticamente significativa? Resuelva.
44

Statistics for human beings

by Rueda, Jos A.

Note que en este caso no trasciende si denotamos = x2 x1 = x1 x2


( =2-1 = 1-2, respectivamente); ya que en tanto la diferencia exista, est
podr ser probada si invade zona de rechazo de H0 en la cola izquierda o en la cola
derecha. Acorde con la regla de decisin, es irrelevante si entra en la zona de rechazo
por la izquierda o por la derecha.

P r u e b as de h i p t e si s
I V. P rue ba s d e H ip tes is s o bre la v a ria nz a d e una d is tr ibuc i n no rm a l
En situaciones donde es primordial que las medias de ciertas mediciones sean lo ms precisas posibles, es
necesario hacer pruebas para comprobar que la varianza no rebase ciertos lmites. Para ello, las condiciones
generales que aplican a una prueba de hiptesis son iguales a las ya revisadas en los temas II y III de Pruebas
de hiptesis. No obstante, el modelo probabilstico que se ajusta a la distribucin de la varianza es ji
cuadrada.
Caso

Cola

Hiptesis nula

Hiptesis alterna

Regla de decisin

a)
b)
c)

Izquierda
Derecha
Dos colas

H0: 0
H0: 0
Ho:: = 0

Ha: < 0
Ha: > 0
Ha: : 0

2
Rechazar H0 s
< 21, 1
2
Rechazar H0 s
> 2, 1
2
Rechazar H0 s < 2(1), 1
2
S
> 2(),
2

El valor de ji cuadrrda calculado se estima de la siguiente manera:


2

( 1) 2
02

Ejercicios:
Resuelva
(i)
El llenado de las bolsas de alimentos a granel presenta un reto importante cuando el
9llenado y sellado de las bolsas se hace mecnicamente; es posible encontrar desde
987 hasta 1019 g en las bolsas de 1 kg de una muestra tomada al azar durante una
hora de funcionamiento de la empacadora; el supervisor ha decidido detener la
produccin y ajustar las maquinas si la varianza es mayor a 49. Si se tomo una muestra
de 37 productos al azar se obtuvo una varianza de 56, Qu decidir el supervisor?.
(ii)

Con las condiciones mencionadas en (i) podr declararse que la desviacin estndar
es diferente de 6.4 g?

(iii)

El proceso usado para pulir discos de silicio a fin de que su grosor sea el apropiado es
aceptable solo si su desviacin no supera 0.005 pulg. En una muestra de 15 discos se
45

Statistics for human beings

by Rueda, Jos A.

ha calculado una desviacin de 0.0064. Con un a PETI mxima de 0.01, verifique si el


proceso de pulido es aceptable.

In t e r val os de C on fi an za
I.
Est i maci n
Estimacin puntual:
Cada vez que estamos en inters de describir un fenmeno a travs de sus variables aleatorias
relacionadas; deseamos en primer lugar estimar sus parmetros. Al clculo de una media muestral
( ) con el fin de tener una aproximacin de la media poblacional () se le llama estimacin
puntual, de igual manera ser una estimacin puntual cualquier dato que sea obtenido
directamente a partir de una lista de datos y su resultado sea una constante simple (s, b0, rxy, etc.).
No obstante, la idea principal es representar al parmetro poblacional con base en la muestra; y
son los parmetros los que regularmente sern el motivo de nuestras conclusiones.
Estimacin por intervalo:
Dada la intrnseca variacin de todo fenmeno, de toda variable y de toda estimacin en una
muestra (esta variacin es el motivo de esta ciencia que nos ocupa) un estimador resulta ser poco
creble o confiable a nivel cientfico. En la prctica es comn usar los estimadores como semilla
para calcular un intervalo, en el cual podra localizarse el parmetro que este estima; asociando
adems a tal intervalo un grado de precisin [precisin =1 ] o confianza [confianza = 100*(1

46

Statistics for human beings

by Rueda, Jos A.

)]. A estos intervalos se les llama intervalos de confianza y constituyen una segunda forma de
estimacin (adems de la estimacin puntual, e. g. ), llamada estimacin por intervalo.
En la estimacin puntual se obtiene una constante cuya esperanza es el parmetro que se estima
[E( )=]. En la estimacin por intervalo se acepta el hecho de que el estimador es impreciso y por
ello se le afirma que la media poblacional se encuentra entre dos valores dados (L < < ),
equidistantes de ; asignando adems una probabilidad a tal afirmacin. De tal manera que se
acepta que aun cuando tenemos un intervalo de valores en los que posiblemente se localice el
parmetro, de alguna manera estamos tambin afirmando que el parmetro no estar contenido
entre esos valores en el 100(1-)% de los casos.

Definiendo un intervalo de confianza


( < < + ) = 1
Donde: por ejemplo, si el parmetro de inters, es ; entonces la expresin del error E ser:
= /2,
que

( ) = /2 ( ) ; segn la naturaleza de la variable. Si el parmetro, es tal

= , e n to n ce s = ,
2

(+2)

( + )

= ( 1 +
2

22

) , segn la

naturaleza de las variables implcitas. Para el primer caso de este prrafo, hablamos usamos como
semilla () al estimador y para el segundo caso al estimador (1 2 ) .

O bien, usando una notacin familiar para nosotros P (L < < ) = 1 , donde L =
y = + . Se pueden plantear intervalos de confianza para con base en , intervalos de
confianza para
1 2 con base en 1 2 , para 2 con base en s2, o para

12

22

con base en

12
22

segn sea necesario.

Relacin entre pruebas de hiptesis e intervalos de confianza


Al evaluar una prueba de hiptesis de dos colas para la diferencia de dos medias con distribucin
normal; la zona de no rechazo de H0, equivale a un intervalo de confianza con la misma PETI usada
en la prueba. Si un intervalo de confianza con 0.95 de precisin, para , contiene entre sus
lmites a las cero; entonces la hiptesis nula de igualdad entre las dos medias no se rechazar con
un de 0. 05. De forma anloga: si un intervalo de confianza al 0.95 de precisin para la razn de
47

Statistics for human beings

by Rueda, Jos A.

dos varianzas, contiene al valor 1.0; entonces la hiptesis nula de igualdad entre estas dos
varianzas no se rechazar con un =0. 05. En general, un intervalo de confianza tiene una estrecha
relacin con una prueba de hiptesis de dos colas que use la misma PETI.
Por otro lado, el lmite superior de un intervalo de confianza podra equipararse con l punto que
divide la zona de no rechazo - a la izquierda - de la zona de rechazo - a la derecha - en una prueba
de hiptesis de con la derecha con una PETI igual a la mitad del usado en el intervalo. Sin
embargo, este lmite conserva las unidades originales de la variable aleatoria en el intervalo de
confianza, pero el valor de tablas (t, Z, 2 F) es el mismo (en el IC respecto a la PH de cola
derecha) cuando se cumplen las condiciones mencionadas arriba.

II.

In t e r val os de C on f i an za

In t erval o de c on f i an za p ara l a medi a de u n a di st ri bu ci n


n orm al
Muestra pequea varianza desconocida (t)
P (x t ,n1 (
2

S
n

) < < x + t ,n1 (


2

S
n

)) = 1

Varianza conocida muestra grande (Z)


( (
2

III .

) < < + (
2

)) = 1

In t e r val os de C on fi an za

In t erval o de c on f i an za p ara l a di f eren cia en t re dos medi as


( ) con di st rib u ci n n ormal

48

Statistics for human beings

by Rueda, Jos A.

Una de las necesidades ms frecuentes en la experimentacin es la comparacin entre dos medias


que provienen de dos muestras independientes de una variable con distribucin normal.
Usualmente una de las muestras representa la variable natural y la otra son datos tomados de la
misma variable despus de inducir una modificacin en el fenmeno que estudia. El inters de la
comparacin entre estas dos muestras ser: determinar si la modificacin inducida en la segunda
muestra provoc una modificacin palpable entre las medias muestrales. No obstante, la
conclusin implica que si no existe diferencia entre las medias poblacionales, stas proviene de la
misma variable; indicando que la modificacin inducida no cre una nueva variable y por tanto
ambas medias muestrales representan a la misma variable o a la misma distribucin.
Tanto una prueba de hiptesis, como un intervalo de confianza para la diferencia entre dos medias
con distribucin normal, pueden ser utilizados para conseguir las conclusiones que se implican en
el prrafo anterior.
Varianzas homogneas
1

((1 2 ) ,

(+2)

2 ( + ) < 1 2 < (1 2 ) + ,

((2 1 ) ,

(+2)

2 ( + ) < 2 1 < ( 2 1 ) + ,

2 ( + ) ) = 1

(+2)

2 ( + ) ) = 1

(+2)

Varianzas heterogneas
2 2
2 2
((1 2 ) ( 1 + 2 ) < 1 2 < (1 2 ) + ( 1 + 2 ) ) = 1

2
2
2 2
2 2
(( 2 1 ) ( 1 + 2 ) < 2 1 < (2 1 ) + ( 1 + 2 ) ) = 1

2
2

IV.

In t e r val os de C on fi an za

In t erval o de c on f i an za p ara l a vari an z a 2 de u n a mu est ra


c on di st ri bu ci n n orm al
49

Statistics for human beings

by Rueda, Jos A.

Conforme la varianza de una distribucin sea ms estrecha, la media ser un dato ms


representativo de la variable descrita y ms confiable. Una manera anloga de hacer predicciones
sobre los lmites mximos y mnimos que puede tomar la varianza poblacional, es establecer un
intervalo de confianza para 2 para con base en 2 y el tamao de muestra n. En ocasiones es
til detectar si la desviacin estndar o la varianza son mayores o menores a los valores
permitidos o convenientes; si un problema es detectado a este respecto, pueden a veces
modificarse las condiciones que provocan esta variacin y eliminarlas. En este sentido, las pruebas
de hiptesis y los intervalos de confianza sobre la varianza tienen gran importancia en la
optimizacin de procesos. Un IC para la varianza de una distribucin normal se calcula de la
siguiente manera:
2 ( 1)
2 ( 1)
( 2
< 2 < 2
) = 1
/2,(1)
1/2,(1)

In t e r val os de C on fi an za

V.

In t erval o de c on f i an za p ara l a raz n de d os vari an z as

12

22

de

mu est ras con di st ri b u ci n n ormal


A manera de introduccin se aclarar en primer instancia que las comparaciones entre medias no
siempre son correctas; para que una comparacin de medias sea adecuada. Los lados izquierdo y
derecho de la hiptesis de tal comparacin deben tener varianza similar. A este prerrequisito se la
prueba de hiptesis se le llama homogeneidad de varianzas. La mencionada similitud no implica que
sean idnticas, sino que provengan de la misma poblacin.

Si dos varianzas son homogneas, entonces el cociente

22

12

1, o bien

12

22

1. Siendo estas dos

expresiones totalmente diferentes, dado que las unidades en las que expresa el resultado toman
al divisor (e.g. 12 , para la primera expresin) como el total. Si la varianza dos es mayor

22

12

>1

& 21 < 1 ; el resultado del primer caso toma como 100% a 12 y el segundo toma a 22 como el
2

100%. En este sentido la prueba sufre una ligera modificacin en funcin de la unidad de
referencia (denominador en el cociente). Que dos varianzas sean homogneas iguales no implica
50

Statistics for human beings

by Rueda, Jos A.

que sean idnticas, sino similares. Dado que ya se ha explicado cmo funcionan las tablas F, aqu
solo se presentan las frmulas para el clculo del intervalo de confianza.

22
1
22
22
1
( 1 ) < 2 < 2 (1
, )) = 1
12 1

2
,
1
1
2

12
1
12
12
(
)
<
<
( 1 )) = 1
1
22 1
22
22 1 , 2
,
2

Si un intervalo de confianza para la razn de dos varianzas, contiene entre sus lmites el valor 1.0,
entonces puede concluirse que las dos varianzas usadas en este cociente son homogneas entre
s. Si el intervalo de confianza no contiene el valor 1.0, entonces se declara que las varianzas son
heterogneas.
Esta prueba funciona como una prueba de homogeneidad de varianzas y debera realizarse cada
vez que se pretenda hacer una prueba de hiptesis o un intervalo de confianza para la diferencia
de medias de dos muestras con distribucin normal. Si las varianzas resultan homogneas
entonces los mencionados casos deberan evaluarse mediante la distribucin t de Student; si por
el contrario, resultan heterogneas, entonces deber usarse la distribucin Z como modelo.

La fbula del carro viejo


La media nos dice dnde encontrar una variable
Despus de andar por algunos kilmetros con 5 L de gasolina, el viejo Mustang finalmente se detuvo, el lo haba
comenzado por cuestiones de liquidez, pero ahora haba que llamar a un amigo para llevar jalando el viejo hasta la
cochera. Afortunadamente an haba seal telefnica. La pregunta nmero uno fue Y dnde ests?. La posicin correcta
no siempre puede conocerse con exactitud, pero algunas conjeturas llevaron al km 28.5 de la carretera libre XalapaMxico.-Vaya!, al menos ahora sabr donde buscarte. Se requiere de una unidad o escala de medicin, una recta de
referencia y con unas cuantas mediciones vual! se tiene una localizacin aceptable.
La fbula del rayo McQueen:
Sobre la Homogeneidad de Varianzas
La carrera del siglo estaba por terminar y la foto de salida al parecer sera la nica manera de conocer el
ganador. McQueen, Chick y El Rey iban a la delantera. En la ltima vuelta, Mac (el triler que transporta a McQween a
los autdromos) cruz la lnea de meta justo en el instante que las cmaras tomaron la foto de salida. Mac crey que la

51

Statistics for human beings

by Rueda, Jos A.

carrera ya haba terminado e iba a recoger a McQueen para resguardarlo. Sin embargo Mac result ser el ganador de
acuerdo con el reglamento. El enorme cuerpo del triler haba sido lo nico que logro tomar la foto ya que todos los
competidores fueron obstruidos por el trailer. En efecto, para que la carrera sea justa: todos los autos competidores
deberan tener dimensiones similares.

La fbula del cochinito:


Es la media, suficiente para describir un conjunto de datos?
A ciertos estudiante Quan y Gedro les era asignado un presupuesto de 60 monedas cada da para
cubrir sus necesidades de transporte y alimento. A Q su padre le entregaba durante la semana: 58, 62, 60, 55 y
65. No obstante, el padre de G le asignaba en promedio sus 60 monedas entregndole durante la semana
cantidades como: 20, 100, 60, 0 y 120. Cuando Q y G se conocieron, G tuvo una revelacin importante en su
vida: una variable no est totalmente definida por su media, es necesario especificar su varianza. G lleg a su
casa y reclam a su padre en adelante verificar la dispersin de mi mesada; adems requiero de una
alcanca (cochinito) en la que pueda retirar o agregar cada da una cantidad de dinero que en promedio ser
proporcional a la desviacin estndar de mi presupuesto diario.
La fbula de la mancha en la pared:
Qu es la varianza?
Cuando John iba apenas a la Secundara escuch a su maestro decir que la varianza meda la
dispersin de un conjunto de datos; eso lo hizo enojar, ya que no entendi ni J. Al llegar a su casa su padre
comenzaba a pintar el muro frente a la chimenea y John dej caer por accidente su pelota de Ullamaliztli sobre
la cubeta de pintura equivocada, por lo que su padre la saco y la lanz sobre el muro, dejando en este una
mancha aforme grit: Quin meti esta cosa en mi pintura?!; a lo que John contest: Daddy Qu es la
varianza?. La varianza explica el tamao de esa enorme mancha que ahora tiene el muro. John comenz
entonces a limpiar la mancha y su padre se qued balbuceando entre dientes la dimensin de tu pelota, el
ngulo de lanzamiento y la viscosidad de la pintura son las variables independientes que causan la varianza
(tamao de la mancha) obtenida y la media es el punto central de la mancha, pero eso, eso no viene al caso.

52

Vous aimerez peut-être aussi