Vous êtes sur la page 1sur 391

Distribuciones muestrales

DISTRIBUCIONES MUESTRALES
Autores: ngel A. Juan (ajuanp@uoc.edu), Mximo Sedano (msedanoh@uoc.edu), Alicia Vila (avilag@uoc.edu).

ESQUEMA DE CONTENIDOS

________________________

CARACTERSTICAS DE LA DISTRIBUCIN MUESTRAL DE LA MEDIA DE LAS MUESTRAS

MUESTRA ALEATORIA SIMPLE

DISTRIBUCIONES MUESTRALES

TEOREMA DE LA DISTRIBUCION DE LAS MEDIAS MUESTRALES

CASO PRCTICO CON MINITAB

TEOREMA CENTRAL DEL LMITE

INTRODUCCIN

___________________

A menudo necesitamos estudiar las propiedades de una determinada poblacin, pero nos encontramos con el inconveniente de que sta es demasiado numerosa como para analizar a todos los individuos que la componen. Por tal motivo, recurrimos a extraer una muestra de la misma y a utilizar la informacin obtenida para hacer inferencias sobre toda la poblacin. Estas estimaciones sern vlidas slo si la muestra tomada es representativa de la poblacin. As, el muestreo es una tcnica que utilizaremos para inferir algo respecto de una poblacin mediante la seleccin de una muestra de esa poblacin. En este math-block veremos, entre otras cosas, cmo es posible estimar la media de la poblacin a partir de la distribucin que siguen las medias de las diferentes muestras obtenidas. [2] En muchos casos, el muestreo es la nica manera de poder obtener alguna conclusin de una poblacin, entre otras causas, por el coste econmico y el tiempo empleado que supondra estudiar a todos los miembros de una poblacin.

Proyecto e-Math Financiado por la Secretara de Estado de Educacin y Universidades (MECD)

Distribuciones muestrales

OBJETIVOS

________________________

Entender la necesidad de porqu en numerosas ocasiones una muestra es la nica forma factible de conocer una poblacin. Explicar los mtodos utilizados para seleccionar una muestra Entender cmo se disea una distribucin muestral para la media de la muestra Entender la importancia del Teorema Central del Lmite, as como su aplicacin

CONOCIMIENTOS PREVIOS

___________________________________

Sera conveniente revisar el math-block La distribucin normal para tener asimilados los conceptos relacionados con las distribuciones de probabilidad y las definiciones de variables aleatorias, as como el math-block La distribucin binomial, donde se introdujo el concepto de poblacin y muestra. Por ltimo, sera necesario consultar el manual de uso del Minitab.

CONCEPTOS FUNDAMENTALES
Definicin muestra aleatoria simple

______________________________

En principio, podramos distinguir dos tipos de muestra: la probabilstica y la no probabilstica, en el sentido en que una muestra probabilstica es una muestra seleccionada de tal forma que cada elemento de la poblacin tiene la misma probabilidad de formar parte de la muestra. De esta manera, si se utilizan mtodos no probabilsticos, no todos los elementos de la poblacin tienen la misma probabilidad de ser incluidos. En este caso, diramos que los resultados estn sesgados, lo cual quiere decir que tal vez los resultados de la muestra no sean representativos de la poblacin. Una forma de asegurarnos de que el subconjunto escogido es representativo de toda la poblacin consiste en tomar una muestra aleatoria simple, la cual se caracteriza por: 1. Cada miembro de la poblacin tiene la misma probabilidad de ser elegido, y 2. Las observaciones son elegidas siguiendo una secuencia aleatoria.

Error en el muestreo:
Tras entender la importancia de escoger una muestra representativa de la poblacin, veamos que para lograr esto, podemos seleccionar, por ejemplo, una muestra aleatoria simple de la poblacin, pero es muy improbable que la media de la muestra sea idntica a la media de la poblacin. De la misma manera, tal vez la desviacin estndar u otra medicin que se calcule con base en la muestra no sea igual al valor correspondiente de la poblacin Por tanto, es posible que existan ciertas diferencias entre los estadsticos de la muestra (como la media o la desviacin estndar), y los parmetros de poblacin correspondientes. A dicha diferencia se la conoce como error de muestreo.

Proyecto e-Math Financiado por la Secretara de Estado de Educacin y Universidades (MECD)

Distribuciones muestrales


Distribucin muestral de la media de las muestras:


Consistira en una distribucin de probabilidad de todas las medias posibles de las muestras de un tamao de muestra dado. As pues, dada una poblacin (a la cual representaremos por la v.a. X ), podemos extraer de la misma k muestras, cada una de ellas de tamao n. Para cada una de las k muestras podemos calcular un estadstico, p.e., la media de las n observaciones que la componen. As tendremos un total de k nuevos valores una nueva v.a.

xi , i = 1,..., k . Podemos asociar estos valores a

X , cuya distribucin llamaremos distribucin muestral.

Una de las propiedades ms importantes es la siguiente: Teorema (Distribucin de las Medias Muestrales): Sea X una v.a. cualquiera de media y desviacin tpica , entonces: o Si consideramos todas las muestras aleatorias posibles, cada una de ellas de tamao n, se cumplir que

x = y x =

Adems, si X sigue una distribucin normal,

X tambin ser normal.

Ejemplo: A fin de visualizar el Teorema de Distribucin de las Medias Muestrales, vamos a simular la extraccin de k=100 muestras de una variable normal con media 80 y desviacin tpica 5. Tomaremos como n=9 el tamao de cada muestra: Seleccionar Calc > Random Data > Normal :

Proyecto e-Math Financiado por la Secretara de Estado de Educacin y Universidades (MECD)

Distribuciones muestrales Rellenamos los campos segn se indica en la imagen inferior:

Habremos generado as una matriz de 9 columnas y 100 filas. Cada componente de esta matriz es una observacin aleatoria proveniente de una distribucin normal de media 80 y desviacin estndar 5. Consideraremos que cada una de las filas obtenidas es una muestra, y lo que haremos ahora ser calcular la media asociada a cada una de estas 100 muestras: Seleccionar Calc > Row Statistics y rellenar los campos segn se indica:

Disponemos ahora de 100 nuevos valores (las medias) situados en la columna 20. A continuacin se muestran los Dotplot asociados a las columnas C1 (que representa 100 valores aleatorios obtenidos de una normal 80-5), y C20:

Proyecto e-Math Financiado por la Secretara de Estado de Educacin y Universidades (MECD)

Distribuciones muestrales Seleccionar Graph > Character graph > Dotplot:

Dotplot
.. . . : .:: . :: ..::.: ::: . ... : .::::....::.:.::::::.:::.::.:::. :. : .:. . X-----+---------+---------+---------+---------+--------+-

.. ::: : . . ::: : : .:::::::.: .:::::::::::. :.::::::::::::::...: X-barra -----+---------+---------+---------+---------+--------+72,0 92,0


Finalmente, analizaremos tambin los estadsticos que describen la distribucin de las medias muestrales:

76,0

80,0

84,0

88,0

Descriptive Statistics
Variable X-barra Variable X-barra N 100 Minimum 76,035 Mean 79,566 Maximum 83,799 Median 79,446 Q1 78,459 TrMean 79,543 Q3 80,627 StDev 1,596 SE Mean 0,160

Proyecto e-Math Financiado por la Secretara de Estado de Educacin y Universidades (MECD)

Distribuciones muestrales

Observamos lo siguiente: 1. La distribucin de la v.a. inicial X era normal y, segn el grfico de puntos anterior, parece que tambin la distribucin de la v.a. X-barra es normal, de media muy similar y desviacin estndar menor (los puntos de la X-barra estn menos dispersos que los de la X). 2. Ms concretamente, la media de los 100 valores contenidos en C20 (y que es una aproximacin a la media de la v.a. X-barra) es de 79,566 , valor muy similar a la media de X (que era de 80). Esto es coherente con lo que la teora nos indica:

x =
3. La desviacin estndar de los 100 valores en C20 (que ser una aproximacin a la desviacin estndar de X-barra) es de 1,596 . Si tomamos la desviacin estndar de X (que era de 5) y la dividimos por 3 (raz de 9, el tamao de la muestra), obtenemos el valor 1,667. Ambos valores son muy parecidos, tal y como la teora predice:

x =

El Teorema Central del Lmite:


Sea X una v.a. cualquiera de media y desviacin tpica , entonces: Si el tamao muestral n es suficientemente grande (en la prctica suele valer n>30), la distribucin de las medias muestrales se aproxima a la de una normal, i.e.:

X N , n
La importancia del TCL radica en que sea cul sea la distribucin de la poblacin original (v.a. X), conforme el tamao de las muestras ( n ) aumenta, la distribucin de las medias se va aproximando a la de una normal (de la cual conocemos muchas propiedades). As, si la poblacin tiene una distribucin de probabilidad normal, entonces, para cualquier tamao de muestra la distribucin del muestreode la media tambin tendr una distribucin normal. Si la distribucin de la poblacin es simtrica (pero no normal), ser ver que surge la forma normal como lo establece el TCL an con muestras de al menos 30 para observar las caractersticas de normalidad. Un ejemplo grfico que muestra el Teorema Central del Lmite, lo podemos encontrar en el siguiente enlace: http://www.unalmed.edu.co/~estadist/C.L.T/T_C_L.htm , de forma que cambiando el tamao de la muestra veremos cmo va variando dicho grfico, obtendremos representaciones similares a la siguiente:

Proyecto e-Math Financiado por la Secretara de Estado de Educacin y Universidades (MECD)

Distribuciones muestrales

Otro ejemplo similar al anterior, lo podemos encontrar en: http://www.ideamas.cl/cursoProb/javaEstat/central_limit_theorem/clt.html . Nuevamente, cambiando los datos veremos cmo la distribucin resultante se va aproximando a una distribucin normal:

Proyecto e-Math Financiado por la Secretara de Estado de Educacin y Universidades (MECD)

Distribuciones muestrales

CASOS PRCTICOS CON SOFTWARE___________________________________


Segn viene publicado en una prestigiosa revista de economa, el salario semanal medio de los profesores universitarios europeos es de 406,15 . Se estima adems que la desviacin estndar de dichos salarios es de 55,50 . Supongamos ahora que pretendemos tomar una muestra aleatoria de 100 profesores para estudiar sus salarios. Calcular las siguientes probabilidades referentes a la media de dicha muestra: 1. La probabilidad de que la media de la muestra sea menor de 400 . En primer lugar, observar lo siguiente: como n = 100 >> 30, por el Teorema Central del Lmite tendremos que la distribucin de las medias muestrales una normal con media 406,15 y desviacin estndar 5,50. Hemos de hallar

X se podr aproximar por

P( X < 400) :

Seleccionamos: Calc > Probability Distributions > Normal :

Cumulative Distribution Function Normal with mean = 406,150 and standard deviation = 5,55000 x 400,0000 P( X <= x) 0,1339

Proyecto e-Math Financiado por la Secretara de Estado de Educacin y Universidades (MECD)

Distribuciones muestrales

2.

La probabilidad de que la media de la muestra est entre 400 y 410 . Sabemos que P ( 400 < X < 410) = P ( X < 410) P ( X < 400) . La segunda de stas probabilidades ya la hemos calculado en el apartado anterior. Para calcular la primera se razona anlogamente, obteniendo que:
Cumulative Distribution Function Normal with mean = 406,150 and standard deviation = 5,55000 x 410,0000 P( X <= x) 0,7561

Por tanto, tendremos:

P(400 < X < 410) = P( X < 410) P ( X < 400) = 0,6222

3. La probabilidad de que la media de la muestra sea mayor de 415 . En este caso, P ( X > 415) = 1 P ( X < 415) . Hemos de calcular pues esta ltima probabilidad, lo cual haremos de forma anloga a los apartados anteriores. Obtendremos lo siguiente: Cumulative Distribution Function
Normal with mean = 406,150 and standard deviation = 5,55000 x 415,0000 P( X <= x) 0,9446

Por consiguiente,

P( X > 415) = 1 P( X < 415) = 0,0554

4.

Hallar el valor del salario medio c tal que

P( X < c) = 0,95

Seleccionamos nuevamente: Calc > Probability Distributions > Normal , pero ahora elegiremos la opcin Inverse Cumulative Probability , con lo que obtendremos : Inverse Cumulative Distribution Function
Normal with mean = 406,150 and standard deviation = 5,55000 P( X <= x) 0,9500 x 415,2789

Proyecto e-Math Financiado por la Secretara de Estado de Educacin y Universidades (MECD)

Distribuciones muestrales

BIBLIOGRAFA
[1]

_________________________________

__________

Moya Anegn, F.; Lpez Gijn, J.; Garca Caro, C. (1996): Tcnicas cuantitativas aplicadas a la biblioteconomia y documentacin. Ed. Sntesis. Lind, D.; Mason, R.; Marchal, W. (2001): Estadstica para Administracin y Economa. Ed. Irwin McGraw-Hill. Johnson, R. (1996): Elementary Statistics. Ed. Duxbury. Farber, E. (1995): A Guide to Minitab. Ed. McGraw-Hill.

[2] [3] [4]

ENLACES

___________________________________________

___

http://www.unalmed.edu.co/~estadist/C.L.T/T_C_L.htm Descripcin y applet del Teorema Central del Lmite http://www.ideamas.cl/cursoProb/javaEstat/central_limit_theorem/clt.html Descripcin y applet del Teorema Central del Lmite. http://www.ruf.rice.edu/~lane/stat_sim/normal_approx/index.html Teora y applets, relacionados con la aproximacin de una normal a una binomial. http://www.udc.es/dep/mate/recursos.html Seleccin de recursos en Internet para la enseanza-aprendizaje de la Estadstica. http://psych.colorado.edu/~mcclella/java/normal/accurateNormal.html Applets relacionados con la representacin de una distribucin normal.

Proyecto e-Math Financiado por la Secretara de Estado de Educacin y Universidades (MECD)

10

Distribucin Normal

LA DISTRIBUCIN NORMAL
Autores: ngel A. Juan (ajuanp@uoc.edu), Mximo Sedano (msedanoh@uoc.edu), Alicia Vila (avilag@uoc.edu).

ESQUEMA DE CONTENIDOS

________________________

CARACTERSTICAS Y REPRESENTACIN DE UNA DISTRIBUCIN NORMAL

VARIABLE ALEATORIA CONTINUA

DISTRIBUCION NORMAL

DISTRIBUCIN NORMAL ESTNDAR APROXIMACION DE UNA DISTRIBUCION BINOMIAL POR UNA NORMAL

EJEMPLOS PRCTICOS CON MINITAB

INTRODUCCIN

___________________

La distribucin de probabilidad conocida como distribucin normal es, por la cantidad de fenmenos que explica, la ms importante de las distribuciones estadsticas. A la distribucin normal tambin se la denomina con el nombre de campana de Gauss, pues al representar su funcin de probabilidad, sta tiene forma de campana. [1] En el math-block sobre la distribucin binomial se introduce el concepto de variable aleatoria, distinguiendo adems dos tipos de variables, las discretas y las continuas. En este apartado seguimos con el estudio de distribuciones de probabilidad analizando la distribucin de probabilidad continua ms importante, la distribucin normal. A continuacin veremos las caractersticas principales de una distribucin de probabilidad normal, definiendo posteriormente la distribucin normal estndar as como sus usos. Posteriormente, veremos cmo utilizar la distribucin normal para estimar probabilidades binomiales.

Proyecto e-Math Financiado por la Secretara de Estado de Educacin y Universidades (MECD)

Distribucin Normal

OBJETIVOS
Entender el concepto de variable aleatoria continua

________________________

Conocer las caractersticas de la distribucin de probabilidad normal Aprender a calcular los valores de Z Saber determinar la probabilidad de que una observacin se encuentre entre dos puntos utilizando la distribucin de probabilidad normal Saber determinar la probabilidad de que una observacin est por encima (o por debajo) de un cierto valor utilizando la distribucin de probabilidad normal Aprender a comparar observaciones que se encuentran en diferentes distribuciones de probabilidad Ser capaz de utilizar la distribucin normal para aproximar la distribucin de probabilidad binomial

CONOCIMIENTOS PREVIOS

___________________________________

Sera conveniente revisar el math-block La distribucin binomial para tener asimilados los conceptos relacionados con las distribuciones de probabilidad y las definiciones de variables aleatorias continuas, as como entender el uso del Minitab en los distintos ejemplos que aparecen.

CONCEPTOS FUNDAMENTALES
Definicin de variable aleatoria continua

______________________________

Una variable aleatoria continua es aquella que puede asumir un nmero infinito de valores dentro de un determinado rango. Por ejemplo, el peso de una persona podra ser 80.5, 80.52, 80.525,... dependiendo de la precisin de la bscula.

Definicin de distribucin de probabilidad normal:


La Normal es la distribucin de probabilidad ms importante. Multitud de variables aleatorias continuas siguen una distribucin normal o aproximadamente normal. Una de sus caractersticas ms importantes es que casi cualquier distribucin de probabilidad, tanto discreta como continua, se puede aproximar por una normal bajo ciertas condiciones. La distribucin de probabilidad normal y la curva normal que la representa, tienen las siguientes caractersticas: La curva normal tiene forma de campana y un solo pico en el centro de la distribucin. De esta manera, la media aritmtica, la mediana y la moda de la

Proyecto e-Math Financiado por la Secretara de Estado de Educacin y Universidades (MECD)

Distribucin Normal distribucin son iguales y se localizan en el pico. As, la mitad del rea bajo la curva se encuentra a la derecha de este punto central y la otra mitad est a la izquierda de dicho punto. La distribucin de probabilidad normal es simtrica alrededor de su media. La curva normal desciende suavemente en ambas direcciones a partir del valor central. Es asinttica, lo que quiere decir que la curva se acerca cada vez ms al eje X pero jams llega a tocarlo. Es decir, las colas de la curva se extienden de manera indefinida en ambas direcciones.
La curva normal es simtrica

colas

media=mediana=moda

Para indicar que una variable aleatoria (v.a.) sigue una distribucin normal de media y desviacin estndar usaremos la expresin: X N(,).

Definicin de funcin de densidad de probabilidad:


La probabilidad de que una variable aleatoria (v.a.) X tome un valor determinado entre dos nmeros reales a y b coincide con el rea encerrada por la funcin f ( x ) = (funcin de densidad de probabilidad) entre los puntos a y b, es decir : P(aXb) =
1 x 2
2

f ( x)dx :
Norm al(2,1)
0,4

Funcin de densidad (f.d.p.)

0,3

0,2

0,1

0,0 a 2 b

Valores de la v.a. X

Proyecto e-Math Financiado por la Secretara de Estado de Educacin y Universidades (MECD)

Distribucin Normal Como hemos comentado anteriormente, observar que: La distribucin normal es simtrica respecto de su media . El rea total encerrada por f(x) vale 1, i.e.: Al ser X v.a. continua, P(X=a) =
+

f ( x)dx = P( < X < +) = 1 .

f ( x)dx = 0 , aR P(Xa) = P(X<a) .

Veamos, a travs de una sencilla aplicacin, este concepto de cmo la distribucin normal representa un rea bajo la curva. Para ello, podemos consultar el siguiente enlace: donde veremos, http://psych.colorado.edu/~mcclella/java/normal/accurateNormal.html, cambiando (1) los valores de la media y la desviacin estndar, y (2) los valores entre los cuales queremos calcular la probabilidad, a qu porcin de espacio bajo la curva normal corresponde la probabilidad buscada.

La distribucin normal estndar:


Se observ que no existe una sola distribucin de probabilidad normal, sino una familia de ellas. Como sabemos, cada una de las distribuciones puede tener una media () o una desviacin estndar distinta (). Por tanto, el nmero de distribuciones normales es ilimitado y sera imposible proporcionar una tabla de probabilidades para cada combinacin de y. Para resolver este problema, se utiliza un solo miembro de la familia de distribuciones normales, aquella cuya media es 0 y desviacin estndar 1 que es la que se conoce como distribucin estndar normal, de forma que todas las distribuciones normales pueden convertirse a la estndar, restando la media de cada observacin y dividiendo por la desviacin estndar. Primero, convertiremos la distribucin real en una distribucin normal estndar utilizando un valor llamado Z, o estadstico Z que ser la distancia entre un valor seleccionado, designado X, y la media , dividida por la desviacin estndar . Proyecto e-Math Financiado por la Secretara de Estado de Educacin y Universidades (MECD)

Distribucin Normal

Formalmente, si X N(,) , entonces la v.a. Z =

media 0 y desviacin estndar 1, i.e.: Z N(0,1) , que es la distribucin llamada normal estndar o tipificada. De esta manera, un valor Z mide la distancia entre un valor especificado de X y la media aritmtica, en las unidades de la desviacin estndar. Al determinar el valor Z utilizando la expresin anterior, es posible encontrar el rea de probabilidad bajo cualquier curva normal haciendo referencia a la distribucin normal estndar en las tablas correspondientes. As pues, para averiguar el rea anterior utilizaremos la tabla que encontraremos al final de este apartado. Dicha tabla nos proporciona la probabilidad de que la v.a. normal estndar Z tome un valor situado a la izquierda de un nmero c, i.e.: P(Z<c). En otras palabras, esta tabla nos da el valor del rea encerrada por f(x) entre - y c.

se distribuye segn una normal de

Normal(0,1)
0,4

Funcin de densidad (f.d.p.)

0,3

0,2

0,1

0,0 0 c

Valores de la v.a. Z

Ejemplos: a) b) c) d) P(Z<1,52) = {ver tabla} = 0,9357 P(Z>1,52) = {rea total = 1} = 1 P(Z<1,52) = 0,0643 P(0<Z<1,52) = P(Z<1,52) P(Z<0) = {simetra} = 0,9357 0,5000 = 0,4357 P(-2,1<Z<0) = P(Z<0) P(Z<-2,1) = {sim+tabla} = 0,5000 0,0179 = 0,4821

Por otra parte, denotemos por z() aquel nmero real tal que P[Z>z()] = Por ejemplo: a) z(0,25) = n que deja un rea de 0,25 a su derecha = {tabla} 0,675 ya que P(Z<0,67) = 0,7486 y P(Z<0,68) = 0,7517 . b) Si queremos calcular un n real c tal que P(-c<Z<c) = 0,95 , nos interesa hallar z(0,025) {ver grfico inferior}. Segn la tabla, c = z(0,025) = 1,96 ya que P(Z<1,96) = 0,975 y P(Z<-1,96) = 0,025 :

Proyecto e-Math Financiado por la Secretara de Estado de Educacin y Universidades (MECD)

Distribucin Normal

Normal(0,1)
0,4

Funcin de densidad (f.d.p.)

0,95 0,3

0,2 0,025 0,1 0,025

0,0 -c 0 c

Valores de la v.a. Z

Supongamos ahora que X N(100,16) . a) Cul es la probabilidad de que la variable X tome un valor entre 100 y 115? : 100 100 X 115 100 P(100 < X < 115) = P < < = P(0 < Z < 0,9375) 16 16 P(Z < 0,94) P(Z < 0 ) = 0,8264 0,5000 = 0,3264 b) Cal es la probabilidad de que X tome un valor mayor de 90? :
X 90100 P( X > 90) = P > = P(Z > 0,63) = 1 P(Z < 0,63) = 16 = 1 0,2643= 0,7357

Teorema de Chebyshev
Si X N(,) , entonces: a) b) c) P(-<X<+) = 0,68 P(-2<X<+2) = 0,95 P(-3<X<+3) = 0,997

i.e., el 68% (aproximadamente) de los valores que tome la v.a. X estarn situados a una distancia de la media inferior a una desviacin estndar. Anlogamente, el 95% de los valores estarn situados a menos de 2 veces la desviacin estndar, y un 99,7% de dichos valores se encontrarn dentro un radio de 3 sigma. Por lo tanto, para una distribucin normal, la mayor parte de todos los valores yacen a tres desviaciones standard de la media..

Proyecto e-Math Financiado por la Secretara de Estado de Educacin y Universidades (MECD)

Distribucin Normal Los applets que aparecen a continuacin permiten identificar los respectivos porcentajes del rea bajo la curva:

Aproximacin de la distribucin normal a la binomial:


Si X B ( n, p ) y el n de pruebas n es muy grande (en la prctica es suficiente con verificar: n*p5 y n*(1-p)5 ), entonces podemos aproximar la distribucin binomial anterior a una normal, en concreto: mejor cuanto mayor sea n. Hay que tener en cuenta que, antes de aplicar la distribucin normal, es necesario asegurarse de que la distribucin que queremos aproximar es, efectivamente, binomial. Para ello, hay que comprobar: Que un experimento slo puede tener dos resultados posibles y mutuamente excluyentes: un xito y un fracaso. La distribucin es consecuencia de contar el nmero de xitos de un nmero fijo de pruebas. Cada prueba es independiente. La probabilidad, p, permanece igual de una prueba a la siguiente.

X N n * p, n * p * (1 p ) . Esta aproximacin ser tanto

Factor de correccin de continuidad En el caso de una v.a. discreta, tiene sentido preguntarse por la probabilidad de que sta tome un determinado valor. Sin embargo, si consideramos que la v.a. X es continua, entonces P(X=a) = 0, aR. Por este motivo tendremos que aplicar el llamado factor de correccin por continuidad que veremos a continuacin, es decir, en el caso anterior calcularemos P(a0,5<X<a+0,5). Dicho valor 0,5 se suma o se resta, dependiendo de los requerimientos, a un valor seleccionado cuando una distribucin de probabilidad discreta se aproxima por medio de una distribucin continua.

Proyecto e-Math Financiado por la Secretara de Estado de Educacin y Universidades (MECD)

Distribucin Normal Los posibles casos son: Para la probabilidad de que al menos X ocurra, se utilizar el rea por encima de la curva (X-0,5) Para la probabilidad de que ocurra ms que X, se utilizar el rea por encima de la curva (X+0,5) Para la probabilidad de que ocurra X o menos, se utilizar el rea por debajo de la curva (X+0,5) Para la probabilidad de que ocurra menos de X, se utilizar el rea por debajo de la curva (X-0,5)

Si consultamos en: http://www.ruf.rice.edu/~lane/stat_sim/normal_approx/index.html , veremos mediante un applet muy sencillo la aproximacin de una normal a una distribucin binomial. Clicaremos en el botn Begin, que aparece a la parte superior izquierda de la pantalla, y cambiaremos el valor de N y p, as como los valores del intervalo.

Para mostrar la aplicacin de la aproximacin normal a la binomial y la necesidad de un factor de correccin, veamos el siguiente ejemplo resuelto con Minitab:

Ejemplo: Para muchas combinaciones de n y p es posible aproximar bastante bien una distribucin binomial B(n,p) mediante una distribucin normal de media = np y varianza 2 = np(1-p). Generalmente, esta aproximacin tiende a ser tanto mejor cuanto mayor es el nmero de pruebas n. Introducimos en la columna C1 de una hoja de trabajo los nmeros 0, 1, 2, ..., 16. En la columna C2 calcular P(X = 0), P(X = 1), ..., P(X = 16), siendo X una binomial de parmetros n = 16 y p = 0,5. Seleccionamos: Calc > Make Patterned Data > Simple Set of Numbers :

Proyecto e-Math Financiado por la Secretara de Estado de Educacin y Universidades (MECD)

Distribucin Normal

Ahora hacemos: Calc > Probability Distributions > Binomial :

El resultado ser el siguiente: Data Display


Row 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 C1 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 C2 0,000015 0,000244 0,001831 0,008545 0,027771 0,066650 0,122192 0,174561 0,196381 0,174561 0,122192 0,066650 0,027771 0,008545 0,001831 0,000244 0,000015

Proyecto e-Math Financiado por la Secretara de Estado de Educacin y Universidades (MECD)

Distribucin Normal Ahora introducimos en la columna C3 el valor de la funcin de densidad de probabilidad (f.d.p.) asociada a los valores de la C1 para una distribucin normal que aproxime a la binomial anterior. Observar que: = n*p = 8 y 2 = n*p*(1-p) = 4

Hacemos: Calc > Probability Distributions > Normal :

Dibujamos ahora, un diagrama de barras con los datos de las columnas C1 (en eje x) y C2 (en eje y). Superpuesto a l, dibujamos la funcin de densidad que se obtiene a partir de las columnas C1 (en eje x) y C3 (en eje y). A fin de superponer ambos grficos, elegimos la opcin: Graph > Layout :

Seleccionamos: Graph > Chart :

Proyecto e-Math Financiado por la Secretara de Estado de Educacin y Universidades (MECD)

10

Distribucin Normal Finalmente hacemos: Graph > Plot :

Para representar los grficos superpuestos basta con hacer: Graph > End Layout :

Aproxim acin norm al a una binom ial


0,2 binom ial

C2 y C3

fdp norm al 0,1

0,0 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16

C1

A partir del grfico anterior, observamos que podemos aproximar la probabilidad de que una variable binomial tome un determinado valor mediante la f.d.p. de una distribucin normal. As, por ejemplo, podemos estimar P(X = 7) (rea en azul) por P(6,5 < X < 7,5) rea comprendida entre la curva roja y ambos puntos). En el primer caso estamos considerando que la variable X es binomial, mientras que en el segundo consideramos que dicha variable es normal (y por tanto hacemos uso de la aproximacin por continuidad, puesto que para cualquier variable continua la probabilidad puntual es cero).

Proyecto e-Math Financiado por la Secretara de Estado de Educacin y Universidades (MECD)

11

Distribucin Normal

CASOS PRCTICOS CON SOFTWARE___________________________________


1. Los siguientes resultados corresponden a los ingresos, en miles de euros, que se han realizado en 50 cajeros automticos de una zona determinada durante un mes: 57 75 56 60 59 67 49 64 73 60 61 71 69 58 66 45 48 73 72 66 69 39 57 55 75 63 66 48 41 63 60 62 55 66 96 63 53 71 46 56 64 60 63 65 57 51 66 70 68 79

a) Calcular los estadsticos descriptivos de los datos anteriores y comprobar, mediante un histograma y un grfico de normalidad, si stos siguen una distribucin normal. Seleccionamos Stat > Basic Statistics > Display Descriptive Statistics > Graphs... y escogemos la opcin Histogram of data, with normal curve :

Proyecto e-Math Financiado por la Secretara de Estado de Educacin y Universidades (MECD)

12

Distribucin Normal Obtenemos, Descriptive Statistics


Variable C1 Variable C1 N 50 Minimum 39.00 Mean 61.92 Maximum 96.00 Median 63.00 Q1 56.00 TrMean 61.84 Q3 68.25 StDev 10.28 SE Mean 1.45

Por tanto, de este grfico podemos observar que efectivamente el histograma muestra aproximadamente una curva simtrica semejante a la correspondiente a una distribucin normal. Adems, si analizamos los parmetros estadsticos vemos que la media y la mediana toman valores bastante cercanos, lo cual propicia tambin que la distribucin se aproxime a una normal. Realizamos ahora el grfico de normalidad. Seleccionamos Stat > Basic Statistics > Normality Test:

Proyecto e-Math Financiado por la Secretara de Estado de Educacin y Universidades (MECD)

13

Distribucin Normal

Como vemos, la mayora de los puntos se encuentran sobre la lnea roja, lo cual indica que estos datos se pueden aproximar por una distribucin normal. b) Teniendo en cuenta la media y la desviacin tpica obtenida en el apartado anterior, simular con Minitab, los posibles resultados de los ingresos producidos en los mismos 50 cajeros durante el siguiente mes y comprobar mediante un grfico de normalidad que, efectivamente, estos datos siguen una distribucin normal . Seleccionamos Calc > Random Data > Normal (guardad los datos en la columna C2):

Observar que obtendremos 50 datos que seguirn una distribucin normal con media 62,92 y desviacin tpica 10,28, pero que sern diferentes a los datos del esta resolucin y diferentes a los que cada uno de vosotros obtengis.

Proyecto e-Math Financiado por la Secretara de Estado de Educacin y Universidades (MECD)

14

Distribucin Normal Calculamos ahora, el grfico de normalidad seleccionando Stat > Basic Statistics > Normality Test :

Como vemos, claramente estos datos siguen una distribucin normal como era de esperar ya que provienen de una normal. c) Ahora analizaremos los grficos de funciones de probabilidad, para valorar el ajuste de una binomial por una normal. En la pgina web http://www.ruf.rice.edu/~lane/stat_sim/binom_demo.html encontraremos un grfico que varia segn cambiemos el nmero de pruebas n y la probabilidad de xito p. As pues, tomaremos diversos valores para n (por ejemplo, n=10, 100, 1000...), y comentaremos los resultados explicando bsicamente cmo varia el grfico al aumentar el tamao de la muestra.

El grfico demuestra cmo mejora la distribucin binomial por una normal, a medida que el valor del tamao muestral n aumenta. Si vamos incrementando considerablemente el valor de n, observaremos que la distribucin se va desplazando hacia la derecha porque la media toma el valor n*p, adems la distribucin tambin se va aplanando porque la varianza aumenta al aumentar n.

Proyecto e-Math Financiado por la Secretara de Estado de Educacin y Universidades (MECD)

15

Distribucin Normal

2. El Universo de los libros es una librera recientemente inaugurada que, adems de la propia consulta de libros, ofrece los servicios de cafetera. Para una prxima exposicin en la Feria del libro, la empresa ha decidido solicitar a la fbrica textil Textart, la elaboracin de camisetas promocionales de la librera. Textart, decide hacer camisetas de tres tallas: L, XL, XXL. Dado que todas las camisetas sern bastante anchas, lo que har optar por una talla u otra ser la altura. Para ello, Texart , tras realizar el estudio pertinente, concluye que las alturas de los posibles compradores potenciales seguirn una distribucin normal, con media 164,5 cm. y desviacin estndar 9,2 cm. a) Supongamos que la fbrica ya tiene los patrones hechos, y recomienda la talla L hasta 160 cm., talla XL hasta 180 cm. y talla XXL para alturas superiores. Bajo estas condiciones, qu proporcin de camisetas de cada tipo es razonable que se fabriquen? Escribimos en la primera columna los nmeros 160 y 180, y seleccionamos Calc > Probability Distributions > Normal, activando la opcin Cumulative Probability y rellenando con la informacin de que disponemos:

Cumulative Distribution Function Normal with mean = 164.500 and standard deviation = 9.20000 x 160.0000 180.0000 P( X <= x) 0.3124 0.9540

Por tanto, p( talla L ) = p[X < 1,60] = 0,312, es decir, el 31,2% p( talla XL ) = p[1,60 < X < 1,80] = p[X < 1,80] p[X < 1,60] = 64,2% p( talla XXL ) = p[X > 1,80] = 1 p[X < 1,80] = 4,6%

Proyecto e-Math Financiado por la Secretara de Estado de Educacin y Universidades (MECD)

16

Distribucin Normal

b) Supongamos ahora, que por razones de mercado, la empresa cree conveniente fabricar el 10% de camisetas de la talla L, el 65% de la talla XL y el 25% restante de la talla XXL. Cules sern los lmites de alturas con que se tendra que disear cada talla? En este apartado, como sabemos el valor de las probabilidades, lo que pretendemos calcular son los valores de la distribucin. Para ello, tendremos que utilizar la opcin de la Probabilidad inversa acumulada. Es decir, queremos saber t, tal que P(X<t)=0.1 De igual manera, buscamos c, tal que P(X<c)=0.75 (0.1+0.65) Introducimos, en la columna C2, dichos valores (0.1, 0.75) Seleccionamos Calc > Probability Distributions > Normal, y activamos Inverse Cumulative Probability, con C2 como Input Column:

Inverse Cumulative Distribution Function Normal with mean = 164.500 and standard deviation = 9.20000 P( X <= x) 0.1000 0.7500 x 152.7097 170.7053

Los valores de X obtenidos son las alturas en cm., que delimitarn las tallas porque son los valores que verifican las expresiones anteriores , es decir: P(X<152.71) = 0.1 P(X<170.71) = 0.75

Proyecto e-Math Financiado por la Secretara de Estado de Educacin y Universidades (MECD)

17

Distribucin Normal
rea bajo la curva normal estndar:
z -3,4 -3,3 -3,2 -3,1 -3,0 -2,9 -2,8 -2,7 -2,6 -2,5 -2,4 -2,3 -2,2 -2,1 -2,0 -1,9 -1,8 -1,7 -1,6 -1,5 -1,4 -1,3 -1,2 -1,1 -1,0 -0,9 -0,8 -0,7 -0,6 -0,5 -0,4 -0,3 -0,2 -0,1 0,0 0,1 0,2 0,3 0,4 0,5 0,6 0,7 0,8 0,9 1,0 1,1 1,2 1,3 1,4 1,5 1,6 1,7 1,8 1,9 2,0 2,1 2,2 2,3 2,4 2,5 2,6 2,7 2,8 2,9 3,0 3,1 3,2 3,3 3,4 0,00 0,0003 0,0005 0,0007 0,0010 0,0013 0,0019 0,0026 0,0035 0,0047 0,0062 0,0082 0,0107 0,0139 0,0179 0,0228 0,0287 0,0359 0,0446 0,0548 0,0668 0,0808 0,0968 0,1151 0,1357 0,1587 0,1841 0,2119 0,2420 0,2743 0,3085 0,3446 0,3821 0,4207 0,4602 0,5000 0,5398 0,5793 0,6179 0,6554 0,6915 0,7257 0,7580 0,7881 0,8159 0,8413 0,8643 0,8849 0,9032 0,9192 0,9332 0,9452 0,9554 0,9641 0,9713 0,9772 0,9821 0,9861 0,9893 0,9918 0,9938 0,9953 0,9965 0,9974 0,9981 0,9987 0,9990 0,9993 0,9995 0,9997 0,01 0,0003 0,0005 0,0007 0,0009 0,0013 0,0018 0,0025 0,0034 0,0045 0,0060 0,0080 0,0104 0,0136 0,0174 0,0222 0,0281 0,0351 0,0436 0,0537 0,0655 0,0793 0,0951 0,1131 0,1335 0,1562 0,1814 0,2090 0,2389 0,2709 0,3050 0,3409 0,3783 0,4168 0,4562 0,5040 0,5438 0,5832 0,6217 0,6591 0,6950 0,7291 0,7611 0,7910 0,8186 0,8438 0,8665 0,8869 0,9049 0,9207 0,9345 0,9463 0,9564 0,9649 0,9719 0,9778 0,9826 0,9864 0,9896 0,9920 0,9940 0,9955 0,9966 0,9975 0,9982 0,9987 0,9991 0,9993 0,9995 0,9997 0,02 0,0003 0,0005 0,0006 0,0009 0,0013 0,0018 0,0024 0,0033 0,0044 0,0059 0,0078 0,0102 0,0132 0,0170 0,0217 0,0274 0,0344 0,0427 0,0526 0,0643 0,0778 0,0934 0,1112 0,1314 0,1539 0,1788 0,2061 0,2358 0,2676 0,3015 0,3372 0,3745 0,4129 0,4522 0,5080 0,5478 0,5871 0,6255 0,6628 0,6985 0,7324 0,7642 0,7939 0,8212 0,8461 0,8686 0,8888 0,9066 0,9222 0,9357 0,9474 0,9573 0,9656 0,9726 0,9783 0,9830 0,9868 0,9898 0,9922 0,9941 0,9956 0,9967 0,9976 0,9982 0,9987 0,9991 0,9994 0,9995 0,9997

P( Z < z ) donde Z sigue una distrib. N(0,1)


segundo decimal de z 0,04 0,05 0,06 0,0003 0,0003 0,0003 0,0004 0,0004 0,0004 0,0006 0,0006 0,0006 0,0008 0,0008 0,0008 0,0012 0,0011 0,0011 0,0016 0,0016 0,0015 0,0023 0,0022 0,0021 0,0031 0,0030 0,0029 0,0041 0,0040 0,0039 0,0055 0,0054 0,0052 0,0073 0,0071 0,0069 0,0096 0,0094 0,0091 0,0125 0,0122 0,0119 0,0162 0,0158 0,0154 0,0207 0,0202 0,0197 0,0262 0,0256 0,0250 0,0329 0,0322 0,0314 0,0409 0,0401 0,0392 0,0505 0,0495 0,0485 0,0618 0,0606 0,0594 0,0749 0,0735 0,0721 0,0901 0,0885 0,0869 0,1075 0,1056 0,1038 0,1271 0,1251 0,1230 0,1492 0,1469 0,1446 0,1736 0,1711 0,1685 0,2005 0,1977 0,1949 0,2296 0,2266 0,2236 0,2611 0,2578 0,2546 0,2946 0,2912 0,2877 0,3300 0,3264 0,3228 0,3669 0,3632 0,3594 0,4052 0,4013 0,3974 0,4443 0,4404 0,4364 0,5160 0,5199 0,5239 0,5557 0,5596 0,5636 0,5948 0,5987 0,6026 0,6331 0,6368 0,6406 0,6700 0,6736 0,6772 0,7054 0,7088 0,7123 0,7389 0,7422 0,7454 0,7704 0,7734 0,7764 0,7995 0,8023 0,8051 0,8264 0,8289 0,8315 0,8508 0,8531 0,8554 0,8729 0,8749 0,8770 0,8925 0,8944 0,8962 0,9099 0,9115 0,9131 0,9251 0,9265 0,9279 0,9382 0,9394 0,9406 0,9495 0,9505 0,9515 0,9591 0,9599 0,9608 0,9671 0,9678 0,9686 0,9738 0,9744 0,9750 0,9793 0,9798 0,9803 0,9838 0,9842 0,9846 0,9875 0,9878 0,9881 0,9904 0,9906 0,9909 0,9927 0,9929 0,9931 0,9945 0,9946 0,9948 0,9959 0,9960 0,9961 0,9969 0,9970 0,9971 0,9977 0,9978 0,9979 0,9984 0,9984 0,9985 0,9988 0,9989 0,9989 0,9992 0,9992 0,9992 0,9994 0,9994 0,9994 0,9996 0,9996 0,9996 0,9997 0,9997 0,9997 0,07 0,0003 0,0004 0,0005 0,0008 0,0011 0,0015 0,0021 0,0028 0,0038 0,0051 0,0068 0,0089 0,0116 0,0150 0,0192 0,0244 0,0307 0,0384 0,0475 0,0582 0,0708 0,0853 0,1020 0,1210 0,1423 0,1660 0,1922 0,2206 0,2514 0,2843 0,3192 0,3557 0,3936 0,4325 0,5279 0,5675 0,6064 0,6443 0,6808 0,7157 0,7486 0,7794 0,8078 0,8340 0,8577 0,8790 0,8980 0,9147 0,9292 0,9418 0,9525 0,9616 0,9693 0,9756 0,9808 0,9850 0,9884 0,9911 0,9932 0,9949 0,9962 0,9972 0,9979 0,9985 0,9989 0,9992 0,9995 0,9996 0,9997 0,08 0,0003 0,0004 0,0005 0,0007 0,0010 0,0014 0,0020 0,0027 0,0037 0,0049 0,0066 0,0087 0,0113 0,0146 0,0188 0,0239 0,0301 0,0375 0,0465 0,0571 0,0694 0,0838 0,1003 0,1190 0,1401 0,1635 0,1894 0,2177 0,2483 0,2810 0,3156 0,3520 0,3897 0,4286 0,5319 0,5714 0,6103 0,6480 0,6844 0,7190 0,7517 0,7823 0,8106 0,8365 0,8599 0,8810 0,8997 0,9162 0,9306 0,9429 0,9535 0,9625 0,9699 0,9761 0,9812 0,9854 0,9887 0,9913 0,9934 0,9951 0,9963 0,9973 0,9980 0,9986 0,9990 0,9993 0,9995 0,9996 0,9997 0,09 0,0002 0,0003 0,0005 0,0007 0,0010 0,0014 0,0019 0,0026 0,0036 0,0048 0,0064 0,0084 0,0110 0,0143 0,0183 0,0233 0,0294 0,0367 0,0455 0,0559 0,0681 0,0823 0,0985 0,1170 0,1379 0,1611 0,1867 0,2148 0,2451 0,2776 0,3121 0,3483 0,3859 0,4247 0,5359 0,5753 0,6141 0,6517 0,6879 0,7224 0,7549 0,7852 0,8133 0,8389 0,8621 0,8830 0,9015 0,9177 0,9319 0,9441 0,9545 0,9633 0,9706 0,9767 0,9817 0,9857 0,9890 0,9916 0,9936 0,9952 0,9964 0,9974 0,9981 0,9986 0,9990 0,9993 0,9995 0,9997 0,9998

0,03 0,0003 0,0004 0,0006 0,0009 0,0012 0,0017 0,0023 0,0032 0,0043 0,0057 0,0075 0,0099 0,0129 0,0166 0,0212 0,0268 0,0336 0,0418 0,0516 0,0630 0,0764 0,0918 0,1093 0,1292 0,1515 0,1762 0,2033 0,2327 0,2643 0,2981 0,3336 0,3707 0,4090 0,4483 0,5120 0,5517 0,5910 0,6293 0,6664 0,7019 0,7357 0,7673 0,7967 0,8238 0,8485 0,8708 0,8907 0,9082 0,9236 0,9370 0,9484 0,9582 0,9664 0,9732 0,9788 0,9834 0,9871 0,9901 0,9925 0,9943 0,9957 0,9968 0,9977 0,9983 0,9988 0,9991 0,9994 0,9996 0,9997

Proyecto e-Math Financiado por la Secretara de Estado de Educacin y Universidades (MECD)

18

Distribucin Normal

BIBLIOGRAFA
[1]

_________________________________

__________

Moya Anegn, F.; Lpez Gijn, J.; Garca Caro, C. (1996): Tcnicas cuantitativas aplicadas a la biblioteconomia y documentacin. Ed. Sntesis. Lind, D.; Mason, R.; Marchal, W. (2001): Estadstica para Administracin y Economa. Ed. Irwin McGraw-Hill. Johnson, R. (1996): Elementary Statistics. Ed. Duxbury. Farber, E. (1995): A Guide to Minitab. Ed. McGraw-Hill.

[2] [3] [4]

ENLACES

_________________________________

________

http://www.unalmed.edu.co/~estadist/NORMAL/Distribucion_Normal.htm Caractersticas bsicas de una distribucin normal. http://es.geocities.com/riotorto/norm/norm.htm Pgina correspondiente a procesamientos estadsticos de datos biomdicos. http://www.ruf.rice.edu/~lane/stat_sim/normal_approx/index.html Teora y applets, relacionados con la aproximacin de una normal a una binomial. http://www.udc.es/dep/mate/recursos.html Seleccin de recursos en Internet para la enseanza-aprendizaje de la Estadstica. http://psych.colorado.edu/~mcclella/java/normal/accurateNormal.html Applets relacionados con la representacin de una distribucin normal.

Proyecto e-Math Financiado por la Secretara de Estado de Educacin y Universidades (MECD)

19

Estadstica Descriptiva con Minitab

ESTADSTICA DESCRIPTIVA CON MINITAB


Autores: Angel Alejandro Juan (ajuanp@uoc.edu) , Maximo Sedano (msedanoh@uoc.edu) , Alicia Vila (avilag@uoc.edu) .

MAPA CONCEPTUAL

________________________

DEFINICIN DE POBLACIN Y MUESTRA

ESTADSTICA DESCRIPTIVA CON MINITAB

DESCRIPCIN DE LOS PARMETROS ESTADSTICOS

VARIABLES ALEATORIAS

REPRESENTACIN GRFICA MEDIDAS DE CENTRALIZACION

CASO PRCTICO CON MINITAB


MEDIDAS DE DISPERSIN

Proyecto e-Math Financiado por la Secretara de Estado de Educacin y Universidades (MECD)

Estadstica Descriptiva con Minitab

INTRODUCCIN

___________________

La estadstica se encuentra frecuentemente en nuestro lenguaje cotidiano. Por ejemplo, cuando hacemos referencia a la media del salario de los empleados de una determinada empresa o las variaciones de las cifras del Dow Jones en la ltima semana. As, podramos definir la Estadstica como la ciencia encargada de reunir, organizar, presentar, analizar e interpretar datos con el fin de obtener unas determinadas conclusiones y tomar unas determinadas decisiones[1]. En general, la estadstica se divide en dos categoras: Estadstica descriptiva, que es la parte de la estadstica encargada de extraer y organizar los datos procedentes de un determinado conjunto de observaciones. Estadstica inferencial, que pretende predecir una informacin acerca de un conjunto de datos, a partir de los resultados extrados de un subconjunto de ellos.

Los pasos a seguir para realizar una investigacin estadstica seran los siguientes:
Problema Recogida y Organizacin de datos Anlisis e interpretacin Conclusiones y decisiones

En este apartado nos encargaremos nicamente de definir los parmetros correspondientes a la estadstica descriptiva para organizar, describir y analizar una coleccin de datos, as como las posibles representaciones grficas de stos.

OBJETIVOS

________________________

Clculo e interpretacin de los parmetros de centralizacin: media aritmtica, mediana y moda. Clculo e interpretacin de los parmetros de dispersin: rango, varianza y desviacin estndar. Clculo e interpretacin de los cuartiles, rango intercuartlico y coeficiente de variacin. Representacin grfica de los datos.

Proyecto e-Math Financiado por la Secretara de Estado de Educacin y Universidades (MECD)

Estadstica Descriptiva con Minitab

CONOCIMIENTOS PREVIOS

___________________________________

Poblacin: Conjunto de objetos, individuos o sucesos cuyas propiedades queremos analizar. Muestra: Subconjunto de la poblacin objeto de estudio. El conjunto de los datos recogidos para llevar a cabo un estudio estadstico, recibirn el nombre de variable aleatoria que normalmente se denotar X. Los datos correspondientes pueden ser, bsicamente, de dos tipos: Variable cualitativa: los datos que forman la variable no son numricos. Por ejemplo, religin a la que se pertenece, tipo de automvil, color de los ojos,... Variable cuantitativa: los datos que forman la variable s son numricos. Por ejemplo, saldo de una cuenta corriente, velocidad de los coches,... Dentro de este grupo de variables podemos distinguir otras dos categoras. Por una parte, tendramos las variables discretas que seran aquellas que slo pueden asumir ciertos valores (por ejemplo, nmero de automviles/h. en una autopista, nmero de estudiantes en la asignatura de estadstica,...) y por otra parte, las variables continuas que pueden tomar cualquier valor dentro de un rango especfico (por ejemplo, alturas de los alumnos de una clase, tiempo transcurrido en el vuelo de Barcelona a Madrid,...)

Por ltimo, una vez tenemos recogidos los datos, agrupamos stos de forma excluyente dando a cada uno de ellos el nmero de observaciones, es decir, el nmero de veces que se repite cada valor, este nmero tomar el nombre de frecuencia.

CONCEPTOS FUNDAMENTALES

______________________________

Las tcnicas utilizadas para la descripcin de datos se dividen, bsicamente, en dos bloques: Parmetros de centralizacin: Son aquellos cuyo objetivo es explicar mediante un valor numrico, cual es la tendencia mayoritaria de las observaciones de la coleccin de datos que se analizan. Dichos parmetros sern, entre otros, la media, la mediana y la moda. Parmetros de dispersin: Corresponden a aquellos parmetros cuyo objetivo es detectar el grado de proximidad de los datos respecto a los valores centrales. Dichos parmetros sern, entre otros, el rango, los cuartiles, la varianza y la desviacin estndar.

Medidas de centralizacin
Las medidas de centralizacin nos sirven para representar el valor medio de los datos, es decir, el valor que refleja el tamao del dato ms esperado. Ello nos indica la posicin en la que se encuentra en el centro de los datos. [2]

Proyecto e-Math Financiado por la Secretara de Estado de Educacin y Universidades (MECD)

Estadstica Descriptiva con Minitab Las medidas de centralizacin ms utilizadas son: Media : Es la suma de un conjunto de observaciones dividido por el nmero total de observaciones realizadas. Si calculamos la media poblacional, la expresin ser la siguiente: = 1 N

x
=1 i

En cambio, si lo que estamos calculando es la media muestral, la notacin ser la que sigue: X= 1 xi ni =1

siendo xi cada uno de los valores de la distribucin, y n el nmero de observaciones.

Ejemplo: La biblioteca virtual de la UOC quiere conocer el tiempo medio que tardan los usuarios en devolver los prstamos. Se ha tomado una muestra de 15 usuarios, obteniendo los siguientes tiempos, en das, de devolucin: U1 U2 U3 U4 U5 U6 U7 U8 U9 U10 U11 U12 U13 U14 U15 10 20 12 14 16 18 22 10 16 13 21 15 12 20 18 Para calcular la media aritmtica de esta distribucin,lo haremos de dos formas: Manualmente: X= 1 15

x = 15 (10 + 20 + ... + 18) = 15.8


i i =1

15

Con Minitab: Introducimos los valores en el espacio de trabajo y seleccionamos, Calc > Column Statistics y activamos la opcin Mean:

Column Mean
Mean of C1 = 15.800

Proyecto e-Math Financiado por la Secretara de Estado de Educacin y Universidades (MECD)

Estadstica Descriptiva con Minitab

Mediana : Es un nmero tal que, si ordenamos los datos de forma creciente o decreciente, cumple la condicin de ser mayor que una mitad y menor que la otra. Es decir, divide a la distribucin en dos partes iguales. Si el nmero de observaciones es impar la mediana es el valor central. En caso de que el nmero de observaciones sea par la mediana ser la media de los dos valores centrales. Ejemplo: Siguiendo con el ejemplo anterior, ordenamos los datos en orden creciente: 10 10 12 12 13 14 15 16 16 16 18 20 20 21 22 Para calcular la mediana lo haremos tambin de dos formas: Manualmente: Como el nmero de observaciones es impar, la mediana ser el valor que ocupa el lugar central, en este caso, la posicin octava. Por tanto, la mediana ser 16. Con Minitab: Seleccionamos, Calc > Column Statistics y activamos la opcin Median:
Column Median Median of C1 = 16.000

Moda : Es el valor que ms veces se repite en la distribucin. Si los datos de la distribucin estn agrupados en intervalos, la moda es el punto medio del intervalo que contiene el mayor nmero de frecuencias. Una distribucin de observaciones puede no tener moda, es decir, puede que no haya ningn valor de la distribucin que aparezca con ms frecuencia. Ejemplo: Siguiendo con el ejemplo anterior, agrupamos los datos segn su frecuencia: 10 -> 2 12 -> 2 13 -> 1 14 -> 1 15 -> 1 16 -> 3 18 -> 1 20 -> 2 21 -> 1 22 -> 1 Por tanto, observamos que la moda ser el 16 que es valor que ms veces se repite.

Proyecto e-Math Financiado por la Secretara de Estado de Educacin y Universidades (MECD)

Estadstica Descriptiva con Minitab

Relacin entre el valor de la media y la mediana de una distribucin Tanto la media aritmtica como la mediana miden el centro de la distribucin, pero lo hacen de formas diferentes. En el caso en que la distribucin sea simtrica ambas medidas son iguales. Si la distribucin es asimtrica, la media aritmtica se desplaza hacia la cola de la distribucin. Observar que para calcular la media aritmtica, utilizamos todos los datos, sin embargo, no ocurre as con la mediana. As, si hay valores extremos, la media se ver mucho ms afectada que la mediana.

Medidas de dispersin
Para conocer con detalle un conjunto de datos, no basta con conocer las medidas de tendencia central, necesitamos conocer tambin la dispersin que presentan los datos en su distribucin, con objeto de tener una visin de los mismos ms acorde con la realidad a la hora de describirlos e interpretarlos. Recorrido o amplitud: Es la diferencia entre el valor mximo de la distribucin y el valor mnimo. Ejemplo: Del ejemplo anterior, observamos que el valor mximo es 22 y el valor mnimo es 10, por tanto el recorrido de la distribucin ser 12. Cuartiles: As como la mediana divide a la distribucin en mitades, los cuartiles de una distribucin son los valores que dividen la distribucin en cuartos. El primer cuartil (Q1) deja un cuarto de las observaciones por debajo del mismo, y tres cuartos por encima. El segundo cuartil (Q2) tiene dos cuartos por debajo y dos por encima (el segundo cuartil coincide con la mediana). El tercer cuartil (Q3) tiene tres cuartos de las observaciones por debajo y un cuarto por encima. Ejemplo: Utilizamos los datos ordenados del ejemplo para calcular los cuartiles: 10 10 12 12 13 14 15 16 16 16 18 20 20 21 22 Manualmente: Partimos en dos la distribucin, la mitad superior: 10 10 12 12 13 14 15 Y la mitad inferior: 16 16 18 20 20 21 22 Q3=20 Q1=12

Para calcular los cuartiles calculamos las medianas de ambas mitades, la de la primera mitad corresponder al primer cuartil y la de la segunda corresponder al tercer cuartil.

Proyecto e-Math Financiado por la Secretara de Estado de Educacin y Universidades (MECD)

Estadstica Descriptiva con Minitab Diagramas de caja El diagrama de caja es un grfico simple donde vienen representados los anteriores 5 valores anteriores (mnimo, primer cuartil, mediana (segundo cuartil), tercer cuartil y mximo) Ejemplo: Seleccionamos Graph > Boxplot:
Max=22 Q3=20

M=16

Q1=12 Min=10

Varianza: Se define como la media aritmtica de las desviaciones de la media elevadas al cuadrado. En el caso de la varianza, la expresin de la varianza poblacional y la muestral difieren ligeramente.

Varianza poblacional 2 =
n

( X )
i =1 i

N
2

Varianza muestral s2 =

( X X)
i =1 i

n 1

Desviacin Estndar: Es la raz cuadrada positiva de la varianza.

Proyecto e-Math Financiado por la Secretara de Estado de Educacin y Universidades (MECD)

Estadstica Descriptiva con Minitab Ejemplo: En este caso, tras haber definido los parmetros estadsticos ms importantes, veamos cmo, haciendo uso del Minitab, obtenemos un resumen prctico y sencillo de todos estos valores. Seleccionar Stat > Basic Statistics > Display Descriptive Statistics: Descriptive Statistics
Variable C1 Variable C1 N 15 Minimum 10.00 Mean 15.80 Maximum 22.00 Median 16.00 Q1 12.00 TrMean 15.77 Q3 20.00 StDev 3.95 SE Mean 1.02

En resumen, N es el nmero de observaciones que contiene la columna. Mean es la media de la muestra: x =

x
n

. La media es muy sensible a los valores

extremos, por lo que tambin es interesante fijarse en la TrMean. Median es la mediana o cuartil segundo Q2 (aquel valor que deja a su izquierda el mismo nmero de observaciones que a su derecha). Este parmetro no se ve gravemente afectado por los valores extremos. TrMean es la media recortada: las observaciones se ordenan de menor a mayor y se descartan los valores extremos (un 5% por cada lado). De los valores restantes se calcula la media.

StDev es la desviacin estndar de la muestra: s =

(x

x)

n 1

SE Mean es el error estndar de la media, i.e.: SEMean = StDev

Minimum y Maximum son los valores mnimo y mximo de los datos. Q1 es el cuartil primero: aquel que deja a su izquierda un 25% de los datos. Q3 es el cuartil tercero: aquel que deja a su izquierda un 75% de los datos.

Coeficiente de variacin: Es la relacin entre la desviacin estndar y la media.

CV =

s 100 X

El coeficiente de variacin es muy til cuando queremos comparar dos o ms medidas de dispersin y stas estn en unidades diferentes o bien estn en las mismas unidades pero sus medias son muy distintas. Proyecto e-Math Financiado por la Secretara de Estado de Educacin y Universidades (MECD)

Estadstica Descriptiva con Minitab Ejemplo: Pretendemos comparar la variacin entre dos pruebas (una de aptitudes mecnicas y otra de destreza mental) realizadas a un grupo de aprendices pertenecientes al cuerpo de bomberos. La media aritmtica de las puntuaciones obtenidas en la prueba de aptitudes mecnicas fue 200, con una desviacin estndar de 10. En la segunda prueba los resultados fueron de media 30 y desviacin estndar 6. Para realizar dicha comparacin calculamos el coeficiente de variacin de ambas pruebas: CV= 10/200*(100) = 5 CV= 6/30*(100) = 20 Por tanto, de los datos anteriores, deducimos que existe mayor dispersin en la prueba de destreza mental.

Representacin grfica
Dos de las tcnicas estadsticas ms importantes para representar un conjunto de datos son las siguientes: Diagrama de tallo y hojas: Cada valor numrico se divide en dos partes. Los dgitos principales forman el tallo y los dgitos secundarios las hojas. Los tallos estn colocados a lo largo del eje vertical, y las hojas de cada observacin a lo largo del eje horizontal. Ejemplo: A continuacin, se muestran los salarios anuales (en ) de los 11 trabajadores del departamento de marketing de una empresa de material informtico: Sueldos H 38985 29548 41889 31528 38791 32782 Sueldos M 28938 32920 24749 39828 28985

Construir un diagrama de tallo y hojas para cada variable.

Proyecto e-Math Financiado por la Secretara de Estado de Educacin y Universidades (MECD)

Estadstica Descriptiva con Minitab Para ello, tras introducir los datos en el espacio de trabajo del Minitab, seleccionamos Graph > Stem-and-Leaf y rellenamos los campos de la siguiente manera:

Character Stem-and-Leaf Display Stem-and-leaf of Sueldos Leaf Unit = 1000 1 2 3 3 3 3 1 2 3 3 3 3 3 4 9 1 2 88 1 N = 6

Anlogamente resolveramos para los sueldos de las mujeres:


Character Stem-and-Leaf Display Stem-and-leaf of Sueldos Leaf Unit = 1000 1 (2) 2 1 2 2 3 3 4 88 2 9 N = 5

Histograma: Describe una distribucin de frecuencias usando una serie de rectngulos adyacentes, en los que la altura de cada rectngulo es proporciona la frecuencia que representa el valor de la variable.

Proyecto e-Math Financiado por la Secretara de Estado de Educacin y Universidades (MECD)

10

Estadstica Descriptiva con Minitab Ejemplo: Siguiendo el ejemplo anterior, construiremos dos histogramas grficamente la diferencia entre los sueldos de ambos sexos. para comparar

Para ello, seleccionamos Graph > Histogram, completando los campos como sigue:

HISTOGRAMA SUELDOS MUJERES


2

Frecuencia

0 25000 27500 30000 32500 35000 37500 40000 42500

Sueldos M

HISTOGRAMA SUELDOS HOMBRES


2

Frecuencia

0 25000 27500 30000 32500 35000 37500 40000 42500

Sueldos H

De ambos histogramas deducimos que, en este departamento, los sueldos de los hombres, son ligeramente ms altos que los de las mujeres.

Proyecto e-Math Financiado por la Secretara de Estado de Educacin y Universidades (MECD)

11

Estadstica Descriptiva con Minitab

CASO PRCTICO CON SOFTWARE___________________________________


1. Teniendo en cuenta la importancia que los beneficios econmicos del turismo tienen en nuestro pas, realicemos un breve anlisis acerca de cul ha sido la ocupacin hotelera durante el ao 2000. Para ello, vamos a www.ine.es y seleccionamos la opcin Espaa en cifras 2001. Posteriormente, escogemos la opcin Turismo. Comprobaremos que la informacin que obtenemos es la siguiente:

a) Haciendo uso del Minitab, calcular todos los parmetros estadsticos correspondientes a la ocupacin hotelera de Espaoles a lo largo del ao 2000. Una vez introducidos todos los datos correspondientes en el worksheet:

Proyecto e-Math Financiado por la Secretara de Estado de Educacin y Universidades (MECD)

12

Estadstica Descriptiva con Minitab

Seleccionamos Stat > Basic Statistics > Display Descriptive Statistics:

Descriptive Statistics
Variable Espaole Variable Espaole N 12 Minimum 1738456 Mean 2677749 Maximum 3805934 Median 2727407 Q1 2202983 TrMean 2658860 Q3 3125765 StDev 572734 SE Mean 165334

Del anterior resultado, podemos observar cules son los parmetros estadsticos ms importantes, por ejemplo, la media de espaoles que residieron en algn hotel fue de 2677749, el valor central (mediana) es 2727407, as como 2202983 y 3125765 los valores de los cuartiles primero y tercero, respectivamente. b) Construir un histograma del Grado de ocupacin hotelera. Para realizar un histograma de una coleccin de datos, seleccionamos la opcin Graph > Histogram:

Proyecto e-Math Financiado por la Secretara de Estado de Educacin y Universidades (MECD)

13

Estadstica Descriptiva con Minitab

Nota.- Para introducir colores, texto, etc. en el grfico seleccionaremos la opcin de Edit Attributes, o bien, una vez realizado el grfico clicando dos veces sobre la parte del grfico que queremos modificar. Del anterior grfico podemos deducir, bsicamente, que la ocupacin hotelera se encuentra siempre por encima del 40% y ni siquiera en los meses de verano supera aproximadamente el 80%. Cabe destacar que son datos generales de todo el pas, evidentemente, la ocupacin hotelera en los meses de verano y vacaciones, los hoteles de la costa alcanzarn mayor cota de ocupacin.

c)

Dibujar los diagramas de cajas (Boxplot) correspondientes a la ocupacin hotelera de Espaoles y de Extranjeros, comentando las diferencias bsicas entre ellos.

Seleccionamos Graph > Boxplot:

Proyecto e-Math Financiado por la Secretara de Estado de Educacin y Universidades (MECD)

14

Estadstica Descriptiva con Minitab

El resultado obtenido es el siguiente:

Del anterior grfico cabe destacar que el valor de la mediana de turistas espaoles es ligeramente superior a la de extranjeros, as como el resto de valores. Observamos que, por ejemplo, el valor del tercer cuartil de Extranjeros se acerca al valor del tercer cuartil de Espaoles. Observemos tambin que en ninguna de las dos observaciones aparecen valores extremos (outliers), si fuera as, apareceran con un asterisco en la posicin adecuada.

Proyecto e-Math Financiado por la Secretara de Estado de Educacin y Universidades (MECD)

15

Estadstica Descriptiva con Minitab d) Calcular nicamente la media y la mediana correspondientes a la Estancia media en dias de la columna Espaoles. Cuando queremos calcular algun parmetro estadstico concreto, tenemos la opcin de hacerlo seleccionando Calc > Column Statitstics, activando la opcin elegida:

Nota.- Observar que, tras seleccionar la columna de la cual queremos calcular el parmetro estadstico, podemos guardar los resultados en una determinada columna o bien, dejar el espacio en blanco, obteniendo el resultado en la pantalla de Session.
Column Mean Mean of E.M. Esp = 2.5408

Anlogamente, procederemos para calcular el valor de la mediana, obteniendo el siguiente resultado:

Column Median Median of E.M. Esp = 2.4100

Por tanto, deducimos que el nmero medio de estancia en das anual de turistas espaoles es de aproximadamente 2.54, valor que difiere ligeramente de la mediana cuyo valor es 2.41.

Proyecto e-Math Financiado por la Secretara de Estado de Educacin y Universidades (MECD)

16

Estadstica Descriptiva con Minitab

2. Un tema de interesante anlisis es la investigacin en el rea de educacin en nuestro pas, veamos cul fue la cantidad de dinero invertida en el ao 1999 en Espaa y, comparativamente, en una determinada Comunidad Autnoma, por ejemplo, la de Valencia. Para ello, vamos a la pgina web del Instituto Valenciano de Estadstica: http://ive.infocentre.gva.es/ . En el margen izquierdo de la pgina encontraremos un men, del cual seleccionaremos la opcin Informacin Estadstica y Temas. Ahora escogemos la opcin Educacin e investigacin y seleccionamos Investigacin. Por ltimo, elegimos Indicadores econmicos de la actividad de investigacin y desarrollo. El resultado que obtendris, para el ao 1999, ser el siguiente:

a) Calcula los estadsticos descriptivos correspondientes a la variable Investigadores en cada uno de los mbitos, tanto en la Comunidad Valenciana como en Espaa, y comenta los resultados. El primer paso ser introducir los datos correspondientes en el espacio de trabajo de Minitab:

Proyecto e-Math Financiado por la Secretara de Estado de Educacin y Universidades (MECD)

17

Estadstica Descriptiva con Minitab Seleccionamos Stat > Basic Statistics > Display Descriptive Statistics:

Descriptive Statistics Variable Inv_vale Inv_Esp Variable Inv_vale Inv_Esp N 4 4 Minimum 105 616 Mean 1018 15392 Maximum 2638 33840 Median 664 13556 Q1 218 3445 TrMean 1018 15392 Q3 2171 29174 StDev 1115 13792 SE Mean 558 6896

En rojo, observamos los valores obtenidos ms importante como son la media, la mediana, los cuartiles y los mximos y mnimos. Cabe destacar la mnima inversin tanto en la Comunidad Valenciana como en Espaa, se produce en Instituciones privadas sin lucro, correspondiendo la mxima inversin a las Enseanzas superiores.

b) Como sabemos, el sesgo de una distribucin depende de la simetra de sta. Razona, si la distribucin correspondiente a Tcnicos en I+D, tanto en la Comunidad Valenciana como en Espaa, es positivamente sesgada o negativamente sesgada. Recuerda que, para ello, tendrs que calcular la media y la mediana de ambas distribuciones. Nuevamente, introducimos los valores correspondientes en el espacio de trabajo de Minitab:

Seleccionamos Calc > Column Statistics y rellenamos de la siguiente manera, para calcular la media de los Tcnicos I+D de Valencia:

Proyecto e-Math Financiado por la Secretara de Estado de Educacin y Universidades (MECD)

18

Estadstica Descriptiva con Minitab

Column Mean Mean of I+D_Val = 377,40

Anlogamente, calculamos la mediana:


Column Median Median of I+D_Val = 276,05

Por tanto, como la media aritmtica es superior a la mediana, podramos afirmar que en la distribucin correspondiente a la variable Tcnicos en I+D de la Comunidad Valenciana es positivamente sesgada. Anlogamente, resolvemos para la variable Tcnicos en I+D de Espaa, obteniendo los siguientes resultados:
Column Mean Mean of I+D_Esp = 5898,4

Column Median Median of I+D_Esp = 4134,6

Por tanto, en Espaa, la distribucin correspondiente a la variable Tcnicos en I+D tambin es positivamente sesgada.

Proyecto e-Math Financiado por la Secretara de Estado de Educacin y Universidades (MECD)

19

Estadstica Descriptiva con Minitab Desde la misma pgina web que estamos trabajando, y siguiendo los pasos anteriores hasta la opcin Educacin e investigacin, seleccionamos esta vez la opcin Enseanzas universitarias pblicas y Profesores universitarios, obteniendo el siguiente resultado:

c) Representa en un diagrama de cajas, el nmero de profesores universitarios en cada una de las distintas universidades, correspondientes a los aos 1997/98 y 2000/01. Introducimos los datos en el espacio de trabajo de Minitab:

Seleccionamos Graph > Boxplot y en la casilla X introducimos la variable 1997-98:

Proyecto e-Math Financiado por la Secretara de Estado de Educacin y Universidades (MECD)

20

Estadstica Descriptiva con Minitab Anlogamente, resolvemos para la variable 2000-01:

En los anteriores diagramas, podemos observar que la mediana del ao 2000-01 es bastante superior a la del 1997-98, as como el mximo de ambas distribuciones. Adems, cabe destacar que ambas distribuciones estarn claramente sesgadas hacia la derecha ya que la lnea superior es bastante ms larga que la inferior. En la segunda variable, prcticamente coinciden el primer cuartil y el valor mnimo. Finalmente, comentar que los valores mnimos tanto en una variable como otra se dan en la Universitad Miguel Hernndez y los mximos en la Universidad de Valencia.

d) Calcula el coeficiente de variacin para los Profesores de la universidad Jaume I. Nuevamente, introducimos los datos en el espacio de trabajo de Minitab y calculamos la media y la desviacin estndar:
Column Mean Mean of C7 = 764,40

Column Standard Deviation Standard deviation of C7 = 65,987

X aproximadamente el 9%.

Por tanto, como CV =

= 0.086, lo cual indica que existe una dispersin de los datos de

Proyecto e-Math Financiado por la Secretara de Estado de Educacin y Universidades (MECD)

21

Estadstica Descriptiva con Minitab

BIBLIOGRAFA
[1] [2] [3]

___________________________________

D.A. Lind, R.D. Mason, W.G. Marchal (2001): Estadstica para Administracin y Economa. Ed. Irwin McGraw-Hill.F. F. Moya Anegn, J. Lpez Gijn, C. Garca Caro (1996): Tcnicas cuantitativas aplicadas a la biblioteconoma y documentacin. Ed. Sntesis. R. Johnson (1996): Elementary Statistics. Ed. Duxbury

ENLACES

___________________________________

http://www.mste.uiuc.edu/hill/dstat/dstat.html: Introduction to Descriptive Statistics www.ine.es: Instituto Nacional de Estadstica www.fisterra.com/material/investiga/10descriptiva/10descriptiva.htm: Estadstica descriptiva

Proyecto e-Math Financiado por la Secretara de Estado de Educacin y Universidades (MECD)

22

Estimacin puntual y estimacin por intervalos de confianza

ESTIMACIN PUNTUAL Y ESTIMACIN POR INTERVALOS DE CONFIANZA


Autores: ngel A. Juan (ajuanp@uoc.edu), Mximo Sedano (msedanoh@uoc.edu), Alicia Vila (avilag@uoc.edu).

ESQUEMA DE CONTENIDOS
Definicin

________________________

Propiedades

Estimacin Puntual

Definicin

Estimacin por Intervalo

Tipos de estimaciones por intervalo

Casos prcticos

Por la definicin

Con Minitab

INTRODUCCIN

___________________

En este math-block, se pretende conocer y saber calcular las estimaciones puntuales y por intervalo para la media ya sea conocida o no la desviacin estndar poblacional-, as como las estimaciones para la probabilidad de xito en una binomial. En el caso en que conozcamos todos los elementos de una poblacin, es sencillo calcular todos los parmetros asociados; sin embargo, en la mayora de casos no ser as, y necesitaremos estimar algunos de ellos a partir de los parmetros de la muestra.

Proyecto e-Math Financiado por la Secretara de Estado de Educacin y Universidades (MECD)

Estimacin puntual y estimacin por intervalos de confianza

OBJETIVOS

________________________

Entender los conceptos de estimacin puntual y estimacin por intervalos. Calcular las estimaciones para la media poblacional, tanto en el caso en que la desviacin estndar poblacional sea conocida como en el caso de que sea desconocida. Calcular las estimaciones (puntuales y por intervalos) para la probabilidad de xito de una binomial. Saber interpretar correctamente los resultados de las estimaciones por intervalos.

CONOCIMIENTOS PREVIOS

___________________________________

Es recomendable haber ledo, previamente los math-blocks: Estadstica Descriptiva con Minitab, La distribucin binomial y La distribucin normal.

CONCEPTOS FUNDAMENTALES


___________________________________

Qu es una estimacin? Cuando queremos realizar un estudio de una poblacin cualquiera de la que desconocemos sus parmetros, por ejemplo su media poblacional o la probabilidad de xito si la poblacin sigue una distribucin binomial, debemos tomar una muestra aleatoria de dicha poblacin a travs de la cual calcular una aproximacin a dichos parmetros que desconocemos y queremos estimar. Bien, pues esa aproximacin se llama estimacin. Adems, junto a esa estimacin, y dado que muy probablemente no coincida con el valor real del parmetro, acompaaremos el error aproximado que se comete al realizarla.

 Estimacin

puntual

Una estimacin puntual del valor de un parmetro poblacional desconocido (como puede ser la media , o la desviacin estndar ), es un nmero que se utiliza para aproximar el verdadero valor de dicho parmetro poblacional. A fin de realizar tal estimacin, tomaremos una muestra de la poblacin y calcularemos el parmetro muestral asociado ( x para la media, s para la desviacin estndar, etc.). El valor de este parmetro muestral ser la estimacin puntual del parmetro poblacional. Por ejemplo, supongamos que la compaa Sonytron desea estimar la edad media de los compradores de equipos de alta fidelidad. Seleccionan una muestra de 100 compradores y calculan la media de esta muestra, este valor ser un estimador puntual de la media de la poblacin. Qu propiedades debe cumplir todo buen estimador?

Proyecto e-Math Financiado por la Secretara de Estado de Educacin y Universidades (MECD)

Estimacin puntual y estimacin por intervalos de confianza


Insesgado: Un estimador es insesgado cuando la media de su distribucin muestral asociada coincide con la media de la poblacin. Esto ocurre, por ejemplo, con el estimador x , ya que x = y con estimador p ya que p = p De varianza mnima: La variabilidad de un estimador viene determinada por el cuadrado de su desviacin estndar. En el caso del estimador x , su desviacin estndar es

x =

, tambin llamada error estndar de .

En el caso del error estndar de p,

p =

p*(1 p) n

Observar que cuanto mayor sea el tamao de la muestra n , menor ser la variabilidad del estimador x y de p, por tanto, mejor sern nuestras estimaciones.

Estimacin por intervalo Dada una poblacin X, que sigue una distribucin cualquiera con media y desviacin estndar . 1. Sabemos (por el TCL) que, para valores grandes de n , la media muestral una distribucin aproximadamente normal con media

x sigue

x = y desviacin estndar

x =

2. Por otra parte, el Teorema de Chebyshev nos dice que, en una distribucin normal, aproximadamente un 95% de los datos estaban situados a una distancia inferior a dos desviaciones estndar de la media. De lo anterior se deduce que:

P( 2 x < x < + 2 x ) = 0,95 ,

0,95 = P( x < + 2 x ) P( x < 2 x ) = P( > x 2 x ) P( > x + 2 x ) P( x 2 x < < x + 2 x ) = 0,95


Por tanto, sta ltima frmula nos da un intervalo de valores tal que la probabilidad de que la media de la poblacin est contenida en l es de 0,95. Este tipo de intervalos se llaman intervalos de confianza de un parmetro poblacional. El nivel de confianza (1 - ) del intervalo es la probabilidad de que ste contenga al parmetro poblacional. En el ejemplo anterior, el nivel de confianza era del 95% ( = 0,05).

Proyecto e-Math Financiado por la Secretara de Estado de Educacin y Universidades (MECD)

Estimacin puntual y estimacin por intervalos de confianza




Intervalos de confianza.

1. Intervalo de confianza para con conocida. Un vendedor mayorista de partes automotrices necesita una estimacin de la vida media que puede esperar de los limpiaparabrisas en condiciones normales de manejo. La administracin de la empresa ya ha determinado que la desviacin estndar de la vida til de la poblacin es de seis meses. Supongamos que se selecciona una sola muestra aleatoria de 100 limpiaparabrisas, y obtenemos que la vida media de estos 100 limpiaparabrisas es de 21 meses. Se pide calcular un intervalo de confianza del 95% para la vida media de la poblacin de los limpiaparabrisas. Tenemos X como la distribucin de la vida til en meses de la poblacin de limpiaparabrisas, no sabemos qu distribucin tiene, al igual que desconocemos su media. En este caso s conocemos la desviacin estndar poblacional.

X ( , = 6)
La media muestral normal:

por el teorema central del lmite se va a aproximar la distribucin

X N ( x = , x = / n )

Por lo tanto, el intervalo de confianza del 95% para la vida media en meses de toda la poblacin de limpiaparabrisas, es decir para

X Z 0, 05
2

6 = 21 1,96 = 21 1,176 = [19,824 ; 22,176] n 100

Z = Z 0, 05 = Z 0, 025 = 1,96 , es decir que el valor Z de la tabla de la normal estndar que


2 2

deja un rea de 0,9 entre Z Y +Z es Z=1,96. O de otro modo, como el nivel de confianza es 0,9, = 0,05 , entonces el valor Z que deja su derecha un rea de

= 0,05 = 0,025 y a la izquierda de Z un rea de = 0,05 = 0,025 es Z=1,96 2 2 2 2 n

El error mximo de estimacin es la mitad de la longitud del intervalo, E = z(/2) *

Con una confianza del 95%, la vida media de la poblacin de limpiaparabrisas que vende este mayorista est entre 19,824 meses y 22,176 meses. Si extraemos varias muestras del mismo tamao y calculamos un intervalo de confianza para cada muestra, el 95% de todos los intervalos van a incluir a la vida media poblacional en meses de todos los parabrisas que vende este mayorista.

Proyecto e-Math Financiado por la Secretara de Estado de Educacin y Universidades (MECD)

Estimacin puntual y estimacin por intervalos de confianza

2. Intervalo de confianza para con desconocida.

El administrador de una planta industrial generadora de energa desea estimar, por intervalo, la cantidad de carbn que se consumi por termino medio semanalmente durante ao pasado. Para ello toma una muestra de 10 semanas. El consumo medio fue de 11.400 toneladas, la desviacin estndar muestral 700 toneladas. Cul ser el intervalo de confianza del 95% para el consumo medio semanal durante el ao pasado?. (supongamos normalidad).

Tenemos X como la distribucin de toneladas de carbn consumidas cada semana del ao pasado por la planta de energa y su media y su desviacin estndar desconocidas

X (, )
Aunque n < 30, suponemos que la media muestral, X , sigue una distribucin normal

X N( x = , S x = S / n )
Para estimar la desviacin estndar poblacional vamos a utilizar la desviacin estndar muestral S que es 700 toneladas. Por lo tanto, el intervalo de confianza del 95% para el consumo promedio de toneladas de carbn en cada semana del ao pasado, es decir para , ser:

S 700 X t(n 1, ) = 11.400 2,262 = 11.400 500,76 = (10.899 ; 11.901) 2 n 10

Utilizamos la t-Student porque la desviacin estndar poblacional es desconocida. En las tablas, t(10 1, 0,05 ) = 2,262 , una t-Student con 10 1 = 9 grados de libertad que deja su derecha un rea de 0,025. = 0,05 porque el nivel de confianza es de

1 = 0,95

Con una confianza del 95%, el consumo promedio semanal de carbn durante el ao pasado por esta planta de energa estar entre 10.899 toneladas y 11.901 toneladas. Si extraemos varias muestras del mismo tamao y calculamos un intervalo de confianza para cada muestra, el 95% de todos los intervalos van a incluir al consumo promedio poblacional de toneladas de carbn por semana durante el ao pasado por la planta de energa.

Proyecto e-Math Financiado por la Secretara de Estado de Educacin y Universidades (MECD)

Estimacin puntual y estimacin por intervalos de confianza


3. Intervalo de confianza para la probabilidad de xito p en una binomial. Durante un ao y medio las ventas han estado disminuyendo de manera coherente en los 1.500 establecimientos de una cadena de comida rpida. Un empresa de consultora ha determinado que el 30% de una muestra de 95 sucursales tiene claros signos de una mala administracin. Construir un intervalo de confianza del 95% para esta porcin. A la poblacin de todos los establecimientos de sta cadena de comida rpida le vamos a llamar X que seguir una binomial con probabilidad de xito, probabilidad de tener signo de mala administracin, p desconocida. A fin de estimar dicho parmetro, se toma una muestra de tamao n = 95 y definimos p como la proporcin de xitos en la muestra. En este caso p es 0,3 y 1- p = 0,7. Como n > 20, n p 5 y aproximadamente normal, i.e.:

n (1 p) 5 , entonces la distribucin X es

X N(np, np(1 p) )
Como p es desconocida, la aproximaremos por p que es la estimacin puntual de p. Entonces, la proporcin muestral de xitos, que la hemos utilizado para estimar la proporcin de la poblacin tendr la siguiente distribucin:

p N(p,

p(1 p) ) n

con:

P =

p (1 p ) 0,3 0,7 = = 0,047 n 95

Por lo tanto la estimacin del error estndar de la proporcin de establecimientos que tiene claros signos de mala ser 0,057. El intervalo de confianza del 95% para la probabilidad de xito poblacional p viene dado por:

p Z P = 0,3 1,96 0,047 = 0,3 0,0921 = [0,20788; 0,39212]


2

donde

Z = Z 0,05 = 1,96 es el valor z*, de manera que el 95% del rea bajo la curva
2 2

normal se incluye entre 1,96 y 1,96. Por lo tanto, con un nivel de confianza del 95%, la proporcin de establecimientos de esta cadena de comida rpida que tiene mala administracin estar entre 0,20788 y 0,39212. Si extraemos varias muestras del mismo tamao y calculamos un intervalo de confianza para cada muestra, el 95% de esos intervalos van a incluir a la verdadera proporcin de establecimientos con mala administracin

Proyecto e-Math Financiado por la Secretara de Estado de Educacin y Universidades (MECD)

Estimacin puntual y estimacin por intervalos de confianza

CASOS PRCTICOS CON SOFTWARE___________________________________


1. Imaginemos que trabajamos para una multinacional que se dedica a la venta de pantallas LCD. El departamento de ingeniera ha realizado pruebas de duracin sobre una muestra aleatoria de 15 pantallas LCD, obteniendo los siguientes resultados (en horas de duracin): 10014,8 8426,8 9220,2 Supondremos que la duracin (en horas de funcionamiento) de estas pantallas es una variable aleatoria que se distribuye de forma normal con desviacin tpica = 500 horas. a) Hallar un intervalo de confianza, a nivel del 95% para la media poblacional (duracin media de una pantalla LCD). Seleccionamos Stat > Basic Statistics > 1-Sample Z 8056,2 9488,3 9166,1 8426,3 8363,2 8924,6 8869,7 7911,9 8680,0 9667,2 8930,4 8914,2

Z Confidence Intervals
The assumed sigma = 500 Variable C1 N 15 Mean 8871 StDev 586 SE Mean 129 95,0 % CI 8618; 9124)

Proyecto e-Math Financiado por la Secretara de Estado de Educacin y Universidades (MECD)

Estimacin puntual y estimacin por intervalos de confianza


b) Suponiendo ahora que no conoces la desviacin tpica, halla un intervalo de confianza, a nivel del 95%, para . Compara este nuevo intervalo con el anterior. Seleccionamos Stat > Basic Statistics > 1-Sample t:

T Confidence Intervals Variable C1 N 15 Mean 8871 StDev 586 SE Mean 151 95,0 % CI 8546; 9195)

Observar que el primer intervalo est contenido en el segundo, i.e.: el segundo intervalo es menos preciso que el primero. Ello es lgico si tenemos en cuenta que para hallar el primer intervalo disponamos de mayor informacin (conocamos el valor de la desviacin tpica), por lo que el resultado es ms preciso. c) Suponiendo que no conoces la desviacin tpica, halla un intervalo de confianza, a nivel del 90%, para . Compara este intervalo con el obtenido en b).
T Confidence Intervals

Variable C1

N 15

Mean 8871

StDev 586

SE Mean 151 (

90,0 % CI 8604; 9137)

Ahora, como somos menos exigentes por lo que al nivel de confianza se refiere (hemos pasado del 95 al 90%), lo que cabra esperar es que el intervalo obtenido est contenido dentro del hallado en b). Observar que, en efecto, se cumple esta previsin.

Proyecto e-Math Financiado por la Secretara de Estado de Educacin y Universidades (MECD)

Estimacin puntual y estimacin por intervalos de confianza

2.

Se quiere analizar el ndice de productividad de los trabajadores de una empresa industrial, y se ha tomado una muestra aleatoria de 200 empleados y se ha observado que el 5% de ellos no alcanzan el nivel mnimo productivo que se quiere conseguir de cada uno de ellos. Calcular un intervalo de confianza del 95% para la proporcin de empleados que no llegan al nivel de productividad fijado. Nos interesa calcular un intervalo de confianza del 95% para la probabilidad p, de no alcanzar el nivel mnimo requerido. Adems, comprobamos que efectivamente se cumplen las hiptesis de normalidad: n=200 >>30, n*p= 200*0.09 > 5 y n*p*(1-p) > 5

X N(np, np(1 p) )
Como p es desconocida, la aproximaremos por p que es la estimacin puntual de p. Entonces, la proporcin muestral de xitos, que la hemos utilizado para estimar la proporcin de la poblacin tendr la siguiente distribucin:

p N(p,

p(1 p) ) n

Para calcular el intervalo de confianza, seleccionamos: Stat > Basic Statistics > 1 Proportion:

Seleccionamos Options, con las siguientes condiciones: Ponemos el nivel de confianza del intervalo, la proporcin del contraste que en este caso no nos interesa porque slo queremos calcular el intervalo de confianza, por lo que en esta opcin pondremos, o por omisin nos pondr, 0,5.

Proyecto e-Math Financiado por la Secretara de Estado de Educacin y Universidades (MECD)

Estimacin puntual y estimacin por intervalos de confianza

En la alternativa ponemos lo que aparece como estndar, no igual y activamos la casilla de utilizar la normal para calcular el intervalo de confianza.

Confidence Interval for One Proportion Test of p = 0,5 vs p not = 0,5 Sample 1 X 10 N 200 Sample p 0,050000 95,0 % CI (0,019795; 0,080205) Z-Value -12,73 P-Value 0,000

Observamos que el intervalo de confianza est entre 0,0198 y 0,080. Por tanto, podemos concluir que con una confianza del 95%, la proporcin de trabajadores de esta empresa que no alcanzan el nivel mnimo de productividad requerido estar entre el 2% y el 8%. Si extraemos varias muestras del mismo tamao y calculamos un intervalo de confianza para cada muestra, el 95% de esos intervalos van a incluir a la verdadera proporcin de trabajadores que no alcanzan el nivel mnimo de productividad requerido.

Proyecto e-Math Financiado por la Secretara de Estado de Educacin y Universidades (MECD)

10

Estimacin puntual y estimacin por intervalos de confianza

BIBLIOGRAFA
[1]

______________________________________________

Lind, D.; Mason, R.; Marchal, W. (2001): Estadstica para Administracin y Economa. Ed. Irwin McGraw-Hill.F. Kvanli, A. (2000) Introduction to Business Statistics South-Western. Johnson, R. (1996): Elementary Statistics. Ed. Duxbury. Levin, R.; Rubin, D. (1996): Estadstica para Administradores. Ed. Prentice Hall. Farber, E. (1995): A Guide to Minitab. Ed. McGraw-Hill

[2] [3] [4] [5]

ENLACES

___________________________________

http://oak.cats.ohiou.edu/~wallacd1/shyp.html Definicin y ejemplos de contraste de hiptesis de una poblacin conocida la media y la desviacin estndar de la poblacin. http://www.unalmed.edu.co/~estadist/C.L.T/T_C_L.htm Caractersticas y applet del Teorema Central del lmite. http://www.unalmed.edu.co/~estadist/confinterval/intervalconf.htm Caractersticas y applet del concepto de Intervalo de confianza. http://e-stadistica.bio.ucm.es/mod_intervalos/intervalos_applet.html Caractersticas y applet del concepto de Intervalo de confianza. http://e-stadistica.bio.ucm.es/mod_contraste/contraste_applet.html Applet sobre contraste de hiptesis para muestras independientes.

http://oak.cats.ohiou.edu/~wallacd1/ssample.html Teoria y ejemplos sobre distribuciones muestrales http://kitchen.stat.vt.edu/~sundar/java/applets/ Aplicaciones estadsticas con JAVA http://e-stadistica.bio.ucm.es/mod_intervalos/intervalos_applet.html Applets sobre estimacin por intervalos

Proyecto e-Math Financiado por la Secretara de Estado de Educacin y Universidades (MECD)

11

Introduccin a Minitab

INTRODUCCIN A MINITAB
Autores: Alicia Vila (avilag@uoc.edu), Mximo Sedano (msedanoh@uoc.edu), ngel A. Juan (ajuanp@uoc.edu).

ESQUEMA DE CONTENIDOS
Importancia del Minitab en el aprendizaje de la estadstica

________________________

INTRODUCCIN A MINITAB

Requisitos informticos

Instalacin del Minitab

Instalacin paso a paso Descripcin y manejo bsico del programa

Entorno de trabajo

Operaciones bsicas

INTRODUCCIN

___________________

En los ltimos aos, el uso de Internet -la red de redes- ha causado una revolucin en lo que a transmisin de datos e informacin se refiere, creando adems un nuevo paradigma comunicativo. Por ello, con cada vez mayor frecuencia, nos encontraremos con la necesidad de analizar estadsticamente grandes volmenes de datos -a los cuales tenemos acceso gracias a Internet-, con la finalidad de obtener informacin y, eventualmente, conocimiento. En dicho anlisis, el uso de un paquete estadstico -como Minitab, SAS, SPSS, S-Plus, Statgraphics, Statistica, etc.- resulta fundamental. Proyecto e-Math Financiado por la Secretara de Estado de Educacin y Universidades (MECD) 1

Introduccin a Minitab Una nueva generacin de software estadstico ha ido emergiendo en estos ltimos aos, posibilitando un considerable aumento en las posibilidades de anlisis, precisin numrica y representacin grfica de los resultados. El uso de este tipo de herramientas estadsticas nos permite obtener informacin a partir de los datos, usando para ello mtodos y tcnicas de obtencin de datos, anlisis e interpretacin.

Con 25 aos de experiencia, Minitab es uno de los lderes mundiales por lo que a la docencia de la estadstica se refiere, estando hoy en da presente en las ms prestigiosas empresas (Motorola, Toshiba,...) y universidades nacionales (Universitat Oberta de Catalunya, Universidad Politcnica de Catalua,...) e internacionales (Harvard, MIT, ...). Adems, Minitab es una herramienta compacta, verstil y de fcil manejo. La confiabilidad de sus algoritmos estadsticos y la slida combinacin de potencia y amigabilidad le han hecho merecer la confianza de usuarios de todo el mundo.

OBJETIVOS

________________________

Conocer algunas de las ventajas de usar software estadstico a la hora de analizar datos. Guiar al usuario en el proceso de instalacin del software, as como en el uso de las opciones bsicas (abrir ficheros, guardarlos, ). Entender cmo se realizan los anlisis estadsticos ms comunes, as como representaciones grficas.

CONOCIMIENTOS PREVIOS

___________________________________

Es conveniente estar familiarizado, al menos a nivel bsico, con el entorno Windows.

Proyecto e-Math Financiado por la Secretara de Estado de Educacin y Universidades (MECD)

Introduccin a Minitab

INSTALACIN DEL PROGRAMA


Descripcin del Minitab (Release 12 y 13)

______________________________

Minitab es un paquete estadstico que abarca todos los aspectos necesarios para el aprendizaje y aplicacin de la Estadstica en general. Incluye anlisis descriptivo, contrastes de hiptesis, regresin lineal y no lineal, series temporales, anlisis de tiempos de fallo, control de calidad, anlisis factorial, ANOVA, anlisis cluster, etc.-, una potente capacidad grfica especialmente en las versiones 12 y 13-, total compatibilidad con las herramientas de Office mediante las opciones de copiar y pegar es posible exportar datos, grficos y texto-, herramientas de gestin de proyectos, conectividad ODBC para bases de datos, y un potente lenguaje de macros que permite automatizar y personalizar muchas de las tareas.

Instalacin del Minitab (Release 12 y 13)


Los requisitos informticos mnimos para poder instalar el programa son: Sistema operativo Microsoft Windows 95/98 o superior. Pentium. 32 Mb de memoria RAM. Lector CD-ROM de doble velocidad (x4). Monitor VGA (256 colores) con una resolucin de 800 x 600.

Veamos cules son los pasos a seguir para instalar el Minitab:

1.

Insertar el CD-Rom con el Minitab en la unidad lectora. Este software se ejecutar automticamente al introducir el CD, sino fuera as, podemos arrancarlo pulsando sobre el icono que representa la unidad, y haremos doble clic en el programa Setup.exe:

Proyecto e-Math Financiado por la Secretara de Estado de Educacin y Universidades (MECD)

Introduccin a Minitab 2. Irn apareciendo las siguientes pantallas, en las cuales deberis ir incluyendo la informacin que aparece en la caja de vuestro CD (en el caso de los programas que distribuye la UOC, el Consultor os proporcionar el Side ID Code del semestre asociado una vez se inicie el curso). En muchas de las pantallas, podris ir aceptando la opcin por defecto (leed el License Agreement):

Proyecto e-Math Financiado por la Secretara de Estado de Educacin y Universidades (MECD)

Introduccin a Minitab

Proyecto e-Math Financiado por la Secretara de Estado de Educacin y Universidades (MECD)

Introduccin a Minitab

Antes de empezar el proceso de instalacin aparece la siguiente pantalla informativa de todo lo que el programa instalar. Para iniciar la instalacin pulsamos Next.

Finalmente, acabado el proceso de instalacin seleccionamos si queremos instalar o no el icono de Minitab en el escritorio.

Finalizado todo el proceso, aparecer un mensaje que nos informar de que la instalacin se ha realizado correctamente.

Proyecto e-Math Financiado por la Secretara de Estado de Educacin y Universidades (MECD)

Introduccin a Minitab

En caso de que encontris algn problema en la instalacin o queris instalar una versin ms avanzada de Minitab, ser conveniente que desinstalis el programa y lo volvis a instalar. Para ello podis seguir los siguientes pasos: 1. Seleccionamos, segn se indica en la imagen inferior, la opcin Uninstall Minitab y comenzamos el proceso de instalacin desde cero:

2.

Si usamos la opcin anterior, veris cmo Windows elimina los ficheros de Minitab que hubiese copiado en vuestro disco duro:

3. Volvemos a instalar el programa desde cero, siguiendo los pasos indicados anteriormente.

Proyecto e-Math Financiado por la Secretara de Estado de Educacin y Universidades (MECD)

Introduccin a Minitab

USO BSICO DEL PROGRAMA

___________________________________

Uso bsico de Minitab


MINITAB (Release 12 o 13) puede ser utilizado en Windows 95/98, Me, 2000, NT 4.0, y XP. En todos los casos la funcionalidad del programa es similar. o Para entrar en el programa . . . Localizar dnde se ha instalado Minitab for Windows y hacer doble clic en el icono correspondiente:

mtb12.exe

Obtendremos la siguiente pantalla:

Proyecto e-Math Financiado por la Secretara de Estado de Educacin y Universidades (MECD)

Introduccin a Minitab o Entorno de trabajo del Minitab... Para realizar anlisis de datos con Minitab se pueden utilizar diversas ventanas y herramientas. A continuacin se muestran las partes ms importantes:

Barra Menu

Barra Herramientas

Ventana de operaciones

Historial del programa

Ventana de datos Ventana de informacin

La barra de Menu se utiliza para seleccionar el comando que vamos a utilizar para realizar las operaciones que requiere el problema. . La barra de Herramientas permite realizar algunas funciones simplificando el acceso a las mismas, como por ejemplo, guardar o copiar. La ventana de Operaciones nos muestra todas las salidas por pantalla de las operaciones estadsticas que deseamos realizar con Minitab; tabla de estadsticos descriptivos (media, mediana,...), coeficiente de correlacin, etc. La ventana de Datos es el lugar donde debemos introducir los valores con los que vamos a trabajar y realizar clculos. La ventana de Informacin resume la organizacin de los datos introducidos, es decir, en qu columnas se han introducido, cuntos, etc. La ventana de Historial refleja los comandos que se han ido ejecutando a lo largo del programa.

Proyecto e-Math Financiado por la Secretara de Estado de Educacin y Universidades (MECD)

Introduccin a Minitab Trabajando con proyectos.... En Minitab, un proyecto es un documento que contiene todo el trabajo que hemos ido realizando y engloba tanto la ventana de datos, como la salida por pantalla de los resultados de un determinado conjunto de operaciones, grficos, etc. Es importante observar que cuando guardamos un proyecto, estamos guardando todas las partes (ventanas) que lo componen. Los proyectos estn compuestos por datos, resultados de operaciones, grficos, etc. La mayora de esta informacin es visible en cada una de las ventanas de Minitab, por ejemplo, los resultados obtenidos de una operacin estn visibles en la ventana de operaciones (Session Window).

El contenido de algunas ventanas es creado por el propio Minitab. Por ejemplo, la ventana de operaciones contiene el resultado del anlisis de datos, la ventana del historial del programa (History Window) recoge todos los comandos que se han ido utilizando, la ventana de datos (Data Window, Worksheet) contiene los datos que hemos introducido va teclado (o generado aleatoriamente). Cada uno de los datos con los que se trabaja en un proyecto estn contenidos en una especie de tabla llamada worksheet y podemos abrirla, guardarla y cerrarla independientemente del proyecto. Es el lugar reservado para introducir por teclado los valores que necesitamos.

Proyecto e-Math Financiado por la Secretara de Estado de Educacin y Universidades (MECD)

10

Introduccin a Minitab Cmo abrir, guardar y cerrar una tabla de datos ( worksheet ) .... Para abrir un nuevo worksheet, debemos escoger la opcin File > New y escoger la opcin Minitab Worksheet. Para abrir un worksheet ya guardado escogemos File > Open Worksheet. Para guardar un worksheet, elige File > Save Current Worksheet. Para cerrar un worksheet es suficiente con escoger File > Close Worksheet. Observar que cuando guardamos una tabla de datos, sta queda guardada con extensin .mtw.

Cmo abrir, guardar y cerrar un proyecto... Para abrir un nuevo proyecto, debemos escoger la opcin File > New y elegir Minitab Project. Para abrir un proyecto ya guardado escogemos File > Open Project. Para guardar un proyecto, elige File > Save Project. Para cerrar un proyecto es suficiente con escoger File > Exit. Observar que cuando guardamos un proyecto, ste queda guardado con extensin .mpj.

Para salir del programa . . . De la barra de herramientas, escogeremos File > Exit

Proyecto e-Math Financiado por la Secretara de Estado de Educacin y Universidades (MECD)

11

Introduccin a Minitab

Uso de la Ayuda del Minitab


La ayuda de Minitab es uno de los recursos ms importantes del programa, ya que aparte de su fcil manejo, contiene la descripcin de todas las aplicaciones de Minitab y numerosos ejemplos ilustrativos.

En la barra de herramientas, clicamos en el icono

Como vemos, nos aparecen una serie de aplicativos como Archivo, Edicin, Marcador, Opciones y Ayuda que servirn para, bsicamente, manipular el entorno de trabajo de la Ayuda. La Ayuda de Minitab, la utilizaremos preferentemente para aclarar conceptos tericos estadsticos o para entender cmo utilizar una determinada aplicacin. Principalmente, la Ayuda presenta dos formas de buscar informacin:

Proyecto e-Math Financiado por la Secretara de Estado de Educacin y Universidades (MECD)

12

Introduccin a Minitab POR TEMAS Clicamos en Temas de ayuda:

Aparte de la pestaa de Contenidos, donde tenemos la divisin general de temas, veremos que clicando en ndice, encontraremos todas las subdivisiones de los temas clasifados por orden alfabtico. En la tercera pestaa: Buscar, tendremos la opcin de buscar una determinada palabra o frase. Por ejemplo, escogemos el apartado Statistics y seleccionamos Basic Statistics y finalmente, Normality Test:

Proyecto e-Math Financiado por la Secretara de Estado de Educacin y Universidades (MECD)

13

Introduccin a Minitab

Como vemos, nos aparece un cuadro con la definicin y la descripcin completa de cmo realizar un Test de Normalidad. Adems, en la parte superior nos aparecen una serie de opciones para obtener ms informacin acerca de este tema. Si clicamos en Example:

Proyecto e-Math Financiado por la Secretara de Estado de Educacin y Universidades (MECD)

14

Introduccin a Minitab

Cabe observar, que no slo obtenemos un ejemplo y los pasos a seguir para resolverlo sino que tambin podemos clicar en Interpreting Results, para ver cules son las conclusiones obtenidas:

POR PALABRAS En el apartado Glossary, disponemos de un completo ndice por orden alfabtico de todos los conceptos que aparecen en el Minitab. Vemoslo: Clicamos en Glossary:

Proyecto e-Math Financiado por la Secretara de Estado de Educacin y Universidades (MECD)

15

Introduccin a Minitab

Al clicar en una de las palabras clave, se abre un cuadro explicativo del concepto. Por ejemplo, si clicamos en Mean:

Finalmente destacar que, aunque existen muchas ms opciones y recursos que ya iremos descubriendo al trabajar con la Ayuda, tambin existe la opcin predeterminada de formatos para Imprimir.

Para salir de la Ayuda clicamos en Exit.

Proyecto e-Math Financiado por la Secretara de Estado de Educacin y Universidades (MECD)

16

Introduccin a Minitab

BIBLIOGRAFA
[1] [2] [3] [4]

___________________________________

Farber (1995): A Guide to Minitab. Ed. McGraw-Hill Gonzlez, J. (1996): Introduccin a Minitab. Centre Publicacions dAbast (UPC). ISBN: 84-89349-02-9. Ginebra, J. (1999): Prcticas de estadstica con Minitab. ETSEIB (UPC). ISBN 84-8416-092-0 Kvanli, A. (2000): Introduction to business statistics. South-Western College. ISBN 0-324-01207-1

ENLACES

___________________________________

http://www.minitab.com Pgina oficial de Minitab

http://www.addlink.es Distribuidor en Espaa de software cientfico.

http://plato.acadiau.ca/courses/math/cabilio/minitab/minitab1.html Tutorial de Minitab (en ingls). http://www.ncl.ac.uk/ucs/statistics/common/minitab/gettingstartedminitab2.html Tutorial de Minitab (en ingls). http://www.uoc.edu/web/esp/art/uoc/0107030/mates_imp.html Artculo relacionado con la uso de software en la enseanza de las matemticas. Incluye un ejemplo del TCL usando Minitab.

Proyecto e-Math Financiado por la Secretara de Estado de Educacin y Universidades (MECD)

17

Variables aleatorias continuas

VARIABLES ALEATORIAS CONTINUAS (I)


Autores: Rafael Garca Martn (rgarciamart@uoc.edu), Francisco J. Fauln Fajardo (ffaulin@uoc.edu).

INTRODUCCIN______________________________________________
En este math-block titulado "Variables aleatorias continuas" se describen algunas de las variables aleatorias, probablemente aquellas que ms aplicaciones tienen en el mbito del mtodo MonteCarlo y la Simulacin, y la forma en que pueden ser tanto analizadas (tabular y grficamente) como simuladas a travs de Excel. Para cada una de las v.a. presentadas se muestra: una breve descripcin de las aplicaciones que pueden encontrarse en la literatura, sus funciones de densidad y distribucin, sus estadsticos principales y sus propiedades tericas, fundamentalmente respecto a otras variables aleatorias con las que pudieran estar relacionadas. Para cada una de ellas se presenta al menos uno, en muchas ocasiones dos, mtodos de generacin de muestras aleatorias. El lector notar que se ha hecho un esfuerzo por evitar que los mecanismos de generacin se basen, contrario a lo que es habitual, en cdigo VBA. Varias son las razones que nos han movido a ello, en primer lugar soslayar la aparicin, inevitable, de las macros que contuvieran dicho cdigo y que, quermoslo o no, arrojan siempre una sombra de amenaza para la integridad de nuestros ordenadores; en segundo lugar para reivindicar la capacidad de Excel - de las funciones propias de la hoja - para realizar tareas de mediana complejidad a espaldas de un cdigo que, aunque sumamente inteligible, implica en cualquier caso un aparato no siempre bien asumido por el usuario final. Finalmente, la generacin de v.a. a travs de cdigo VBA, o de cualquier otro lenguaje de programacin, est lo suficientemente bien tratada en la literatura como para que el lector que prefiera la utilizacin de mtodos diferentes a los aqu expuestos no tenga ningn dificultad para encontrar informacin profusamente desarrollada.

OBJETIVOS

_________________

_____

Presentar al estudiante los conceptos bsicos de las variables aleatorias discretas y proporcionar una herramienta, basada en Excel, para su anlisis y simulacin.

RELACIN CON OTROS DOCUMENTOS

_________________

_____

Para mayor facilidad se ha optado por dividir el documento en dos partes (I y II) con idntica estructura. Este math-block es complementario del titulado Variables aleatorias discretas con el que, como es lgico, comparte muchas caractersticas. Las dos partes de este documento hacen mencin a una serie de hojas de clculo con las que se complementan: (Beta.xls ; Bradford.xls ; Cauchy.xls ; Chi2.xls ; Exponencial.xls ; FSnedecor.xls ; Gamma.xls ; Gumbel.xls ; Logistica.xls ; LogNorm.xls ; Normal.xls ; Rayleigh.xls ; Pareto.xls ; Triang.xls ; Uniforme.xls ; Weibull.xls).

Proyecto e-Math Financiado por la Secretara de Estado de Educacin y Universidades (MECD)

Variables aleatorias continuas

NDICE (Parte I)

_________________

__

Beta ______________________________________________________________________ 3
Usos. ___________________________________________________________________________ 3 Notacin y parmetros. ____________________________________________________________ 3 Densidad y Distribucin. ____________________________________________________________ 3 Estadsticos. _____________________________________________________________________ 3 Propiedades. _____________________________________________________________________ 4 Generacin.______________________________________________________________________ 4 Caracterizacin.___________________________________________________________________ 4 Hoja de clculo. __________________________________________________________________ 4 Usos. ___________________________________________________________________________ 6 Notacin y parmetros. ____________________________________________________________ 6 Densidad y Distribucin. ____________________________________________________________ 6 Estadsticos. _____________________________________________________________________ 6 Propiedades. _____________________________________________________________________ 6 Generacin.______________________________________________________________________ 6 Hoja de clculo. __________________________________________________________________ 6 Usos. ___________________________________________________________________________ 7 Notacin y parmetros. ____________________________________________________________ 8 Densidad y Distribucin. ____________________________________________________________ 8 Estadsticos. _____________________________________________________________________ 8 Propiedades. _____________________________________________________________________ 8 Generacin.______________________________________________________________________ 8 Hoja de clculo. __________________________________________________________________ 8 Usos. ___________________________________________________________________________ 9 Notacin y parmetros. ____________________________________________________________ 9 Densidad y Distribucin. ____________________________________________________________ 9 Estadsticos. ____________________________________________________________________ 10 Propiedades. ____________________________________________________________________ 10 Generacin._____________________________________________________________________ 10 Hoja de clculo. _________________________________________________________________ 10 Usos. __________________________________________________________________________ 11 Notacin y parmetros. ___________________________________________________________ 11 Densidad y Distribucin. ___________________________________________________________ 11 Estadsticos. ____________________________________________________________________ 11 Propiedades. ____________________________________________________________________ 11 Generacin._____________________________________________________________________ 11 Hoja de clculo. _________________________________________________________________ 12 Usos. __________________________________________________________________________ 12 Notacin y parmetros. ___________________________________________________________ 12 Densidad y Distribucin. ___________________________________________________________ 12 Estadsticos. ____________________________________________________________________ 13 Propiedades. ____________________________________________________________________ 13 Generacin._____________________________________________________________________ 13 Hoja de clculo. _________________________________________________________________ 13 Usos. __________________________________________________________________________ 14 Notacin y parmetros. ___________________________________________________________ 14 Densidad y Distribucin. ___________________________________________________________ 14 Estadsticos. ____________________________________________________________________ 14 Propiedades. ____________________________________________________________________ 14 Generacin._____________________________________________________________________ 15 Hoja de clculo. _________________________________________________________________ 15 Usos. __________________________________________________________________________ 15 Notacin y parmetros. ___________________________________________________________ 15 Densidad y Distribucin. ___________________________________________________________ 16 Estadsticos. ____________________________________________________________________ 16 Propiedades. ____________________________________________________________________ 16 Generacin._____________________________________________________________________ 16 Hoja de clculo. _________________________________________________________________ 16 Usos. __________________________________________________________________________ 17 Notacin y parmetros. ___________________________________________________________ 17 Densidad y Distribucin. ___________________________________________________________ 17 Estadsticos. ____________________________________________________________________ 17 Propiedades. ____________________________________________________________________ 17 Generacin._____________________________________________________________________ 18 Hoja de clculo. _________________________________________________________________ 18

Bradford __________________________________________________________________ 6

Cauchy ___________________________________________________________________ 7

Chi cuadrado (2) ___________________________________________________________ 9

Exponencial _______________________________________________________________ 11

F _______________________________________________________________________ 12

Gamma __________________________________________________________________ 14

Gumbel __________________________________________________________________ 15

Logstica _________________________________________________________________ 17

BIBLIOGRAFA______________________________________________________ ______ 19 ENLACES___________________________________________________________ _____ 19

Proyecto e-Math Financiado por la Secretara de Estado de Educacin y Universidades (MECD)

Variables aleatorias continuas

Beta
Usos. Debido a su gran flexibilidad se utiliza en situaciones en las que la ausencia de datos concretos no impide, sin embargo, tener una idea del comportamiento "global" de la variable aleatoria. Si suponemos conocidos, o razonablemente supuestos, valores tales como el mximo, mnimo, media o moda y el tipo de simetra (o asimetra), entonces es posible encontrar una distribucin Beta que se adapte a dichas suposiciones. Tambin se utiliza para simular la proporcin (o el nmero total) de productos defectuosos en un lote de fabricacin, la duracin de un proceso (en PERT/CPM), o la mediana de una muestra aleatoria. Notacin y parmetros. La notacin habitual es XBe(,) o bien XBeta(,), los dos parmetros son de forma (, >0). En Excel la notacin es diferente y se basa en el hecho de que la distribucin puede ser fcilmente reescalada a un intervalo (a,b) ya que si X Be(,) 0X1 al hacer X= a+(b-a)X tendramos XBe(,) pero ahora con aXb. As, la notacin en Excel es XBe(,,a,b); en este caso los parmetros a y b son de escala en la distribucin. Densidad y Distribucin. f(x) = siendo B(,) la funcin Beta: B(,) x 1(1 x) 1 dx
0 1

x 1 (1 x) 1 B(,)

para la Beta de cuatro parmetros, usada en Excel, tendremos: f(x) = 1 B(,) (x a) 1(b x) 1 (b a) + 1

F(x) no tiene, en general, forma cerrada. Estadsticos. La media y varianza son (respectivamente): + ;

( + ) ( + + 1)
2

el sesgo, la curtosis y el coeficiente de variacin son (respectivamente): 2( ) ( + + 2) + +1 ; 3( + + 1)[( + 6) + 2( + )2 ] ( + + 2)( + + 3) ; ( + + 1)

Proyecto e-Math Financiado por la Secretara de Estado de Educacin y Universidades (MECD)

Variables aleatorias continuas


Propiedades. Si = la distribucin es simtrica y centrada; si ==1 se convierte en una Uniforme; Be(1,2) es la distribucin triangular izquierda; Be(2,1) es la triangular derecha; si X Be(,) (1X) Be (,) ; Be(1/2,1/2) es la distribucin arcoseno. Generacin. Puesto que Excel cuenta con una funcin para la inversa de la funcin de distribucin, la generacin de variables aleatorias puede hacerse directamente por inversin utilizando la frmula siguiente: DISTR.BETA.INV(ALEATORIO();, , a , b ). Caracterizacin. Los parmetros pueden ser estimados de la forma siguiente [W1]: x(1 x) = x 1 2 s Hoja de clculo. El fichero Beta.xls es una plantilla para la generacin y anlisis de la distribucin Beta en Excel. Su aspecto es el siguiente:
0,06 X 3,1 3,3 0,05 3,4 3,5 0,04 3,6 3,7 3,8 0,03 3,9 4,0 0,02 4,2 4,3 4,4 0,01 4,5 4,6 0,00 4,7 4,8 4,9 1,05,1 5,2 0,9 5,3 0,85,4 0,75,5 5,6 0,65,7 0,55,9 6,0 0,46,1 0,36,2 6,3 0,26,4 0,1 0,0 3,1 3,4 3,6 3,8 4,0 4,3 4,5 4,7 4,9 5,2 5,4 5,6 5,9 6,1 6,3 Den 0,004246 0,011494 0,019165 0,026495 0,033176 0,039046 0,044017 0,048052 0,051146 0,053318 0,054605 0,055058 0,054736 0,053708 0,052047 0,049831 0,047141 0,044060 0,040670 0,037053 0,033291 0,029462 0,025642 0,021904 0,018314 0,014935 0,011822 0,009023 0,006577 0,004515 3,5 Dis 0,004246 0,015740 0,034906 0,061400 0,094577 0,133622 0,177639 0,225691 0,276836 0,330154 0,384760 0,439818 0,494554 0,548261 0,600308 0,650139 0,697280 0,741340 0,782010 0,819063 0,852354 0,881816 0,907458 0,929362 0,947676 0,962611 0,974433 0,983456 0,990034 0,994548 4,2 n 1 6 8 9 10 13 17 8 17 16 14 15 17 17 15 17 14 14 8 10 6 12 9 8 9 2 4 2 1 0 1 BETA( , ,min,max) 0,0033 0,0201 0,0268 0,0301 0,0334 0,0435 0,0569 0,0268 0,0569 0,0535 0,0468 0,0502 0,0569 0,0569 0,0502 0,0569 0,0468 0,0468 0,0268 0,0334 0,0201 0,0401 0,0301 0,0268 0,0301 0,0067 0,0134 0,0067 0,0033 0,0000 4,8 0,00333 0,01996 0,02661 0,02994 0,03326 0,04324 0,05655 0,02661 0,05655 0,05322 0,04657 0,04989 0,05655 0,05655 0,04989 0,05655 0,04657 0,04657 0,02661 0,03326 0,01996 0,03991 0,02994 0,02661 0,02994 0,00665 0,01330 0,00665 0,00333 0,00000 5,5 0,003344 0,023411 0,050167 0,080268 0,113712 0,157191 0,214047 0,240803 0,297659 0,351171 0,397993 0,448161 0,505017 0,561873 0,612040 0,668896 0,715719 0,762542 0,789298 0,822742 0,842809 0,882943 0,913043 0,939799 0,969900 0,976589 0,989967 0,996656 1,000000 1,000000 6,2 Alfa ( ) 23 2,3 Beta () 3,6 36 Mnimo (min) 3 Mximo (max) 7 Muestra 300 3,03 6,64 0,1130 299 0,9945483 0,0878056 A1:A300 0,4247008 0,0487887 4,0079271 3,8174458

x(1 x) = (1 x) ; 1 2 s

Mnimo Media Mximo Varianza

Estadsticos Tericos Muestra 3,03 3,09 4,56 4,52 6,64 6,46 3,09 0,55

3,1

3,8

4,5

5,2

5,9

Algoritmo de generacin DISTR.BETA.INV(ALEATORIO(); ,,min,max) Caracterizacin Borghers, Reymen, y Wessa Law&Kelton

1,7 2,3 1,2 2,4

Proyecto e-Math Financiado por la Secretara de Estado de Educacin y Universidades (MECD)

Variables aleatorias continuas


El fichero Beta.xls es un libro que, a diferencia de la mayora de los que se presentarn, contiene no una sino dos hojas de clculo. La primera hoja ha sido presentada anteriormente y su objetivo es describir la distribucin Beta cuando se conocen perfectamente los parmetros que la definen. Sin embargo, la mayora de las veces el usuario no tiene ese conocimiento acerca de los parmetros (porque no dispone de datos empricos de la magnitud a simular y por lo tanto no puede llevar a cabo el proceso de caracterizacin con el cual estimar dichos parmetros) y nicamente tiene una idea sobre el comportamiento general de la magnitud a simular: sus extremos mximo y mnimo, el valor ms probable y la media1. En este caso se requiere que sean stos los datos que el usuario aporte para dar forma a una distribucin Beta Subjetiva cuyos parmetros formales pueden, no obstante, ser deducidos de las indicaciones del usuario. Los parmetros y pueden ser deducidos a partir de: la media que se desee tenga la distribucin, del valor m ms probable que se le supone, del mximo a y del mnimo b, en la forma siguiente: = ( a)(2m a b) (m ) (b a) ; (b ) = ( a)
BETA_SUB(Mod,Med,Min,Max) 0,0435 0,0769 0,0468 0,0736 0,0368 0,0669 0,0301 0,0736 0,0334 0,0435 0,0635 0,0535 0,0535 0,0268 0,0268 0,0234 0,0268 0,0301 0,0167 0,0301 0,0268 0,0201 0,0167 0,0100 0,0167 0,0100 0,0067 0,0100 0,0033 0,0033 9,9 0,04323 0,07649 0,04656 0,07316 0,03658 0,06651 0,02993 0,07316 0,03326 0,04323 0,06319 0,05321 0,05321 0,02661 0,02661 0,02328 0,02661 0,02993 0,01663 0,02993 0,02661 0,01995 0,01663 0,00998 0,01663 0,00998 0,00665 0,00998 0,00333 0,00333 13,3 0,043478 0,120401 0,167224 0,240803 0,277592 0,344482 0,374582 0,448161 0,481605 0,525084 0,588629 0,642140 0,695652 0,722408 0,749164 0,772575 0,799331 0,829431 0,846154 0,876254 0,903010 0,923077 0,939799 0,949833 0,966555 0,976589 0,983278 0,993311 0,996656 1,000000 16,6 Alfa ( ) 1,18 Beta () 2,57 Ms probable 3 Media 77 Mnimo (min) 1 Mximo (max) 20 Muestra 300 Estadsticos Tericos Muestra 1,00 1,09 7,00 6,79 18,85 17,76 3 7 1,00 18,85 0,5577 299 0,9943627 0,0878056 A1:A300 0,341846 0,0573859 2,9206033 2,1185688

0,09 X 1,6 0,08 2,1 2,7 0,07 3,2 0,06 3,8 4,3 0,05 4,9 0,04 5,5 6,0 0,03 6,6 0,02 7,1 7,7 0,01 8,3 8,8 0,00 9,4 9,9 10,5 1,0 11,0 11,6 0,9 12,2 0,8 12,7 13,3 0,7 13,8 0,6 14,4 14,9 0,5 15,5 0,4 16,1 0,3 16,6 17,2 0,2 17,7 0,1 0,0

Den 0,043701 0,052780 0,055320 0,055990 0,055677 0,054748 0,053398 0,051744 0,049864 0,047814 0,045636 0,043362 0,041016 0,038622 0,036195 0,033753 0,031309 0,028875 0,026463 0,024082 0,021744 0,019458 0,017233 0,015078 0,013005 0,011022 0,009140 0,007372 0,005731 0,004232 3,2

Dis 0,043701 0,096481 0,151801 0,207791 0,263468 0,318216 0,371613 0,423357 0,473221 0,521035 0,566671 0,610033 0,651049 0,689671 0,725866 0,759620 0,790929 0,819804 0,846267 0,870349 0,892093 0,911551 0,928784 0,943862 0,956867 0,967888 0,977028 0,984400 0,990131 0,994363 6,6

n 13 23 14 22 11 20 9 22 10 13 19 16 16 8 8 7 8 9 5 9 8 6 5 3 5 3 2 3 1 1 1

11,6

14,9

1,6

4,9

8,3

Mnimo Media Mximo Moda

10,5

11,6

12,7

13,8

14,9

16,1

Es necesario un pequeo esfuerzo para entender que la identificacin que habitualmente hacemos entre la media y el valor ms probable slo tiene sentido en distribuciones simtricas. En cualquier otra situacin ambos valores estarn ms separados cuanto ms larga sea una de las colas de la distribucin en comparacin con la otra y por tanto ms asimtrica sea sta.

Proyecto e-Math Financiado por la Secretara de Estado de Educacin y Universidades (MECD)

17,2

1,6

2,7

3,8

4,9

6,0

7,1

8,3

9,4

Variables aleatorias continuas

Bradford
Usos. Su uso es muy restringido en simulacin, se trata de otra distribucin que, como la de Pareto, modeliza cualquier fenmeno en el que "slo unos pocos controlan una gran parte del todo". La distribucin de Bradford se aplica concretamente al nmero de referencias (bibliogrficas en el trabajo original) a un determinado tema e intenta explicar un hecho observado por Samuel Bradford (1934) que puede definirse de esta manera: "un tercio de las referencias provienen de un reducido grupo de fuentes; otro tercio de un grupo menos reducido y el tercio restante de un disperso grupo de fuentes". Por ejemplo, encontradas 300 referencias sobre un tema, 100 se encuentran en un grupo de cinco revistas; otras 100 en un grupo de 25 y las restantes en un amplio grupo de 100 fuentes. Notacin y parmetros. La notacin habitual es XBRADFORD(A,B,C), A es parmetro de posicin; B de escala y C de forma. Densidad y Distribucin. La funcin de densidad es: f(x) = La funcin de distribucin es: C(x A) Log 1 + Ba F(x) = Log(C + 1) Estadsticos. La media y varianza son (respectivamente): C(B A) + Log(C + 1)[A(C + 1) B] C Log(C + 1) Propiedades. Es una distribucin de valores positivos siempre menores que B, cuya moda es A. Generacin. Excel no cuenta con ninguna funcin relacionada con la distribucin de Bradford, sin embargo, la generacin de v.a. puede hacerse (por inversin) fcilmente a travs de la frmula siguiente: (1/C)*(A*(C+1)-B+(B-A)*(C+1)^ALEATORIO()) Hoja de clculo. El fichero Bradford.xls es una plantilla para la generacin y anlisis de la distribucin Bradford en Excel. Su aspecto es el siguiente: ; (B A)2 + [(C Log(C + 1) 2) + 2 Log(C + 1)] 2 C Log(C + 1)2

[C(X A) + B A] Log(C + 1)

Proyecto e-Math Financiado por la Secretara de Estado de Educacin y Universidades (MECD)

Variables aleatorias continuas

8,0 7,0 6,0 5,0 4,0 3,0 2,0 1,0 0,0

1,0 0,9 0,8 0,7 0,6 0,5 0,4 0,3 0,2 0,1 0,0 1,0

X 1,03 1,07 1,10 1,13 1,17 1,20 1,23 1,27 1,30 1,33 1,37 1,40 1,43 1,47 1,50 1,53 1,57 1,60 1,63 1,67 1,70 1,73 1,76 1,80 1,83 1,86 1,90 1,93 1,96 2,00

Den 6,097998 5,179196 4,501016 3,979878 3,566895 3,231563 2,953863 2,720114 2,520647 2,348435 2,198250 2,066119 1,948971 1,844395 1,750470 1,665648 1,588666 1,518486 1,454244 1,395217 1,340794 1,290458 1,243765 1,200333 1,159832 1,121974 1,086510 1,053219 1,021908 0,992404 1,2

Dis 0,092336 0,170760 0,238914 0,299178 0,353188 0,402120 0,446848 0,488036 0,526204 0,561764 0,595050 0,626335 0,655847 0,683775 0,710280 0,735502 0,759557 0,782550 0,804570 0,825697 0,845999 0,865539 0,884373 0,902548 0,920110 0,937099 0,953551 0,969499 0,984973 1,000000 1,4 1,4

n 31 25 14 22 11 14 9 9 14 13 10 11 12 14 10 7 4 3 10 7 4 5 0 6 7 4 5 4 1 4 0

f_s 0,1069 0,0862 0,0483 0,0759 0,0379 0,0483 0,0310 0,0310 0,0483 0,0448 0,0345 0,0379 0,0414 0,0483 0,0345 0,0241 0,0138 0,0103 0,0345 0,0241 0,0138 0,0172 0,0000 0,0207 0,0241 0,0138 0,0172 0,0138 0,0034 0,0138 1,7

f1_s 7,05958 5,69321 3,18820 5,01003 2,50501 3,18820 2,04956 2,04956 3,18820 2,96047 2,27729 2,50501 2,73274 3,18820 2,27729 1,59410 0,91091 0,68319 2,27729 1,59410 0,91091 1,13864 0,00000 1,36637 1,59410 0,91091 1,13864 0,91091 0,22773 0,91091 1,8

f2_s 0,10690 0,19310 0,24138 0,31724 0,35517 0,40345 0,43448 0,46552 0,51379 0,55862 0,59310 0,63103 0,67241 0,72069 0,75517 0,77931 0,79310 0,80345 0,83793 0,86207 0,87586 0,89310 0,89310 0,91379 0,93793 0,95172 0,96897 0,98276 0,98621 1,00000 2,0

BRADFORD(A,B,C) 1,0 2,0 6,5 65 Muestra 290

A 10 B
20

1,0003 1,9977 0,0332 290 0,086267971 A1:A290


66,041

Mnimo Media Mximo Varianza

2,014903021 Estadsticos Tericos Muestra 1,00 1,00 1,99 1,33 2,00 1,99 0,078 0,071

1,0

1,1

1,2

1,3

1,5

1,6

1,6

1,8

1,9

Algoritmo de generacin (1/C)*(A*(C+1)-B+(B-A)*(C+1)^ALEATORIO())

1,1

1,2

1,2

1,3

1,4

1,4

1,5

1,6

1,6

1,7

1,8

1,8

1,9

Cauchy
Usos. El cociente de dos cantidades normales estndar independientes sigue una distribucin de Cauchy, este hecho es suficiente para que esta distribucin deba ser tenida en cuenta a la hora de realizar simulaciones. De otra manera, si se distribuye U(-/2, /2) entonces X = tg() se distribuye segn una Cauchy(a = 0 ; b = 1). As, se distribuye con arreglo a esta distribucin, la distancia a la que un segmento de longitud infinita y con un origen arbitrario corta a una recta (la distancia se considera desde el punto de corte de la recta que determina la distancia del origen a la recta) cuando el ngulo que forma el segmento con la recta es arbitrario (esto es, igualmente posible entre -/2 y /2). La distribucin de Cauchy se caracteriza por tener las colas (es simtrica) mucho ms largas que otras distribuciones simtricas (la Normal o incluso la Logstica) esto hace que tenga aplicacin durante la fase de validacin de un modelo cuando se quiere someter a ste a un gran nmero de valores extremos. En Excel no existe ninguna funcin directamente relacionada con la distribucin de Cauchy, aunque tanto su generacin como su anlisis no es complicado.

Proyecto e-Math Financiado por la Secretara de Estado de Educacin y Universidades (MECD)

2,0

Variables aleatorias continuas


Notacin y parmetros. No es una distribucin demasiado conocida. Aunque pueda encontrarse con otra notacin, la habitual es XC(a,b), siendo a el parmetro de posicin (-<a<) y b el de escala (b>0). Densidad y Distribucin. La funcin de densidad es: f(x) = ,la funcin de distribucin es: F(x) = Estadsticos. La media, moda y la mediana coinciden en el parmetro a; la varianza no existe. Propiedades. La distribucin es simtrica respecto de a; el primer y tercer cuartil estn, respectivamente, en a-b y a+b; la distribucin C(0;1) es mucho ms "aplastada" que la normal estndar y por tanto las colas son mucho ms largas. Una propiedad importante es que si XC(0,1) (+X)C(,);. tambin se verifica que si {X1,X2,...Xn} son variables aleatorias independientes y distribuidas segn {C(1,);C(2,);..;C(n,)}, entonces {X1+X2+...+Xn}C(1+2+..+n,). Generacin. Existen al menos dos formas de generar variables aleatorias de Cauchy en Excel: a - (b/(TAN(PI()*ALEATORIO())))-0,5 a + (b*(N(0,1))/N(0,1))) 1 1 X a + arctan 2 b

(X a) + b 2
2

ambas parecen proporcionar buenos resultados (vase la hoja de clculo). Mientras que la primera requiere un nico nmero aleatorio, la segunda requiere dos ya que cada generacin de una variable aleatoria normal deber hacerse utilizando la frmula: DISTR.NORM.ESTAND.INV(ALEATORIO()) de esta manera, la frmula completa para el segundo modo de generacin ser:
a+(b*DISTR.NORM.ESTAND.INV(ALEATORIO())/DISTR.NORM.ESTAND.INV(ALEATORIO()))-0,5

Hoja de clculo. El fichero Cauchy.xls contiene una hoja que posibilita la descripcin grfica y la generacin, por los dos mtodos expuestos, de v.a. de Cauchy. Su aspecto es el siguiente:

Proyecto e-Math Financiado por la Secretara de Estado de Educacin y Universidades (MECD)

Variables aleatorias continuas

## 0,18 X ## ## -6,5 0,16 ## -6,1 ## -5,6 0,14 ## -5,1 0,12 ## -4,7 ## -4,2 0,10 ## -3,7 ## -3,3 0,08 ## -2,8 0,06 ## -2,3 ## -1,9 0,04 ## -1,4 ## -0,9 0,02 ## -0,5 ## 0,000,0 ## 0,5 ## 0,9 ## 1,4 1,0 1,9 ## ## 0,9 2,3 ## 2,8 0,8 ## 3,3 0,7 3,7 ## ## 0,6 4,2 ## 4,7 0,5 5,1 ## 0,4 5,6 ## ## 0,3 6,1 ## 6,5 0,2 7,0 ## 0,1 ## ## 0,0 ## ## ## -6,1

Den 0,003655 0,003951 0,004620 0,005472 0,006581 0,008056 0,010078 0,012941 0,017161 0,023680 0,034275 0,052212 0,081793 0,119514 0,138983 0,119514 0,081793 0,052212 0,034275 0,023680 0,017161 0,012941 0,010078 0,008056 0,006581 0,005472 0,004620 0,003951 0,003417 0,000000 -5,1 -4,2

Dis 0,048346 0,052001 0,056248 0,061241 0,067193 0,074403 0,083306 0,094558 0,109188 0,128881 0,156548 0,197432 0,260972 0,361017 0,500000 0,638983 0,739028 0,802568 0,843452 0,871119 0,890812 0,905442 0,916694 0,925597 0,932807 0,938759 0,943752 0,947999 0,951654 0,954833 -2,3

n 16 3 0 1 4 3 2 3 5 8 16 11 31 34 43 30 26 18 13 7 2 3 3 0 6 1 0 1 0 0 10

f_s 0,0584 0,0109 0,0000 0,0036 0,0146 0,0109 0,0073 0,0109 0,0182 0,0292 0,0584 0,0401 0,1131 0,1241 0,1569 0,1095 0,0949 0,0657 0,0474 0,0255 0,0073 0,0109 0,0109 0,0000 0,0219 0,0036 0,0000 0,0036 0,0000 0,0000 1,4

f1_s 0,05003 0,00938 0,00000 0,00313 0,01251 0,00938 0,00625 0,00938 0,01563 0,02501 0,05003 0,03439 0,09693 0,10631 0,13445 0,09380 0,08129 0,05628 0,04065 0,02189 0,00625 0,00938 0,00938 0,00000 0,01876 0,00313 0,00000 0,00313 0,00000 0,00000 4,2

CAUCHY(a,b) f2_s 1,00000 Posicin (a) 11 -7 0,01095 0 7 0,01095 0,46667 0,01460 Escala (b) 274 0,02920 1 10 0,85670 0,04015 0,08205 0,04745 Muestra A1:A300 0,05839 300 1 0,07664 0,10584 Estadsticos 0,16423 Tericos Muestra 0,20438 Mnimo -7,00 -447,29 0,31752 Media 0,00 -2,58 0,44161 Mximo 7,00 51,55 0,59854 Varianza 0,70803 0,80292 Algoritmo de generacin 0,86861 a-(b/(TAN(PI()*ALEATORIO())))-0,5 0,91606 a+(b*(N(0,1))/N(0,1))) 0,94161 0,94891 0,95985 a-(b/(TAN(PI()*ALEATORIO())))-0,5 0,97080 0,97080 0,99270 0,99635 0,99635 1,00000 1,00000 1,00000 6,1

-6,1

-3,3

-1,4

-0,5

0,5

2,3

3,3

-5,1

-4,2

-3,3

-2,3

-1,4

-0,5

0,5

1,4

2,3

3,3

4,2

5,1

5,1

Chi cuadrado (2)


Usos. Es sabido que la suma de n variables normales estndar al cuadrado sigue una distribucin 2 de n grados de libertad, sin embargo, este hecho no convierte a la distribucin 2 en candidata para la modelizacin de ninguna magnitud, excepto si sta fuera precisamente la suma anterior. Su uso en Simulacin, o MonteCarlo, est ms relacionada con el test de bondad del ajuste que lleva su nombre. Notacin y parmetros. La notacin habitual es X2(), siendo los grados de libertad (>0). Densidad y Distribucin. La funcin de densidad es:
X 1 X 2 e 2 2 2

f(x) =

Proyecto e-Math Financiado por la Secretara de Estado de Educacin y Universidades (MECD)

6,1

Variables aleatorias continuas


,la funcin de distribucin (sin forma cerrada para impar) es:
X e 2 j X j = 2 1 2 j! j=0

F(x) = 1

Estadsticos. La media es , la varianza 2, el sesgo 2(2/)1/2, la curtosis 3+(12/) y el coeficiente de variacin (2/)1/2. Propiedades. La distribucin Generacin. La generacin es inmediata usando la funcin de librera de Excel: PRUEBA.CHI.INV(ALEATORIO();GL) Hoja de clculo. El fichero Chi2.xls contiene una hoja que posibilita la descripcin grfica y la generacin:
0,09 X 2,7 0,08 3,4 0,07 4,0 4,7 0,06 5,4 0,05 6,0 6,7 0,04 7,3 0,03 8,0 8,6 0,02 9,3 0,01 9,9 10,6 0,00 11,2 11,9 12,5 13,2 1,0 13,8 14,5 0,9 15,1 0,8 15,8 0,7 16,4 17,1 0,6 17,8 0,5 18,4 19,1 0,4 19,7 2,1 Den 0,027047 0,038276 0,048604 0,057066 0,063142 0,066694 0,067862 0,066963 0,064401 0,060604 0,055972 0,050862 0,045565 0,040309 0,035261 0,030538 0,026210 0,022311 0,018852 0,015821 0,013194 0,010941 0,009024 0,007407 0,006051 0,004923 0,003989 0,3 20,4 0,003221 0,2 21,0 0,002591 21,7 0,010000 0,1 0,0 4,0 6,0 2,7 4,7 6,7 Dis 0,026298 0,053346 0,091621 0,140225 0,197292 0,260434 0,327128 0,394990 0,461953 0,526354 0,586958 0,642930 0,693792 0,739357 0,779666 0,814927 0,845465 0,871675 0,893987 0,912838 0,928659 0,941853 0,952794 0,961818 0,969225 0,975276 0,980199 0,984188 0,987409 0,990000 8,0 9,9 n 10 3 16 13 12 24 16 23 18 21 12 15 18 22 11 16 10 13 3 4 4 3 4 1 2 0 2 1 1 0 2

2 es un caso particular de la distribucin Gamma, 2n Gamma(n/2,2)

2(GL)
0,0333 0,0100 0,0533 0,0433 0,0400 0,0800 0,0533 0,0767 0,0600 0,0700 0,0400 0,0500 0,0600 0,0733 0,0367 0,0533 0,0333 0,0433 0,0100 0,0133 0,0133 0,0100 0,0133 0,0033 0,0067 0,0000 0,0067 0,0033 0,0033 0,0000 0,0327 0,0098 0,0523 0,0425 0,0392 0,0784 0,0523 0,0752 0,0588 0,0686 0,0392 0,0490 0,0588 0,0719 0,0359 0,0523 0,0327 0,0425 0,0098 0,0131 0,0131 0,0098 0,0131 0,0033 0,0065 0,0000 0,0065 0,0033 0,0033 0,0000 17,8 0,0333 0,0433 0,0967 0,1400 0,1800 0,2600 0,3133 0,3900 0,4500 0,5200 0,5600 0,6100 0,6700 0,7433 0,7800 0,8333 0,8667 0,9100 0,9200 0,9333 0,9467 0,9567 0,9700 0,9733 0,9800 0,9800 0,9867 0,9900 0,9933 0,9933 GL 41 9 2,09 21,67 0,6526053 300 0,9802365 0,0784099 A1:A300

Muestra 300

11,9

13,8

15,8

19,7

Estadsticos Tericos Muestra Mnimo 2,09 0,92 Media 9,00 8,92 Mximo 0,65 25,21 Varianza 18,00 15,53
Algoritmo de generacin PRUEBA.CHI.INV(ALEATORIO();GL)

10,6

12,5

14,5

16,4

18,4

Proyecto e-Math Financiado por la Secretara de Estado de Educacin y Universidades (MECD)

20,4

8,6

10

Variables aleatorias continuas

Exponencial
Usos. La distribucin exponencial es una de las ms utilizadas en simulacin, sus valores son siempre positivos lo que la liga fundamentalmente con la modelizacin de "tiempos", pero lo que la convierte en sumamente importante es el hecho de que se trata de la nica distribucin continua cuya tasa de fallo es constante, o dicho de otra forma, no tiene memoria. Esto supone que la magnitud simulada, el tiempo necesario para que se complete una tarea, el tiempo hasta el fallo de un dispositivo mecnico, el tiempo entre llegadas de los clientes a una cola, es independiente del instante del tiempo en que nos encontremos y por tanto del tiempo transcurrido hasta ese momento. Esta propiedad (conocida en la literatura anglosajona como "memoryless property") es harto frecuente, determinados dispositivos electrnicos, por ejemplo, no sufren desgaste y por lo tanto prcticamente no envejecen por lo que su probabilidad de fallo no aumenta a lo largo de su vida til. Por otra parte, si el nmero de sucesos ocurridos en un intervalo de tiempo sigue una distribucin de Poisson, entonces el tiempo entre dos de estos sucesos se distribuye de forma exponencial. Notacin y parmetros. La notacin habitual es XExp(), es parmetro de escala (>0). Densidad y Distribucin. La funcin de densidad es:
1 f(x) = e X

,la funcin de distribucin es:


X e

F(x) = 1 Estadsticos.

La media es , la varianza 2; el sesgo 2, la curtosis 9 y el coeficiente de variacin 1.

Propiedades. Es un caso particular de la distribucin Gamma verificndose que Gamma(,1) Exp(); tambin es un caso particular de la Weibull Weibull(,1) Exp(); la suma de exponenciales independientes de parmetro es una distribucin Erlang(k;) Generacin. Excel no cuenta con una funcin para la inversa de la funcin de distribucin, sin embargo, la generacin de variables aleatorias puede hacerse utilizando la frmula siguiente: (1/) * -LOG(ALEATORIO())

Proyecto e-Math Financiado por la Secretara de Estado de Educacin y Universidades (MECD)

11

Variables aleatorias continuas


Hoja de clculo. El fichero Exponencial.xls es una plantilla para la generacin y anlisis de esta distribucin en Excel. Ntese que en la hoja se ha utilizado una notacin ligeramente distinta (cambiando tasa por media) de manera que =1/.
1,4 X 0,18 1,2 0,36 0,54 0,72 1,0 0,90 1,08 0,8 1,26 1,44 0,6 1,62 1,80 0,4 1,98 2,16 0,2 2,34 2,52 0,0 2,70 2,88 3,06 3,24 1,0 3,42 3,60 0,9 3,78 0,8 3,96 0,7 4,14 4,32 0,6 4,50 0,5 4,68 4,86 0,4 5,04 0,3 5,22 0,2 5,40 0,1 0,0 Den 1,30008 0,940327 0,680124 0,491923 0,355800 0,257345 0,186133 0,134627 0,097374 0,070429 0,050940 0,036844 0,026649 0,019275 0,013941 0,010083 0,007293 0,005275 0,003815 0,002760 0,001996 0,001444 0,001044 0,000755 0,000546 0,000395 0,000286 0,000207 0,000149 0,000108 0,5 0,9 Dis 0,277733 0,477596 0,622153 0,726710 0,802333 0,857031 0,896593 0,925207 0,945903 0,960873 0,971700 0,979531 0,985195 0,989292 0,992255 0,994398 0,995948 0,997069 0,997880 0,998467 0,998891 0,999198 0,999420 0,999580 0,999697 0,999781 0,999841 0,999885 0,999917 0,999940 1,6 n 76 58 37 25 27 10 13 10 9 8 8 3 3 2 4 0 1 2 0 3 0 0 0 0 0 1 0 0 0 0 0 f_s 0,2533 0,1933 0,1233 0,0833 0,0900 0,0333 0,0433 0,0333 0,0300 0,0267 0,0267 0,0100 0,0100 0,0067 0,0133 0,0000 0,0033 0,0067 0,0000 0,0100 0,0000 0,0000 0,0000 0,0000 0,0000 0,0033 0,0000 0,0000 0,0000 0,0000 3,1 f1_s 1,19015 0,90827 0,57942 0,39150 0,42282 0,15660 0,20358 0,15660 0,14094 0,12528 0,12528 0,04698 0,04698 0,03132 0,06264 0,00000 0,01566 0,03132 0,00000 0,04698 0,00000 0,00000 0,00000 0,00000 0,00000 0,01566 0,00000 0,00000 0,00000 0,00000 3,8 f2_s 0,25333 0,44667 0,57000 0,65333 0,74333 0,77667 0,82000 0,85333 0,88333 0,91000 0,93667 0,94667 0,95667 0,96333 0,97667 0,97667 0,98000 0,98667 0,98667 0,99667 0,99667 0,99667 0,99667 0,99667 0,99667 1,00000 1,00000 1,00000 1,00000 1,00000 4,9 EXPONENCIAL ( ) Lambda( ) 18 1,8 0,00 5,40 0,1800 300
4,698

Muestra 300

0,08 A1:A300 Estadsticos Tericos Muestra 0,00 0,00 0,56 0,70 5,40 4,62 0,309 0,547
Algoritmo de generacin

0,2

1,3

2,0

2,3

2,7

3,4

4,1

4,5

5,2

Mnimo Media Mximo Varianza ()

Lambda*-LOG(ALEATORIO())

0,2

0,7

1,3

1,8

2,3

2,9

3,4

4,0

4,5

Usos. Esta distribucin tiene un papel fundamental en determinados contrastes de hiptesis (pruebas sobre las varianzas y ANOVA). Pero fuera de estas aplicaciones no suele usarse para modelizar magnitud alguna. Notacin y parmetros. La notacin habitual es XF(gl1,gl2), ambos parmetros, conocidos como grados de libertad del numerador y g.l. del denominador son de forma (gl1;gl2>0). Densidad y Distribucin. La funcin de densidad es: gl1 gl 2
1 1 2 2 X gl1 gl

f(x) =

5,0

gl1 gl gl 1 ; 2 1 + X gl 2 2 2

gl1 + gl2 2

mientras que la funcin de distribucin no tiene forma cerrada.

Proyecto e-Math Financiado por la Secretara de Estado de Educacin y Universidades (MECD)

12

Variables aleatorias continuas


Estadsticos. La media y varianza son (respectivamente): gl1 gl1 2 Propiedades. Ntese que la media de la distribucin no depende de gl1; al aumentar los grados de libertad de la distribucin, sta se aproxima cada vez ms a la distribucin Normal; se verifica que: F(gl1,gl2) 1/ F(gl2,gl1) Generacin. Excel cuenta con una funcin para la inversa de la funcin de distribucin, la generacin de variables aleatorias puede hacerse utilizando la frmula siguiente: DISTR.F.INV(ALEATORIO();GL1;GL2) Hoja de clculo. El fichero FSnedecor.xls es una plantilla para la generacin y anlisis de esta distribucin en Excel. Su aspecto es el siguiente:
0,14 X 0,0 0,12 0,1 0,3 0,10 0,4 0,5 0,08 0,6 0,8 0,06 0,9 1,0 0,04 1,2 0,02 1,3 1,4 0,00 1,5 1,7 1,8 1,9 1,0 2,1 2,2 0,9 2,3 0,8 2,4 2,6 0,7 2,7 2,8 0,6 3,0 0,5 3,1 3,2 0,4 3,3 0,3 3,5 3,6 0,2 3,7 0,1 0,0 0,0 0,4 0,8 1,2 1,5 1,9 2,3 2,7 3,1 3,5 Den 0,001274 0,015724 0,046486 0,079062 0,101903 0,111639 0,110150 0,101166 0,088282 0,074197 0,060624 0,048480 0,038133 0,029613 0,022769 0,017374 0,013179 0,009952 0,007491 0,005625 0,004217 0,003159 0,002365 0,001771 0,001326 0,000994 0,000746 0,000560 0,000421 0,001317 0,4 Dis 0,000000 0,001274 0,016998 0,063484 0,142546 0,244449 0,356089 0,466239 0,567404 0,655686 0,729883 0,790507 0,838987 0,877120 0,906733 0,929502 0,946876 0,960055 0,970007 0,977498 0,983123 0,987341 0,990499 0,992864 0,994635 0,995961 0,996955 0,997701 0,998261 0,998683 1,2 n 0 1 1 17 23 34 35 31 27 26 31 12 12 9 7 7 1 5 4 3 3 3 3 2 1 1 0 0 1 0 0 F (GL1,GL2) 0,0000 0,0033 0,0033 0,0567 0,0767 0,1133 0,1167 0,1033 0,0900 0,0867 0,1033 0,0400 0,0400 0,0300 0,0233 0,0233 0,0033 0,0167 0,0133 0,0100 0,0100 0,0100 0,0100 0,0067 0,0033 0,0033 0,0000 0,0000 0,0033 0,0000 2,3 0,00000 0,00333 0,00333 0,05667 0,07667 0,11333 0,11667 0,10333 0,09000 0,08667 0,10333 0,04000 0,04000 0,03000 0,02333 0,02333 0,00333 0,01667 0,01333 0,01000 0,01000 0,01000 0,01000 0,00667 0,00333 0,00333 0,00000 0,00000 0,00333 0,00000 2,7 3,1 0,0000 0,0033 0,0067 0,0633 0,1400 0,2533 0,3700 0,4733 0,5633 0,6500 0,7533 0,7933 0,8333 0,8633 0,8867 0,9100 0,9133 0,9300 0,9433 0,9533 0,9633 0,9733 0,9833 0,9900 0,9933 0,9967 0,9967 0,9967 1,0000 1,0000 3,5 G.L. 1 41 9 G.L. 2 48 4 Muestra 300 0,0000 3,8519 0,1284 300 1,0000 0,0784 A1:A300
2

2gl1 (gl1 + gl2 2) 2 gl2 (gl1 4)(gl1 2)

Mnimo Media Mximo Varianza

Estadsticos Tericos Muestra 0,00 0,09 1,04 1,07 3,85 3,52 0,30 0,36

0,0

0,8

1,5

1,9

Algoritmo de generacin DISTR.F.INV(ALEATORIO();GL1;GL2)

Proyecto e-Math Financiado por la Secretara de Estado de Educacin y Universidades (MECD)

13

Variables aleatorias continuas

Gamma
Usos. La distribucin Gamma es la generalizacin de algunas de las distribuciones ms usadas en la modelizacin de fenmenos para su simulacin: la exponencial, y la Erlang no son sino casos particulares (junto con la 2) de la distribucin Gamma. Su empleo en Simulacin/MonteCarlo est relacionado con los fenmenos de espera, el hecho de que sea siempre positiva la liga a magnitudes como el tiempo para realizar una tarea o el tiempo hasta el fallo de un dispositivo, entre otras posibles aplicaciones. Estas aplicaciones se derivan del hecho de que puede considerarse como la probabilidad de que ocurran sucesos en un periodo (1/) de tiempo (por ejemplo que fallen los k subsistemas de un dispositivo que harn que ste finalmente deje de funcionar; que se lleven a cabo las k subtareas que componen un tarea principal con lo que sta puede considerarse terminada, etc.) Notacin y parmetros.

escala.

La notacin habitual es XGamma(,), (>0) es un parmetro de forma y (>0) de

Densidad y Distribucin. La funcin de densidad es:


X 1 X e

f(x) = ,la funcin de distribucin es:

F(x) = 1

X X j = 1 e

j=0

j!

Estadsticos. La media y varianza son (respectivamente): ; 2

el sesgo, la curtosis y el coeficiente de variacin son (respectivamente): 2 Propiedades. Gamma(1,) Exp() ; si k es un entero positivo a la distribucin Gamma(k,) se la conoce como k-Erlang; a la distribucin Gamma(v/2,2) se la conoce como 2v. Si {X1,X2,..Xn} se distribuyen como Gamma(1,), Gamma(2,),.. entonces la suma X1+X2+.. se distribuye segn Gamma(1+2+...,). 1 ; 3+ 6 ; 1

Proyecto e-Math Financiado por la Secretara de Estado de Educacin y Universidades (MECD)

14

Variables aleatorias continuas


Generacin. Excel cuenta con una funcin para la inversa de la funcin de distribucin, la generacin de variables aleatorias puede hacerse utilizando la frmula siguiente: DISTR.GAMMA.INV(ALEATORIO();;) Hoja de clculo. El fichero Gamma.xls es una plantilla para la generacin y anlisis de esta distribucin en Excel. Su aspecto es el siguiente:
0,12 X 3,4 0,10 6,3 9,1 12,0 0,08 14,8 17,7 0,06 20,5 23,4 26,2 0,04 29,1 31,9 0,02 34,7 37,6 40,4 0,00 43,3 46,1 49,0 1,0051,8 54,7 0,9057,5 0,8060,4 0,7063,2 66,1 0,6068,9 0,5071,7 74,6 0,4077,4 0,3080,3 0,2083,1 86,0 0,10 0,00 0,6 Den 0,000156 0,002635 0,011450 0,027448 0,047561 0,067276 0,082859 0,092304 0,095294 0,092687 0,085930 0,076586 0,066044 0,055381 0,045337 0,036347 0,028611 0,022160 0,016918 0,012751 0,009499 0,007002 0,005113 0,003700 0,002657 0,001894 0,001340 0,000943 0,000659 0,000458 17,7 9,1 Dis 0,000156 0,002791 0,014240 0,041688 0,089249 0,156526 0,239385 0,331689 0,426983 0,519670 0,605600 0,682186 0,748229 0,803610 0,848947 0,885294 0,913905 0,936065 0,952983 0,965734 0,975233 0,982236 0,987348 0,991049 0,993705 0,995599 0,996939 0,997882 0,998541 0,999000 26,2 34,7 n 0 1 2 7 26 19 21 22 24 31 30 22 20 11 10 15 15 4 6 4 5 1 0 1 3 0 0 0 0 0 0 f_s 0,0000 0,0033 0,0067 0,0233 0,0867 0,0633 0,0700 0,0733 0,0800 0,1033 0,1000 0,0733 0,0667 0,0367 0,0333 0,0500 0,0500 0,0133 0,0200 0,0133 0,0167 0,0033 0,0000 0,0033 0,0100 0,0000 0,0000 0,0000 0,0000 0,0000 51,8 f1_s 0,00000 0,00333 0,00666 0,02331 0,08658 0,06327 0,06993 0,07326 0,07992 0,10323 0,09990 0,07326 0,06660 0,03663 0,03330 0,04995 0,04995 0,01332 0,01998 0,01332 0,01665 0,00333 0,00000 0,00333 0,00999 0,00000 0,00000 0,00000 0,00000 0,00000 68,9 f2_s 0,0000 0,0033 0,0100 0,0333 0,1200 0,1833 0,2533 0,3267 0,4067 0,5100 0,6100 0,6833 0,7500 0,7867 0,8200 0,8700 0,9200 0,9333 0,9533 0,9667 0,9833 0,9867 0,9867 0,9900 1,0000 1,0000 1,0000 1,0000 1,0000 1,0000 77,4 GAMMA ( , ) Alfa ( ) 55 5,5 Beta () 5,5 55 Muestra 300 Estadsticos Tericos 0,60 30,25 2,85 166,38 0,60 85,98 2,8460 300 0,9990 0,0784 A1:A300

43,3

60,4

0,6

Mnimo Media Mximo Varianza ()

Muestra 5,82 30,19 71,31 168,14

Algoritmo de generacin DISTR.GAMMA.INV(ALEATORIO(); ;)

17,7

26,2

34,7

43,3

51,8

60,4

68,9

Gumbel
Usos. La distribucin Gumbel es tambin conocida como LogWeibull, Gomperzt o FisherTippet. Es la distribucin de los valores extremos (mximo o mnimos) de una muestra suficientemente grande de variables aleatorias independientes de una misma distribucin. Notacin y parmetros. La notacin habitual es XGumbel(,), (-<<) es un parmetro de posicin y (>0) de forma.

Proyecto e-Math Financiado por la Secretara de Estado de Educacin y Universidades (MECD)

77,4

9,1

15

Variables aleatorias continuas


Densidad y Distribucin. Las funciones de densidad y distribucin son:
X e X e e X e e

f(x) = Estadsticos.

F(X) =

La media y varianza son (respectivamente) 0.5772 el sesgo y la curtosis son (respectivamente) 1.1395 Propiedades. ;

; 5.4

2 2 6

La distribucin es unimodal (Moda = ) y con puntos de inflexin situados en 0,962. Generacin. Aunque Excel no cuenta con una funcin para la inversa de la funcin de distribucin, la generacin de variables aleatorias puede hacerse utilizando la frmula siguiente: *LN(-LN(ALEATORIO())) Hoja de clculo. El fichero Gumbel.xls es una plantilla para la generacin y anlisis de esta distribucin
0,40 X 2,8 0,353,2 3,5 0,303,9 4,2 0,254,6 5,0 0,20 5,3 0,155,7 6,0 0,106,4 6,7 0,057,1 7,4 0,007,8 8,1 8,5 8,8 1,0 9,2 0,9 9,6 9,9 0,8 10,3 0,7 10,6 0,6 11,0 11,3 0,5 11,7 0,4 12,0 0,3 12,4 12,7 0,2 13,1 0,1 0,0 2,8 Den 0,024994 0,069201 0,137041 0,211444 0,270901 0,302204 0,304094 0,283378 0,249392 0,210330 0,171846 0,137125 0,107510 0,083194 0,063752 0,048499 0,036697 0,027655 0,020778 0,015576 0,011658 0,008714 0,006507 0,004856 0,003622 0,002701 0,002013 0,001500 0,001118 0,000833 3,5 4,2 Dis 0,005830 0,021672 0,057624 0,119377 0,205356 0,307587 0,415573 0,519967 0,614417 0,695747 0,763239 0,817726 0,860819 0,894383 0,920228 0,939961 0,954933 0,966238 0,974745 0,981129 0,985911 0,989488 0,992160 0,994155 0,995644 0,996754 0,997581 0,998198 0,998658 0,999000 5,7 6,4 n 0 2 6 13 22 36 37 23 32 22 20 21 16 12 6 8 5 2 2 1 2 0 0 0 1 1 0 0 0 0 0 f_s 0,0000 0,0069 0,0207 0,0448 0,0759 0,1241 0,1276 0,0793 0,1103 0,0759 0,0690 0,0724 0,0552 0,0414 0,0207 0,0276 0,0172 0,0069 0,0069 0,0034 0,0069 0,0000 0,0000 0,0000 0,0034 0,0034 0,0000 0,0000 0,0000 0,0000 9,2 f1_s 0,00000 0,01944 0,05833 0,12637 0,21387 0,34996 0,35968 0,22359 0,31108 0,21387 0,19442 0,20414 0,15554 0,11665 0,05833 0,07777 0,04861 0,01944 0,01944 0,00972 0,01944 0,00000 0,00000 0,00000 0,00972 0,00972 0,00000 0,00000 0,00000 0,00000 10,6 11,3 GUMBEL( , ) f2_s 0,00000 Posicin ( ) 48 2,48083 0,00690 4,8 13,08871 0,02759 0,35360 0,07241 Escala ( ) 290 0,14828 1,2 12 2,81913 0,27241 0,07975 0,40000 Muestra A1:A290 0,47931 290 1 0,58966 0,66552 Estadsticos 0,73448 Tericos Muestra 0,80690 Mnimo 2,48 2,76 0,86207 Media 4,80 5,40 0,90345 Mximo 13,09 11,48 0,92414 Varianza () 2,0 0,95172 0,96897 Algoritmo de generacin 0,97586 * LN(-LN(ALEATORIO())) 0,98276 0,98621 0,99310 0,99310 0,99310 0,99310 0,99655 1,00000 1,00000 1,00000 1,00000 1,00000 12,7

10,6

11,3

12,0

12,0

2,8

5,0

7,1

7,8

8,5

9,9

Proyecto e-Math Financiado por la Secretara de Estado de Educacin y Universidades (MECD)

12,7

3,5

4,2

5,0

5,7

6,4

7,1

7,8

8,5

9,2

9,9

16

Variables aleatorias continuas

Logstica
Usos. Aunque tericamente se trata de la distribucin de la media de los valores mximo y mnimo de una muestra de tamao n (n), su utilizacin est ms relacionada con el crecimiento futuro de una magnitud a lo largo del tiempo. Si dicho crecimiento es directamente proporcional al valor actual de dicha magnitud entonces se dice que el crecimiento es exponencial, si adems de esto existe un techo que impide un crecimiento infinito la curva de la magnitud sobre el eje del tiempo es una curva logstica. Esto hace que esta distribucin se pueda emplear, genricamente, para representar el valor en un momento del tiempo de una magnitud de esas caractersticas. Otro motivo para su utilizacin es su gran parecido con la distribucin Normal pero con la ventaja de tener una funcin de distribucin mucho ms sencilla lo que posibilita extraordinariamente su tratamiento analtico. Notacin y parmetros.

escala.

La notacin habitual es XLog(,), (-<<) es un parmetro de posicin y (>0) de

Densidad y Distribucin. La funcin de densidad es:


X e X 1 + e 2

f(x) =

,la funcin de distribucin es: F(x) = 1+ Estadsticos. La media y varianza son (respectivamente): ; 22 3 1
X e

el sesgo, la curtosis y el coeficiente de variacin son (respectivamente): 22 3

0 Propiedades.

4,2

Si =0 =0,5513, entonces Log(,)N(0;1).

Proyecto e-Math Financiado por la Secretara de Estado de Educacin y Universidades (MECD)

17

Variables aleatorias continuas


Generacin. Excel no cuenta con una funcin para la inversa de la funcin de distribucin, sin embargo, la generacin de variables aleatorias puede hacerse utilizando la frmula siguiente: +( *-LN(ALEATORIO()/(1-ALEATORIO()))) Hoja de clculo. El fichero Logistica.xls es una plantilla para la generacin y anlisis de esta distribucin en Excel. Su aspecto es el siguiente:
X 0,08 -23,2 -21,7 0,07 -20,1 -18,6 0,06 -17,0 0,05 -15,5 -13,9 0,04 -12,4 -10,8 0,03 -9,3 -7,7 0,02 -6,2 -4,6 0,01 -3,1 -1,5 0,00 0,0 1,5 3,1 4,6 1,0 6,2 0,9 7,7 9,3 0,8 10,8 0,7 12,4 0,6 13,9 15,5 0,5 17,0 0,4 18,6 0,3 20,1 21,7 0,2 0,1 0,0 Den 0,003333 0,004263 0,005433 0,006895 0,008702 0,010907 0,013550 0,016653 0,020195 0,024097 0,028205 0,032277 0,035998 0,039011 0,040981 0,041667 0,040981 0,039011 0,035998 0,032277 0,028205 0,024097 0,020195 0,016653 0,013550 0,010907 0,008702 0,006895 0,005433 0,004263 -18,6 Dis 0,020414 0,026266 0,033738 0,043242 0,055269 0,070396 0,089272 0,112596 0,141070 0,175322 0,215801 0,262649 0,315574 0,373759 0,435840 0,500000 0,564160 0,626241 0,684426 0,737351 0,784199 0,824678 0,858930 0,887404 0,910728 0,929604 0,944731 0,956758 0,966262 0,973734 -9,3 n 4 1 1 2 3 2 1 5 3 9 8 14 22 14 31 32 30 28 13 16 15 9 9 6 7 6 2 0 1 2 4 LOGSTICA(, )

0,0133 0,0033 0,0033 0,0067 0,0100 0,0067 0,0033 0,0167 0,0100 0,0300 0,0267 0,0467 0,0733 0,0467 0,1033 0,1067 0,1000 0,0933 0,0433 0,0533 0,0500 0,0300 0,0300 0,0200 0,0233 0,0200 0,0067 0,0000 0,0033 0,0067 3,1

0,0084 0,0021 0,0021 0,0042 0,0063 0,0042 0,0021 0,0105 0,0063 0,0188 0,0167 0,0293 0,0460 0,0293 0,0649 0,0670 0,0628 0,0586 0,0272 0,0335 0,0314 0,0188 0,0188 0,0126 0,0146 0,0126 0,0042 0,0000 0,0021 0,0042 9,3

0,0133 0,0167 0,0200 0,0267 0,0367 0,0433 0,0467 0,0633 0,0733 0,1033 0,1300 0,1767 0,2500 0,2967 0,4000 0,5067 0,6067 0,7000 0,7433 0,7967 0,8467 0,8767 0,9067 0,9267 0,9500 0,9700 0,9767 0,9767 0,9800 0,9867 18,6

Posicin ( ) 37 0 Escala ( ) 64 Muestra 300

-24,00 24,00 1,54837 300 0,6277044 0,07841 A1:A300

Mnimo Media Mximo Varianza

Estadsticos Tericos Muestra -24,00 -29,31 0,00 0,17 24,00 34,70 118,44 75,43

-21,7

-15,5

-12,4

-6,2

-3,1

12,4

15,5

0,0

6,2

Algoritmo de generacin a+b*LN(ALEATORIO()/(1-ALEATORIO()))

-21,7

-18,6

-15,5

-12,4

-9,3

-6,2

-3,1

12,4

15,5

Proyecto e-Math Financiado por la Secretara de Estado de Educacin y Universidades (MECD)

18,6

0,0

3,1

6,2

9,3

18

Variables aleatorias continuas

BIBLIOGRAFA______________________________________________________
[1]. [2]. [3]. [4]. [5]. [6]. [7]. [8]. [9]. [10]. [11]. [12]. [13]. [14]. [15]. [16]. [17]. [18]. [19]. Bennet B.S "Simulation Fundamentals", Prentice Hall (1995) Bratley, P., Fox, B. y Schrage, L. "A Guide to Simulation", Springer. (1987) Fishman, G.S. "Monte Carlo: Concepts, Algorithms and Applications", Springer (3rd ed.) (1999). Gordon G. "System Simulation" Editorial Prentice-Hall (1978). Jambunathan, M. V. "Some Properties of Beta and Gamma Distributions." Ann. Math. Stat. 25, 401-405, 1954. Kleijnen, J. y Van Groenendaal, W. "Simulation: A Statistical Perspective", Wiley(1992). Kolarski, I. "On Groups of n Independent Random Variables whose Product Follows the Beta Distribution." Colloq. Math. IX Fasc. 2, 325-332, (1962). Krysicki, W. "On Some New Properties of the Beta Distribution." Stat. Prob. Let. 42, 131-137, (1999). Law A. M., W. D. Kelton "Simulation Modeling & Analysis" Ed. McGraw-Hill (1984). MacDougall M.H."Simulating Computer Systems Techniques and Tools" MIT Press (1987). Motwani y Ragharan "Randomized Algorithms", Cambridge U.P (1995). Neelamkavil, F. "Computer Simulation and Modelling", Wiley (1988). P. Bratley, B. L. Fox, L. E. Schrage "A Guide to Simulation" Springer-Verlag (1987). Raj Jain "The Art of Computer Systems Performance Analysis" Ed. Wiley (1991). Ros Insua et al. "Simulacin mtodos y aplicaciones" Ed. Ra-Ma, Madrid (1997) Ripley, B. "Stochastic Simulation", Wiley (1987). Ross, S. "A Course in Simulation", MacMillan (1990). Thompson, J.R. "Simulation: A modelers Approach". John Wiley, 2000. Ziegler, B. "Theory of Modelling and Simulation", Wiley (1976).

ENLACES___________________________________________________________
[W1] [W2] [W3] [W4] [W5] [W6] [W7] http://www.xycoon.com/continuousdistributions.htm Borghers, Reymen, y Wessa Resa Corporation. "Bradfords Law and related statistical patterns" Essays of an Information Scientist, Vol 4 pg. 476-482 1980. Measuring risk by Extreme Values.pdf OPERATIONAL RISK SPECIAL REPORT. 2000. Some EVT tools for estimation of large losses in Insurance.pdf Yuriy Krvavych, Kyiv National University of Taras, Ukraine Statistical reliability analysis on Rayleigh Probability Distributions.pdf Russell J. Hoppenstein 2000 Statistically Minimum-loss Design of Averages Control.pdf CHAO-YU CHOU*,Proc. Natl. Sci. Counc. ROC(A) Vol. 24, No. 6, 2000. pp. 472-479 The Extended Generalized Gamma Model.pdf Gebrenegus Ghilagaber, Stockholm University, Department of Statistics.

Proyecto e-Math Financiado por la Secretara de Estado de Educacin y Universidades (MECD)

19

Variables aleatorias continuas

VARIABLES ALEATORIAS CONTINUAS (II)


Autores: Rafael Garca Martn (rgarciamart@uoc.edu), Francisco J. Fauln Fajardo (ffaulin@uoc.edu).

INTRODUCCIN______________________________________________
En este math-block titulado "Variables aleatorias continuas" se describen algunas de las variables aleatorias, probablemente aquellas que ms aplicaciones tienen en el mbito del mtodo MonteCarlo y la Simulacin, y la forma en que pueden ser tanto analizadas (tabular y grficamente) como simuladas a travs de Excel. Para cada una de las v.a. presentadas se muestra: una breve descripcin de las aplicaciones que pueden encontrarse en la literatura, sus funciones de densidad y distribucin, sus estadsticos principales y sus propiedades tericas, fundamentalmente respecto a otras variables aleatorias con las que pudieran estar relacionadas. Para cada una de ellas se presenta al menos uno, en muchas ocasiones dos, mtodos de generacin de muestras aleatorias. El lector notar que se ha hecho un esfuerzo por evitar que los mecanismos de generacin se basen, contrario a lo que es habitual, en cdigo VBA. Varias son las razones que nos han movido a ello, en primer lugar soslayar la aparicin, inevitable, de las macros que contuvieran dicho cdigo y que, quermoslo o no, arrojan siempre una sombra de amenaza para la integridad de nuestros ordenadores; en segundo lugar para reivindicar la capacidad de Excel - de las funciones propias de la hoja - para realizar tareas de mediana complejidad a espaldas de un cdigo que, aunque sumamente inteligible, implica en cualquier caso un aparato no siempre bien asumido por el usuario final. Finalmente, la generacin de v.a. a travs de cdigo VBA, o de cualquier otro lenguaje de programacin, est lo suficientemente bien tratada en la literatura como para que el lector que prefiera la utilizacin de mtodos diferentes a los aqu expuestos no tenga ningn dificultad para encontrar informacin profusamente desarrollada.

OBJETIVOS

_________________

_____

Presentar al estudiante los conceptos bsicos de las variables aleatorias discretas y proporcionar una herramienta, basada en Excel, para su anlisis y simulacin.

RELACIN CON OTROS DOCUMENTOS

_________________

_____

Para mayor facilidad se ha optado por dividir el documento en dos partes (I y II) con idntica estructura. Este math-block es complementario del titulado Variables aleatorias discretas con el que, como es lgico, comparte muchas caractersticas. Las dos partes de este documento hacen mencin a una serie de hojas de clculo con las que se complementan: (Beta.xls ; Bradford.xls ; Cauchy.xls ; Chi2.xls ; Exponencial.xls ; FSnedecor.xls ; Gamma.xls ; Gumbel.xls ; Logistica.xls ; LogNorm.xls ; Normal.xls ; Rayleigh.xls ; Pareto.xls ; Triang.xls ; Uniforme.xls ; Weibull.xls).

Proyecto e-Math Financiado por la Secretara de Estado de Educacin y Universidades (MECD)

Variables aleatorias continuas

NDICE (Parte I)

_________________

__

LogNormal_________________________________________________________________ 3
Usos. ___________________________________________________________________________ 3 Notacin y parmetros. ____________________________________________________________ 3 Densidad y Distribucin. ____________________________________________________________ 3 Estadsticos. _____________________________________________________________________ 3 Propiedades. _____________________________________________________________________ 3 Generacin.______________________________________________________________________ 4 Hoja de clculo. __________________________________________________________________ 4 Usos. ___________________________________________________________________________ 4 Notacin y parmetros. ____________________________________________________________ 4 Densidad y Distribucin. ____________________________________________________________ 5 Estadsticos. _____________________________________________________________________ 5 Propiedades. _____________________________________________________________________ 5 Generacin.______________________________________________________________________ 5 Hoja de clculo. __________________________________________________________________ 5 Usos. ___________________________________________________________________________ 6 Notacin y parmetros. ____________________________________________________________ 6 Densidad y Distribucin. ____________________________________________________________ 6 Estadsticos. _____________________________________________________________________ 6 Propiedades. _____________________________________________________________________ 6 Generacin.______________________________________________________________________ 6 Hoja de clculo. __________________________________________________________________ 6 Usos. ___________________________________________________________________________ 7 Notacin y parmetros. ____________________________________________________________ 7 Densidad y Distribucin. ____________________________________________________________ 7 Estadsticos. _____________________________________________________________________ 8 Propiedades. _____________________________________________________________________ 8 Generacin.______________________________________________________________________ 8 Hoja de clculo. __________________________________________________________________ 8 Usos. ___________________________________________________________________________ 9 Notacin y parmetros. ____________________________________________________________ 9 Densidad y Distribucin. ____________________________________________________________ 9 Estadsticos. _____________________________________________________________________ 9 Propiedades. _____________________________________________________________________ 9 Generacin._____________________________________________________________________ 10 Hoja de clculo. _________________________________________________________________ 10 Usos. __________________________________________________________________________ 10 Notacin y parmetros. ___________________________________________________________ 11 Densidad y Distribucin. ___________________________________________________________ 11 Estadsticos. ____________________________________________________________________ 11 Propiedades. ____________________________________________________________________ 11 Generacin._____________________________________________________________________ 11 Hoja de clculo. _________________________________________________________________ 11 Usos. __________________________________________________________________________ 12 Notacin y parmetros. ___________________________________________________________ 12 Densidad y Distribucin. ___________________________________________________________ 12 Estadsticos. ____________________________________________________________________ 13 Generacin._____________________________________________________________________ 13 Hoja de clculo. _________________________________________________________________ 13 Usos. __________________________________________________________________________ 14 Notacin y parmetros. ___________________________________________________________ 14 Densidad y Distribucin. ___________________________________________________________ 14 Estadsticos. ____________________________________________________________________ 14 Propiedades. ____________________________________________________________________ 14 Generacin._____________________________________________________________________ 15 Hoja de clculo. _________________________________________________________________ 15

Normal____________________________________________________________________ 4

Rayleigh___________________________________________________________________ 7

Pareto ____________________________________________________________________ 9

Triangular ________________________________________________________________ 10

Uniforme _________________________________________________________________ 12

Weibull __________________________________________________________________ 14

Anexo 1 Hoja Patrn para las variables aleatorias continuas. _______________________ 16


Parmetros y Auxiliares. ___________________________________________________________ 16 Comparacin de los estadisticos. ____________________________________________________ 17 Algoritmo de generacin de la v.a.___________________________________________________ 17 Tablas de grficos________________________________________________________________ 18 Grficos ________________________________________________________________________ 18

BIBLIOGRAFA______________________________________________________ ______ 21 ENLACES___________________________________________________________ _____ 21

Proyecto e-Math Financiado por la Secretara de Estado de Educacin y Universidades (MECD)

Variables aleatorias continuas

LogNormal
Usos. De la misma manera que la suma de un nmero (suficiente) de variables aleatorias positivas se distribuye de forma normal, el producto de un nmero (suficiente) de variables aleatorias positivas se distribuye de forma log-normal. As, numerosas magnitudes en las que en vez de la adicin est presente el producto, se modelizan a travs de esta distribucin; por ejemplo la evolucin de los precios Pt de un determinado producto puede modelizarse de la forma siguiente:
2 t + t 2 e

Pt = P0

siendo P0 el precio inicial, el crecimiento medio del mercado, la desviacin tpica del crecimiento del mercado y un trmino de error que absorbe la incertidumbre de los precios en todo momento. En estas circunstancias Pt se distribuye de forma logaritmo-normal. Puesto que la distribucin es siempre positiva, se emplea tambin para modelizar tiempos: tiempo hasta el fallo de un dispositivo; tiempo para llevar a cabo una tarea. Notacin y parmetros. La notacin habitual es XLN(,2); es el parmetro de escala y el de forma (>0). Densidad y Distribucin. La funcin de densidad es:
(Ln(X) )2 22

f(x) =

1 X 2 2

la funcin de distribucin no tiene forma cerrada. Estadsticos. La media y la varianza son, respectivamente:
+ 2 2 e

2 2 e2 + e 1

el sesgo, la curtosis y el coeficiente de variacin son (respectivamente):


2 2 e + 2 e 1

e 4 + 2e3 + 3e2 3

e 1

Propiedades. Tambin conocida como distribucin Cobb-Douglas. Siempre es sesgada hacia la derecha y nunca toma valores negativos. De su definicin se deduce que si Log(X)N(,) entonces XLN(,2).

Proyecto e-Math Financiado por la Secretara de Estado de Educacin y Universidades (MECD)

Variables aleatorias continuas


Generacin. Puesto que Excel cuenta con la funcin de distribucin inversa entre sus funciones estadsticas, la generacin es extraordinariamente sencilla, basta emplear la frmula siguiente: DISTR.LOG.INV(ALEATORIO();;) Hoja de clculo. El fichero LogNorm.xls contiene una hoja que posibilita la descripcin grfica y la generacin de v.a. log-normales. Su aspecto es el siguiente:
0,09 X 0,4 0,08 0,6 0,8 0,07 1,0 0,06 1,2 1,5 0,05 1,7 1,9 0,04 2,1 0,03 2,3 2,5 0,02 2,7 2,9 0,01 3,2 0,00 3,4 3,6 3,8 4,0 1,0 4,2 4,4 0,9 4,6 0,8 4,9 5,1 0,7 5,3 0,6 5,5 0,5 5,7 5,9 0,4 6,1 0,3 6,4 0,2 6,6 0,1 0,0 0,2 0,8 1,5 2,1 2,7 Den 0,061831 0,072800 0,076437 0,072912 0,066844 0,060190 0,053761 0,047868 0,042597 0,037942 0,033853 0,030270 0,027131 0,024378 0,021959 0,019829 0,017950 0,016286 0,014810 0,013498 0,012327 0,011281 0,010343 0,009501 0,008743 0,008059 0,007440 0,006880 0,006371 0,005909 0,8 Dis 0,061831 0,134632 0,211069 0,283981 0,350824 0,411014 0,464775 0,512643 0,555240 0,593182 0,627035 0,657305 0,684436 0,708814 0,730773 0,750602 0,768552 0,784838 0,799648 0,813146 0,825473 0,836754 0,847098 0,856599 0,865341 0,873400 0,880840 0,887720 0,894091 0,900000 2,1 n 26 14 27 24 19 25 19 11 16 11 10 10 10 4 6 4 8 7 3 3 2 1 3 6 3 6 2 2 2 2 34 f_s 0,0813 0,0438 0,0844 0,0750 0,0594 0,0781 0,0594 0,0344 0,0500 0,0344 0,0313 0,0313 0,0313 0,0125 0,0188 0,0125 0,0250 0,0219 0,0094 0,0094 0,0063 0,0031 0,0094 0,0188 0,0094 0,0188 0,0063 0,0063 0,0063 0,0063 4,0 f1_s 0,08182 0,04406 0,08497 0,07552 0,05979 0,07867 0,05979 0,03462 0,05035 0,03462 0,03147 0,03147 0,03147 0,01259 0,01888 0,01259 0,02517 0,02203 0,00944 0,00944 0,00629 0,00315 0,00944 0,01888 0,00944 0,01888 0,00629 0,00629 0,00629 0,00629 5,3 LOGNORMAL(; 2 ) f2_s 0,0813 Media ( ) 6 0,18 0,1250 0,6 6,56 0,2094 0,2129 0,2844 Des.Est. ( ) 320 0,3438 1 10 1,00699 0,4219 0,07592 0,4813 Muestra A1:A320 0,5156 320 0,5656 0,6000 Estadsticos 0,6313 Tericos Muestra 0,6625 Mnimo 0,18 0,11 0,6938 Media 1,82 3,21 0,7063 Mximo 0,21 47,32 20,65 0,7250 Varianza () 7,39 0,7375 0,7625 Algoritmo de generacin 0,7844 DISTR.LOG.INV(ALEATORIO(); ;) 0,7938 0,8031 0,8094 0,8125 0,8219 0,8406 0,8500 0,8688 0,8750 0,8813 0,8875 0,8938 5,9

0,2

1,5

2,7

3,4

3,4

4,0

4,6

4,6

5,3

Normal
Usos. En virtud del Teorema Central de Lmite cualquier magnitud que sea suma 1 de otras magnitudes, seas stas como sean, se distribuir de forma normal. Notacin y parmetros. La notacin habitual es XN(,), siendo el parmetro de posicin y el parmetro de escala (>0).
1

Es importante resaltar que el trmino suma debe entenderse de la forma ms general posible, para dar una mejor idea de como debiera ser su interpretacin quizs cabra decir ..cualquier magnitud consecuencia de la influencia conjunta y simultnea de un numero suficiente de otros factores posiblemente de muy diversa naturaleza..

Proyecto e-Math Financiado por la Secretara de Estado de Educacin y Universidades (MECD)

5,9

Variables aleatorias continuas


Densidad y Distribucin. La funcin de densidad es: 1 2
2 X e 2

f(x) =

Estadsticos. La media es , la varianza 2, el sesgo 0, la curtosis 3 y el coeficiente de variacin /. Propiedades. La distribucin es simtrica, centrada en y con puntos de inflexin en ; la suma de n variables N(,2) es N(n,n2); un gran nmero de distribuciones estn relacionadas con la Normal: t, F, 2, LogNormal, Cauchy. Generacin. Excel cuenta con la funcin inversa de la distribucin: DISTR.NORM.INV(ALEATORIO();;) Tambin en la literatura aparecen descritos diversos mtodos para generar Normales, uno de los ms efectivos es el conocido como Box-Muller que utiliza la frmula siguiente: +(*RAIZ(-2*LN(ALEATORIO()))*COS(2*PI()*ALEATORIO())) Hoja de clculo.
El fichero Normal.xls contiene una hoja que posibilita la descripcin grfica y la generacin, por los dos mtodos expuestos, de v.a. Normales. # #0,10 X # 3,59 0,09 # 3,77 #0,08 3,96 # 4,15 #0,07 4,33 #0,06 4,52 # 4,71 #0,05 4,89 # 5,08 #0,04 5,27 #0,03 5,45 # 5,64 #0,02 5,83 #0,01 6,01 # 6,20 #0,00 6,39 # 6,57 # 6,76 # 6,95 #1,0 7,13 #0,9 7,32 #0,8 7,51 # 7,69 0,7 # 7,88 #0,6 8,07 #0,5 8,25 #0,4 8,44 # 8,63 #0,3 8,81 #0,2 9,00 #0,1 # #0,0 # # Den 0,000544 0,000665 0,001346 0,002579 0,004681 0,008049 0,013110 0,020225 0,029557 0,040916 0,053651 0,066640 0,078406 0,087382 0,092249 0,092249 0,087382 0,078406 0,066640 0,053651 0,040916 0,029557 0,020225 0,013110 0,008049 0,004681 0,002579 0,001346 0,000665 0,000311 4,0 4,3 Dis 0,000544 0,001209 0,002555 0,005134 0,009815 0,017864 0,030974 0,051199 0,080757 0,121673 0,175324 0,241964 0,320369 0,407751 0,500000 0,592249 0,679631 0,758036 0,824676 0,878327 0,919243 0,948801 0,969026 0,982136 0,990185 0,994866 0,997445 0,998791 0,999456 0,999767 5,1 5,5 n 1 0 0 1 4 1 6 6 14 22 25 43 35 41 38 33 43 42 31 16 15 19 10 7 3 1 2 0 1 0 0 f_s 0,0022 0,0000 0,0000 0,0022 0,0087 0,0022 0,0130 0,0130 0,0304 0,0478 0,0543 0,0935 0,0761 0,0891 0,0826 0,0717 0,0935 0,0913 0,0674 0,0348 0,0326 0,0413 0,0217 0,0152 0,0065 0,0022 0,0043 0,0000 0,0022 0,0000 6,6 f1_s 0,00217 0,00000 0,00000 0,00217 0,00869 0,00217 0,01304 0,01304 0,03043 0,04781 0,05434 0,09346 0,07607 0,08911 0,08259 0,07172 0,09346 0,09128 0,06738 0,03477 0,03260 0,04129 0,02173 0,01521 0,00652 0,00217 0,00435 0,00000 0,00217 0,00000 7,3 f2_s 0,0022 0,0022 0,0022 0,0043 0,0130 0,0152 0,0283 0,0413 0,0717 0,1196 0,1739 0,2674 0,3435 0,4326 0,5152 0,5870 0,6804 0,7717 0,8391 0,8739 0,9065 0,9478 0,9696 0,9848 0,9913 0,9935 0,9978 0,9978 1,0000 1,0000 8,4 NORMAL(, ) Media () 62 6,2 Des.Tip. () 0,8 8 Muestra 460 3,40 9,00 0,1867 460
1,000

0,08 B1:B460

Mnimo Media Mximo Varianza

Estadsticos Tericos Muestra 3,40 3,24 6,20 6,19 9,00 8,75 0,640 0,635 Algoritmos de generacin

3,6

4,7

5,8

6,2

6,9

7,7

8,1

8,8

m+(s*RAIZ(-2*LN(U))*COS(2*PI()*U)) DISTR.NORM.INV(ALEATORIO(); ; ) +(*RAIZ(-2*LN(U))*COS(2*PI()*U))

3,6

4,0

4,3

4,7

5,1

5,5

5,8

6,2

6,6

6,9

7,3

7,7

8,1

8,4

Proyecto e-Math Financiado por la Secretara de Estado de Educacin y Universidades (MECD)

8,8

Variables aleatorias continuas

t de Student
Usos. Esta distribucin tiene un papel fundamental en determinados contrastes de hiptesis (pruebas sobre igualdad de medias), fuera de esta aplicacin podra usarse para modelizar la desviacin de la media de una muestra respecto de la media de la poblacin de la que sta procede. Notacin y parmetros. La notacin habitual es Xt(GL) siendo GL el nico parmetro de forma (GL>0). Densidad y Distribucin. La funcin de densidad es: GL + 1 GL +1 2 1 2 2 X GL 2 1 + f(x) = GL 1 GL 2 2 Estadsticos. La media (para GL>1) y la varianza (para GL>2) son, respectivamente: 0 Propiedades. Para GL>30 la distribucin es prcticamente una Normal; se verifica que t(1) Cauchy(0,1) Generacin. Excel cuenta con la funcin inversa de la distribucin si bien slo para valores positivos de X de manera que es necesaria una pequea modificacin: =DISTR.T.INV(ALEATORIO();GL)*SIGNO(ALEATORIO()-0,5) tambin en la literatura aparecen descritos diversos mtodos para generar v.a. distribuidas segn una t de Student. Uno de los ms efectivos es el que utiliza la frmula siguiente: =RAIZ(GL*(ALEATORIO()^(-2/GL)-1))*COS(2*PI()*ALEATORIO()) Hoja de clculo. El fichero Student.xls contiene una hoja que posibilita la descripcin grfica y la generacin, por los dos mtodos expuestos, de v.a. de Pareto. Su aspecto es el siguiente: ;

(GL 2)

Gl

Proyecto e-Math Financiado por la Secretara de Estado de Educacin y Universidades (MECD)

Variables aleatorias continuas


-0,54 0,10 0,61 -1,42 0,09 0,38 1,01 0,08 -0,01 0,07 -0,66 0,27 0,06 -0,98 0,05 -0,04 -0,09 0,04 0,9 -2,05 0,03 -1,25 0,02 -0,24 -0,54 0,01 0,03 0,00 -1,53 -0,01 1,07 0,78 1,0 -0,5 0,9 -0,27 0,32 0,8 -1,58 0,7 1,44 0,6 -2,18 -0,01 0,5 -0,36 0,4 -0,1 0,3 -0,36 0,2 -0,7 0,44 0,1 1,11 0,0 -0,23 -0,22 -0,35 X -2,8 -2,6 -2,4 -2,2 -2,0 -1,8 -1,6 -1,4 -1,2 -1,0 -0,8 -0,6 -0,4 -0,2 0,0 0,2 0,4 0,6 0,8 1,0 1,2 1,4 1,6 1,8 2,0 2,2 2,4 2,6 2,8 2,9 -2,9 Den 0,003576 0,004383 0,006314 0,008967 0,012525 0,017155 0,022974 0,029996 0,038070 0,046836 0,055711 0,063925 0,070624 0,075019 0,076552 0,075019 0,070624 0,063925 0,055711 0,046836 0,038070 0,029996 0,022974 0,017155 0,012525 0,008967 0,006314 0,004383 0,003008 0,005000 -2,4 -1,8 Dis 0,007439 0,011015 0,016205 0,023642 0,034139 0,048692 0,068449 0,094640 0,128441 0,170780 0,222112 0,282201 0,349961 0,423448 0,500000 0,576552 0,650039 0,717799 0,777888 0,829220 0,871559 0,905360 0,931551 0,951308 0,965861 0,976358 0,983795 0,988985 0,992561 0,995000 -1,2 n 1 0 2 3 4 1 11 14 10 9 14 11 26 22 28 18 22 27 20 10 7 7 7 4 7 3 5 1 3 0 3 t de Student(GL) 0,0033 0,0000 0,0067 0,0100 0,0133 0,0033 0,0367 0,0467 0,0333 0,0300 0,0467 0,0367 0,0867 0,0733 0,0933 0,0600 0,0733 0,0900 0,0667 0,0333 0,0233 0,0233 0,0233 0,0133 0,0233 0,0100 0,0167 0,0033 0,0100 0,0000 0,6 0,0033 0,0000 0,0067 0,0100 0,0134 0,0033 0,0368 0,0468 0,0334 0,0301 0,0468 0,0368 0,0869 0,0736 0,0936 0,0602 0,0736 0,0903 0,0669 0,0334 0,0234 0,0234 0,0234 0,0134 0,0234 0,0100 0,0167 0,0033 0,0100 0,0000 1,8 0,0033 GL 41 -2,95 0,0033 15 2,95 0,0100 0,19644843 0,0200 300 0,0333 1,00316117 0,0367 0,07840994 0,0733 Muestra B1:B300 0,1200 300 2 0,1533 0,1833 Estadsticos 0,2300 Tericos Muestra 0,2667 Mnimo -2,95 -2,85 0,3533 Media 0,00 0,00 0,4267 Mximo 2,95 3,84 0,5200 Varianza 1,15 1,22 0,5800 Algoritmo de generacin 0,6533 0,7433 RAIZ(GL*(U^(-2/GL)-1))*COS(2*PI()*U) 0,8100 DISTR.T.INV(U;GL)*SIGNO(U-0,5) 0,8433 RAIZ(GL*(U^(-2/GL)-1))*COS(2*PI()*U) 0,8667 siendo U=ALEATORIO() 0,8900 0,9133 0,9267 0,9500 0,9600 0,9767 0,9800 0,9900 0,9900 2,4

-0,6

0,0

-2,8

-2,2

-1,6

-1,0

-0,4

0,2

0,8

1,4

1,2

2,0

Rayleigh
Usos. La distribucin de Rayleigh aparece asociada a la fiabilidad de sistemas a travs de la modelizacin del tiempo hasta el fallo de un dispositivo. Notacin y parmetros. La notacin habitual es XRayleigh(), siendo parmetro de escala (>0). Densidad y Distribucin. La funcin de densidad es:
2 X 1 2 e

f(x) = ,la funcin de distribucin es:

X 2

f(x) = 1

2 X 1 2 e

Proyecto e-Math Financiado por la Secretara de Estado de Educacin y Universidades (MECD)

2,6

Variables aleatorias continuas


Estadsticos. La media y la varianza son, respectivamente: 2 ; 2 2 2

el sesgo es 0,6311; la curtosis 3,245 y el coeficiente de variacin 0,523 son (respectivamente): 0,6311 Propiedades. Es un caso particular de la Weibull ya que se verifica que Weibull(,2) Rayleigh(). El parmetro es siempre el valor modal de la distribucin. La distribucin siempre es sesgada hacia la derecha y nunca toma valores negativos. Generacin. En Excel es posible obtener v.a. a travs de cualquiera las frmulas siguientes: Hoja de clculo. El fichero Rayleigh.xls contiene una hoja que posibilita la descripcin grfica y la generacin de v.a. tipo Rayleigh. Su aspecto es el siguiente:
## ## 0,18 X ## 1,1 0,16 ## 1,9 ## 2,6 0,14 ## 3,3 ## 4,1 0,12 ## 4,8 0,10 ## 5,5 ## 6,3 0,08 ## 7,0 ## 7,7 0,06 ## 8,5 0,04 ## 9,2 ## 9,9 0,02 ## 10,7 ## 11,4 0,00 ## 12,2 ## 12,9 ## 1,0 13,6 ## 14,4 0,9 15,1 ## ## 0,8 15,8 ## 16,6 0,7 17,3 ## 0,6 18,0 ## ## 0,5 18,8 ## 19,5 0,4 20,2 ## ## 0,3 21,0 ## 0,2 21,7 ## 22,5 0,1 ## ## 0,0 ## ## ## 1,1 Den 0,051334 0,080862 0,104568 0,121150 0,130107 0,131717 0,126913 0,117080 0,103824 0,088748 0,073273 0,058521 0,045265 0,033939 0,024686 0,017428 0,011949 0,007959 0,005152 0,003242 0,001984 0,001181 0,000683 0,000385 0,000211 0,000113 0,000058 0,000030 0,000015 0,000007 2,6 4,1 Dis 0,029095 0,078038 0,146671 0,230183 0,323099 0,419863 0,515378 0,605413 0,686852 0,757772 0,817373 0,865793 0,903872 0,932889 0,954333 0,969711 0,980419 0,987662 0,992423 0,995464 0,997353 0,998495 0,999166 0,999549 0,999763 0,999878 0,999939 0,999970 0,999986 0,999993 7,0 8,5 n 3 10 17 34 29 24 29 18 29 16 14 16 10 14 5 6 2 5 9 2 1 0 2 1 0 3 0 0 0 0 1 f_s 0,0100 0,0334 0,0569 0,1137 0,0970 0,0803 0,0970 0,0602 0,0970 0,0535 0,0468 0,0535 0,0334 0,0468 0,0167 0,0201 0,0067 0,0167 0,0301 0,0067 0,0033 0,0000 0,0067 0,0033 0,0000 0,0100 0,0000 0,0000 0,0000 0,0000 14,4 f1_s 0,01347 0,04490 0,07632 0,15265 0,13020 0,10775 0,13020 0,08081 0,13020 0,07183 0,06285 0,07183 0,04490 0,06285 0,02245 0,02694 0,00898 0,02245 0,04041 0,00898 0,00449 0,00000 0,00898 0,00449 0,00000 0,01347 0,00000 0,00000 0,00000 0,00000 17,3 18,8 RAYLEIGH( ) f2_s 0,04348 Beta ( ) 65 0,38104 0,10033 6,5 22,45748 0,21405 0,73588 0,31104 299 0,39130 1,34238 0,48829 0,07854 0,54849 Muestra B1:B300 0,64548 300 2 0,69900 0,74582 Estadsticos 0,79933 Tericos Muestra 0,83278 Mnimo 0,38 0,40 0,87960 Media 8,15 6,13 0,89632 Mximo 22,46 23,12 0,91639 Varianza 18,1 14,4 0,92308 0,93980 Algoritmo de generacin 0,96990 0,97659 PRUEBA.CHI.INV(ALEATORIO();b) 0,97993 Beta*(-LN(1-ALEATORIO()))^0,5 0,97993 PRUEBA.CHI.INV(ALEATORIO(); ) 0,98662 0,98997 0,98997 1,00000 1,00000 1,00000 1,00000 1,00000 1,00334 21,7

3,245

0,523

PRUEBA.CHI.INV(ALEATORIO();) *(-LN(1-ALEATORIO()))^0,5

11,4

12,9

15,8

11,4

12,9

14,4

15,8

17,3

18,8

20,2

20,2

1,1

5,5

9,9

Proyecto e-Math Financiado por la Secretara de Estado de Educacin y Universidades (MECD)

21,7

2,6

4,1

5,5

7,0

8,5

9,9

Variables aleatorias continuas

Pareto
Usos. La distribucin de Pareto aparece asociada a multitud de magnitudes naturales. Es profusamente empleada para modelizar aspectos tales como: la distribucin de la renta de los individuos (cuando sta supera un cierto umbral ); las reclamaciones de seguros; la distribucin de recursos naturales en zonas geogrficas; el tamao de las ciudades; el numero de empleados de las empresas; las fluctuaciones de los precios en los mercados de valores, entre otras. En algunos textos la encontramos exclusivamente asociada a la distribucin de los ingresos de los individuos: "la probabilidad de que la renta de un individuo supere una cierta cantidad A es una variable aleatoria de Pareto(=A,)". En general, es una distribucin a tener en cuenta para modelizar una magnitud (positiva) cuando en sta se cumpla que un pequeo porcentaje de valores aparece un gran nmero de veces y es posible un elevado nmero de valores extremos aunque muy poco probables. Notacin y parmetros. La notacin habitual es XPar(,), ambos parmetros son de escala (,>0), adems indica el valor mnimo posible de la variable (X<). Densidad y Distribucin. La funcin de densidad es: f(x) = ,la funcin de distribucin es: F(x) = 1 X Estadsticos. La media (para >1) y la varianza (para >2) son, respectivamente: 1 ; 2

X +1

( 1)2 ( 2)

el sesgo y la curtosis son (respectivamente): 2( + 1) ( 3) 2 ; 3(3 2 + + 2)( 2) ( 3)( 4 )

Propiedades. La distribucin siempre es sesgada hacia la derecha y nunca toma valores negativos, ntese que los momentos de orden k slo existen si >k.

Proyecto e-Math Financiado por la Secretara de Estado de Educacin y Universidades (MECD)

Variables aleatorias continuas


Generacin. En la literatura aparecen descritos diversos mtodos para generar v.a. de Pareto. En Excel es posible obtener v.a. a travs de cualquiera de las frmulas siguientes: Hoja de clculo. El fichero Pareto.xls contiene una hoja que posibilita la descripcin grfica y la generacin, por los dos mtodos expuestos, de v.a. de Pareto. Su aspecto es el siguiente: *((1/(1-ALEATORIO()))^(1/)) *(ALEATORIO()^(-1/))

7 0,25 8 X # 6,8 # 7,3 0,20 8 7,8 7 8,4 7 8,9 0,15 8 9,4 8 10,0 0,10 7 10,5 7 11,1 7 11,6 0,05 7 12,1 7 12,7 7 13,2 0,00 8 13,7 7 14,3 9 14,8 8 15,3 #1,0 15,9 7 16,4 0,9 7 16,9 0,8 7 17,5 #0,7 18,0 7 18,5 0,6 7 19,1 #0,5 19,6 8 20,2 0,4 # 20,7 #0,3 21,2 8 21,8 0,2 8 22,3 0,1 9 #0,0 9 # 7

Den 0,138745 0,211486 0,149677 0,108478 0,080262 0,060475 0,046306 0,035970 0,028304 0,022533 0,018129 0,014726 0,012069 0,009971 0,008299 0,006956 0,005867 0,004979 0,004248 0,003644 0,003140 0,002719 0,002364 0,002064 0,001809 0,001591 0,001404 0,001243 0,001104 0,000984 7,8 8,9 7,8 8,9

Dis 0,138745 0,350231 0,499908 0,608386 0,688649 0,749124 0,795430 0,831400 0,859704 0,882237 0,900365 0,915092 0,927160 0,937131 0,945431 0,952387 0,958254 0,963233 0,967481 0,971125 0,974265 0,976984 0,979348 0,981413 0,983222 0,984813 0,986217 0,987460 0,988565 0,989548 11,1 12,1 11,1 12,1

n 34 63 43 36 24 12 15 13 9 5 9 6 4 6 3 1 0 1 0 0 3 2 1 2 0 0 1 1 0 0 6

PARETO( , ) 0,1156 0,2143 0,1463 0,1224 0,0816 0,0408 0,0510 0,0442 0,0306 0,0170 0,0306 0,0204 0,0136 0,0204 0,0102 0,0034 0,0000 0,0034 0,0000 0,0000 0,0102 0,0068 0,0034 0,0068 0,0000 0,0000 0,0034 0,0034 0,0000 0,0000 15,3 15,3 0,11444 0,21205 0,14473 0,12117 0,08078 0,04039 0,05049 0,04376 0,03029 0,01683 0,03029 0,02019 0,01346 0,02019 0,01010 0,00337 0,00000 0,00337 0,00000 0,00000 0,01010 0,00673 0,00337 0,00673 0,00000 0,00000 0,00337 0,00337 0,00000 0,00000 18,5 17,5 18,5 0,115646 0,329932 0,476190 0,598639 0,680272 0,721088 0,772109 0,816327 0,846939 0,863946 0,894558 0,914966 0,928571 0,948980 0,959184 0,962585 0,962585 0,965986 0,965986 0,965986 0,976190 0,982993 0,986395 0,993197 0,993197 0,993197 0,996599 1,000000 1,000000 1,000000 20,7 21,8 20,7 21,8 Alfa () 37 3,7 Beta () 6,5 65 6,5 22,6 0,5355 294 0,9895484 0,0885491 A1:A300 1

Muestra 300 Estadsticos Tericos Muestra 6,50 6,53 8,91 9,22 22,57 34,25 12,61 13,86 Algoritmo de generacin
Beta*((1/(1-ALEATORIO()))^(1/Alfa)) Beta*((1/(1-ALEATORIO()))^(1/Alfa)) Beta*(ALEATORIO()^(-1/Alfa))

10,0

13,2

14,3

16,4

17,5

19,6

6,8

Mnimo Media Mximo Varianza

10,0

13,2

14,3

16,4

Triangular
Usos. Su uso es como aproximacin a la modelizacin de una magnitud aleatoria de la que no se cuenta con datos y nicamente puede aventurarse un mnimo y mximo absolutos y un valor modal.

Proyecto e-Math Financiado por la Secretara de Estado de Educacin y Universidades (MECD)

19,6

6,8

10

Variables aleatorias continuas


Notacin y parmetros. La notacin habitual es XTri(a,b,c), el parmetro a es de posicin mientras que b es de forma y c es parmetro de escala: (a b c) y (a X c). Densidad y Distribucin. La funcin de densidad es: 2 (X a) (b a)(c a) f(x) = (b X) (b a)(b c) ,la funcin de distribucin es: (X a)2 aXc (b a)(c a) F(x) = (b X) 1 (b a)(b c) c < X b Estadsticos. La media y varianza son (respectivamente): a+b +c 3 Propiedades. Si a=c la distribucin se convierte en una Triangular izquierda; si c=b la distribucin se convierte en una triangular derecha. Generacin. Excel no cuenta con una funcin para la inversa de la funcin de distribucin, sin embargo, la generacin de variables aleatorias puede hacerse utilizando cualquiera de las dos frmulas siguientes: Hoja de clculo. El fichero Triang.xls es una plantilla para la generacin y anlisis de la distribucin Triangular en Excel. Su aspecto es el siguiente: c + (a+ALEATORIO()*(b-a)-c)*MAX(ALEATORIO();ALEATORIO()) c + (a+ALEATORIO()*(b-a)-c)*RAIZ(ALEATORIO()) ; a2 + b 2 + c2 ab ac bc 18 aXc c<Xb

Proyecto e-Math Financiado por la Secretara de Estado de Educacin y Universidades (MECD)

11

Variables aleatorias continuas


# 0,07 # X # 1,1 0,06 # 2,2 # 3,3 0,05 # 4,4 # 5,5 0,04 # 6,6 # 7,7 # 8,8 0,03 # 9,9 # 11,0 0,02 # 12,1 # 13,2 0,01 # 14,3 # 15,4 # 16,5 0,00 # 17,6 # 18,7 # 19,8 1,00 # 20,9 0,90 # 22,0 # 23,1 0,80 # 24,2 0,70 # 25,3 # 26,4 0,60 # 27,5 0,50 # 28,6 0,40 # 29,7 # 30,8 0,30 # 31,9 0,20 # 33,0 0,10 # # 0,00 # # Den 0,016667 0,033333 0,050000 0,059770 0,057471 0,055172 0,052874 0,050575 0,048276 0,045977 0,043678 0,041379 0,039080 0,036782 0,034483 0,032184 0,029885 0,027586 0,025287 0,022989 0,020690 0,018391 0,016092 0,013793 0,011494 0,009195 0,006897 0,004598 0,002299 0,000000 4 4 Dis 0,009167 0,036667 0,082500 0,145287 0,209770 0,271724 0,331149 0,388046 0,442414 0,494253 0,543563 0,590345 0,634598 0,676322 0,715517 0,752184 0,786322 0,817931 0,847011 0,873563 0,897586 0,919080 0,938046 0,954483 0,968391 0,979770 0,988621 0,994943 0,998736 1,000000 11 11 n 1 10 17 22 17 14 14 20 15 13 12 13 12 14 12 16 10 15 7 13 6 5 6 2 4 3 4 2 1 0 0 f_s 0,0033 0,0333 0,0567 0,0733 0,0567 0,0467 0,0467 0,0667 0,0500 0,0433 0,0400 0,0433 0,0400 0,0467 0,0400 0,0533 0,0333 0,0500 0,0233 0,0433 0,0200 0,0167 0,0200 0,0067 0,0133 0,0100 0,0133 0,0067 0,0033 0,0000 21 21 f1_s 0,0030 0,0302 0,0514 0,0665 0,0514 0,0423 0,0423 0,0605 0,0453 0,0393 0,0363 0,0393 0,0363 0,0423 0,0363 0,0484 0,0302 0,0453 0,0212 0,0393 0,0181 0,0151 0,0181 0,0060 0,0121 0,0091 0,0121 0,0060 0,0030 0,0000 28 28 f2_s ### ### ### ### ### ### ### ### ### ### ### ### ### ### ### ### ### ### ### ### ### ### ### ### ### ### ### ### ### ### TRIANGULAR(a,b,c) Mnimo (a) 30 0 Central (b) 4 Mximo (c) 33 33 Muestra 300 0 4 4 33 1,1000 300 0,9069 0,0784 A1:A300

Estadsticos Tericos Muestra Mnimo 0,00 1,04 Media 12,33 12,47 Mximo 33,00 31,53 Varianza () 54,06 54,16
Algoritmos de generacin (U=ALEATORIO()) c+(a+U(b-a)-c)*MAX(U;U)

14

18

24

31

c+(a+U(b-a)-c)*MAX(U;U) c+(a+U(b-a)-c)*RAIZ(U)

14

18

24

Uniforme
Usos. Su uso es como aproximacin a la modelizacin de una magnitud aleatoria de la que no se cuenta con datos y nicamente puede aventurarse un mnimo y mximo absolutos no pudindose hacer conjeturas sobre su distribucin dentro de ese intervalo. Por otra parte es la base de la generacin del resto de variables aleatorias. Notacin y parmetros. La notacin habitual es XU(a,b), el parmetro a es de posicin, mientras que la cantidad ba (b>a) determina la escala de la distribucin. Densidad y Distribucin. La funcin de densidad es: f(x) = ,la funcin de distribucin es: F(x) = Xa ba 1 ba

Proyecto e-Math Financiado por la Secretara de Estado de Educacin y Universidades (MECD)

31

b-a c-a b-c

Auxiliares

33 4 29

12

Variables aleatorias continuas


Estadsticos. La media y varianza son (respectivamente): a+b 2 9 5 ; (b a)2 12 1 ba 3 a+b

el sesgo, la curtosis y el coeficiente de variacin son (respectivamente): 0 Generacin. Excel cuenta con una funcin para la generacin de variables aleatorias uniformes, la v.a. U(0,1) se obtiene a travs de la funcin ALEATORIO(), mientras que a partir de sta puede obtenerse la de la U(a,b) sin ms que usar la frmula a + (b-a)*ALEATORIO(). Hoja de clculo. El fichero Uniforme.xls es una plantilla para la generacin y anlisis de esta distribucin en Excel. Su aspecto es el siguiente:
0,06 X Den 1,3 0,033333 0,033333 1,6 0,05 1,9 0,033333 2,2 0,033333 0,04 0,033333 2,5 2,8 0,033333 0,033333 3,1 0,03 3,4 0,033333 3,7 0,033333 0,02 0,033333 4,0 4,3 0,033333 0,033333 4,6 0,01 4,9 0,033333 5,2 0,033333 0,00 0,033333 5,5 5,8 0,033333 6,1 0,033333 6,4 0,033333 1,0 0,033333 6,7 7,0 0,9 0,033333 7,3 0,8 0,033333 7,6 0,033333 0,7 0,033333 7,9 8,2 0,6 0,033333 8,5 0,5 0,033333 8,8 0,033333 0,4 0,033333 9,1 0,3 0,033333 9,4 9,7 0,2 0,033333 10,0 0,033333 0,1 0,0 1,3 1,3 2,2 Dis 0,033333 0,066667 0,100000 0,133333 0,166667 0,200000 0,233333 0,266667 0,300000 0,333333 0,366667 0,400000 0,433333 0,466667 0,500000 0,533333 0,566667 0,600000 0,633333 0,666667 0,700000 0,733333 0,766667 0,800000 0,833333 0,866667 0,900000 0,933333 0,966667 1,000000 3,1 3,1 4,0 n 9 11 5 11 7 10 15 11 7 13 8 8 13 8 10 7 10 12 15 8 7 9 9 10 13 11 12 10 10 11 0 UNIFORME(a,b) 0,0300 0,0367 0,0167 0,0367 0,0233 0,0333 0,0500 0,0367 0,0233 0,0433 0,0267 0,0267 0,0433 0,0267 0,0333 0,0233 0,0333 0,0400 0,0500 0,0267 0,0233 0,0300 0,0300 0,0333 0,0433 0,0367 0,0400 0,0333 0,0333 0,0367 5,8 5,8 0,0300 0,0367 0,0167 0,0367 0,0233 0,0333 0,0500 0,0367 0,0233 0,0433 0,0267 0,0267 0,0433 0,0267 0,0333 0,0233 0,0333 0,0400 0,0500 0,0267 0,0233 0,0300 0,0300 0,0333 0,0433 0,0367 0,0400 0,0333 0,0333 0,0367 7,6 7,6 0,0300 0,0667 0,0833 0,1200 0,1433 0,1767 0,2267 0,2633 0,2867 0,3300 0,3567 0,3833 0,4267 0,4533 0,4867 0,5100 0,5433 0,5833 0,6333 0,6600 0,6833 0,7133 0,7433 0,7767 0,8200 0,8567 0,8967 0,9300 0,9633 1,0000 9,4 9,4 Minimo (a) 37 1 Mximo (b) 10 4 Muestra 300 1,00 10,00 0,30000 300 1 0,07841 A1:A300

2,2

4,0

4,9

6,7

8,5

Estadsticos Tericos Muestra Mnimo 1,00 1,01 Media 5,50 5,61 Mximo 10,00 9,99 Varianza 6,75 6,74
Algoritmo de generacin a+(ALEATORIO()*(b-a))

4,9

6,7

Proyecto e-Math Financiado por la Secretara de Estado de Educacin y Universidades (MECD)

8,5

13

Variables aleatorias continuas

Weibull
Usos. Se trata de una distribucin de valores positivos desarrollada (por Walladi Weibull) para explicar la duracin aleatoria - el tiempo de vida o de funcionamiento - de cualquier dispositivo, natural o no, si ste pasa por una primera fase de gran mortalidad (mortalidad infantil o defectos de fabricacin) una fase intermedia con muy poca probabilidad de fallo (periodo adulto o periodo til de servicio) y una fase final en la que la probabilidad de fallo (de avera o de muerte) aumenta rpidamente. Tambin se aplica para modelizar la duracin de una tarea en estudios PERT/CPM. Notacin y parmetros. La notacin habitual es XWei(,) o bien XWeibull(,), el parmetro (>0) es de escala mientras que es el parmetro de forma (>0). Densidad y Distribucin. La funcin de densidad es:
X 1 X e

f(x) = ,la funcin de distribucin es:

F(x) = 1 Estadsticos. La media y varianza son (respectivamente): 1 el coeficiente de variacin es: 2

X e

2 2 1 1 2

+1 + 1 Propiedades.

Si =1 la distribucin se convierte en una Exp(); si =2 la distribucin se convierte en una 2 con grados de libertad.

Proyecto e-Math Financiado por la Secretara de Estado de Educacin y Universidades (MECD)

14

Variables aleatorias continuas


Generacin. Excel no cuenta con una funcin para la inversa de la funcin de distribucin, sin embargo, la generacin de variables aleatorias puede hacerse utilizando la frmula siguiente: *(-LN(1-ALEATORIO()))^(1/) Hoja de clculo. El fichero Weibull.xls es una plantilla para la generacin y anlisis de la distribucin Weibull en Excel. Su aspecto es el siguiente:
0,60 X 0,24 0,41 0,50 0,58 0,76 0,40 0,93 1,10 1,28 0,30 1,45 1,62 0,20 1,79 1,97 2,14 0,10 2,31 2,49 0,00 2,66 2,83 3,01 3,18 1,00 3,35 0,90 3,53 3,70 0,80 3,87 0,70 4,04 4,22 0,60 4,39 0,50 4,56 4,74 0,40 4,91 0,30 5,08 0,20 5,26 0,10 0,00 0,2 0,8 1,3 1,8 2,3 2,8 3,4 3,9 4,4 4,9 Den 0,116546 0,196334 0,267596 0,327577 0,374309 0,406711 0,424602 0,428637 0,420185 0,401147 0,373765 0,340418 0,303437 0,264959 0,226816 0,190466 0,156974 0,127025 0,100962 0,078841 0,060506 0,045644 0,033852 0,024688 0,017707 0,012492 0,008669 0,005919 0,003976 0,002628 0,2 0,8 Dis 0,013871 0,041052 0,081352 0,133046 0,193998 0,261809 0,333970 0,408013 0,481650 0,552877 0,620052 0,681937 0,737701 0,786906 0,829455 0,865538 0,895563 0,920090 0,939766 0,955273 0,967281 0,976422 0,983261 0,988293 0,991935 0,994526 0,996340 0,997589 0,998436 0,999000 1,8 n 7 8 4 20 21 24 23 15 28 29 12 14 16 12 8 8 10 10 6 3 6 9 2 0 2 0 1 1 0 0 1 f_s 0,0234 0,0268 0,0134 0,0669 0,0702 0,0803 0,0769 0,0502 0,0936 0,0970 0,0401 0,0468 0,0535 0,0401 0,0268 0,0268 0,0334 0,0334 0,0201 0,0100 0,0201 0,0301 0,0067 0,0000 0,0067 0,0000 0,0033 0,0033 0,0000 0,0000 f1_s 0,13446 0,15367 0,07683 0,38417 0,40338 0,46101 0,44180 0,28813 0,53784 0,55705 0,23050 0,26892 0,30734 0,23050 0,15367 0,15367 0,19209 0,19209 0,11525 0,05763 0,11525 0,17288 0,03842 0,00000 0,03842 0,00000 0,01921 0,01921 0,00000 0,00000 3,9 f2_s #### #### #### #### #### #### #### #### #### #### #### #### #### #### #### #### #### #### #### #### #### #### #### #### #### #### #### #### #### #### 4,9 WEIBULL( , )

(Forma) 20
2,0

(Escala)

2,0 20

0,06 5,26 0,1731 299


5,743

Muestra 300

0,084829 A1:A300

1,3

2,3

2,8

3,4

4,4

Mnimo Media Mximo Varianza ()

Estadsticos Tericos Muestra 0,06 0,09 1,77 1,79 5,26 5,35 0,858 0,973

Algoritmo de generacin Beta*(-LN(1-ALEATORIO()))^(1/Alfa)

Proyecto e-Math Financiado por la Secretara de Estado de Educacin y Universidades (MECD)

15

Variables aleatorias continuas

Anexo 1 Hoja Patrn para las variables aleatorias continuas.


Cada una de las hojas de clculo dedicadas al anlisis de una distribucin est dividida en cinco partes. Cuatro de ellas son externamente visibles y estn dedicadas a presentar la informacin grfica que describe la distribucin de que se trate para la configuracin de parmetros elegida por el usuario. La quinta, que permanece oculta bajo las cuatro visibles, est dedicada a recoger la muestra aleatoria generada bajo el algoritmo propuesto y la tabulacin de sta junto con la distribucin terica, tabulacin sobre la que se basa la descripcin grfica visible de la distribucin. A la vista del usuario aparecen las zonas siguientes: parmetros y clculos auxiliares, grficos, comparacin de los estadsticos tericos con los muestrales y la descripcin del algoritmo, o algoritmos, de generacin de variables aleatorias.
Grficos. ## 0,25 X ## ## -6,5 ## -6,1 0,20 ## -5,6 ## -5,1 ## -4,7 0,15 ## -4,2 ## -3,7 ## -3,3 0,10 ## -2,8 ## -2,3 ## -1,9 0,05 ## -1,4 ## -0,9 ## -0,5 ## 0,000,0 ## 0,5 ## 0,9 ## 1,4 1,0 1,9 ## ## 0,9 2,3 ## 2,8 0,8 ## 3,3 0,7 3,7 ## ## 0,6 4,2 ## 4,7 0,5 5,1 ## 0,4 5,6 ## ## 0,3 6,1 ## 6,5 0,2 7,0 ## 0,1 ## ## 0,0 ## ## ## -6,1 Den 0,003655 0,003951 0,004620 0,005472 0,006581 0,008056 0,010078 0,012941 0,017161 0,023680 0,034275 0,052212 0,081793 0,119514 0,138983 0,119514 0,081793 0,052212 0,034275 0,023680 0,017161 0,012941 0,010078 0,008056 0,006581 0,005472 0,004620 0,003951 0,003417 0,000000 -5,1 -4,2 Dis n 0,048346 16 0,052001 2 0,056248 1 0,061241 2 0,067193 1 0,074403 1 2,1 0,083306 3 0,094558 4 0,109188 5 2,0 0,128881 9 0,156548 9 Muestra 0,197432 16 300 0,260972 27 0,361017 33 0,500000 57 0,638983 27 0,739028 19 0,802568 16 0,843452 10 0,871119 9 0,890812 7 0,905442 1 0,916694 3 0,925597 2 0,932807 2 0,938759 2 0,943752 2 0,947999 1 0,951654 0 0,954833 0 13 -2,3 -1,4 -0,5 -2,3 -1,4 -0,5 Parmetros y auxiliares CAUCHY(a,b) f_s f1_s f2_s 0,0590 0,05055 1,00000 Posicin (a) 11 -7 0,0074 0,00632 0,00738 0 7 0,0037 0,00316 0,01107 0,46667 Los nombres no 0,0074 0,00632 0,01845 Escala (b) 271 WEIBULL( , ) aparecen en la 0,0037 0,00316 0,02214 1 10 0,85618 Comparacin de 21 0,07 0,02583 Mnimo hoja de clculo estadsticos 0,0037 0,00316 0,08250 5,02 Mximo 0,0111 0,00948 0,03690 Muestra A1:A300 Delta 0,1649 0,0148 0,01264 0,05166 300 1 300 0,07011 n corregido 0,0185 0,01580 6,035 20 factor grfico 0,0332 0,02843 0,10332 Estadsticos KS grfico 0,084829 0,0332 0,02843 0,13653 Tericos Muestra A1:A300 Indirecto deMnimo datos 0,0590 0,05055 0,19557 -7,00 -59,32 0,0996 0,08530 0,29520 Media 0,00 -0,39 0,1218 0,10426 0,41697 Mximo 7,00 116,27 0,2103 0,18008 0,62731 Varianza 0,0996 0,08530 0,72694 0,0701 0,06003 0,79705 Algoritmo de generacin 0,0590 0,05055 0,85609 a-(b/(TAN(PI()*ALEATORIO())))-0,5 0,0369 0,03159 0,89299 a+(b*(N(0,1))/N(0,1))) 0,0332 0,02843 0,92620 0,0258 0,02212 0,95203 0,0037 0,00316 0,95572 a-(b/(TAN(PI()*ALEATORIO())))-0,5 0,0111 0,00948 0,96679 0,0074 0,00632 0,97417 0,0074 0,00632 0,98155 0,0074 0,00632 0,98893 Generacin de la 0,0074 0,00632 0,99631 variable aleatoria. 0,0037 0,00316 1,00000 0,0000 0,00000 1,00000 0,0000 0,00000 1,00000 1,4 2,3 3,3 4,2 5,1 6,1

-6,1

-3,3

-5,1

-4,2

-3,3

0,5

0,5

1,4

2,3

3,3

4,2

5,1

Parmetros y Auxiliares. En esta zona se indica el nombre comn, no abreviado, de la variable aleatoria, sus parmetros, indicando a veces la funcin de stos, as como un control para variar tanto el valor de los parmetros como el tamao de la muestra aleatoria que se generar. Parmetros
Tamao de Posicin (a) 11 0 Escala (b) 1 10 Muestra 300

6,1

CAUCHY(a,b) -7 7 0,46667 272 0,86234 0,08235 A1:A300 1

Nombre de la

distribucin.

la muestra generada.

Los clculos auxiliares no son visibles al usuario.

Proyecto e-Math Financiado por la Secretara de Estado de Educacin y Universidades (MECD)

16

Variables aleatorias continuas


Ocultos al usuario (al estar escritos con tinta del mismo color que el fondo) aparecen una serie de clculos auxiliares. Su descipcin es la siguiente:
Muestra Tamao de la muestra (Visible) simulada Se controla por formulario, el valor mximo es 300 que puede ser modificado en las propiedades del selector. En realidad se trata del valor crtico para el 1% o el 5%. Depende de la naturaleza de la v.a. a veces es cero directamente, lo normal es utilizar el propio algoritmo de generacin aplicado a una probabilidad pequea (0,01 o 0,05). En el caso de weibull es: =Beta*(-LN(0,999))^(1/Alfa) =Beta*(-LN(0,001))^(1/Alfa) Dividimos el rango terico de la v.a. en 30 partes para crear primero las tablas y despus los grficos =(Mximo-Mnimo)/30 Observaciones muestrales que estn incluidas en el rango X. (En ocasiones distinto del tamao muestral elegido ya que el rango no es completo y puede que algn valor generado caiga fuera de l) =SUMA(L(-3)C(-6):L(26)C(-6)) Es necesario normalizar para que los grficos de las densidades estn en una misma escala. =SUMA(Den)/SUMA(f_s) Banda del estadstico de Kolmogorov Smirnov. Aunque puede variar segn la v.a. el caso general es 1,3581/RAIZ(n corregido) Colocaremos la muestra siempre en las dos primeras columnas de manera que su direccin ser ="A1:A" & Muestra o bien ="B1:B" & Muestra Cuando es posible se ofrece un segundo mtodo de generacin de v.a. elegible mediante un selector. Esta variable indica el mtodo seleccionado.

Mnimo

Valor mnimo terico de los datos.

Mximo Id al mnimo Delta Amplitud del intervalo de las tablas

n corregido vase ms adelante

factor grfico vase ms adelante

KS grfico vase ms adelante Direccin en la que se Datos encuentra la muestra simulada Selector de Algoritmo de generacin algoritmo que ser usado

Comparacin de los estadisticos. Se calculan tanto los estadsticos tericos de la Estadsticos distribucin para los parmetros elegidos como los Tericos Muestra observados en la muestra generada. Esta comparacin se -116,81 Mnimo -7,00 hace nicamente a efectos informativos y no tiene ningn 3,88 Media 0,00 1053,49 Mximo 7,00 valor de contraste de hiptesis. Es necesario adecuar para Varianza cada v.a. los estadsticos empleados, los muestrales se construyen con las funciones de Excel aplicadas al rango de datos simulados2. Algoritmo de generacin de la v.a. Se describe la sintaxis del algoritmo empleado en la generacin de la muestra aleatoria y en caso de que se proponga ms de un mtodo se habilita un selector que permita al usuario elegir entre los mtodos propuestos.
Algoritmo de generacin a-(b/(TAN(PI()*ALEATORIO())))-0,5 a+(b*(N(0,1))/N(0,1))) a-(b/(TAN(PI()*ALEATORIO())))-0,5

2 La v.a Cauchy cuya hoja ha servido de ejemplo par construir esta descripcin no tiene una varianza finita de ah que no se lleve a cabo su clculo. Por otra parte, al tratarse de una distribucin de colas muy largas y de un tamao muestral relativamente pequeo la diferencia entre los valores tericos y los muestrales es muy notable.

Proyecto e-Math Financiado por la Secretara de Estado de Educacin y Universidades (MECD)

17

Variables aleatorias continuas


Tablas de grficos Ocultas tras los grficos se encuentran las tablas en las que se realizan los clculos que permiten la representacin grfica tanto de la variable aleatoria terica como de la muestra simulada.
X Den Dis n f s f1 s 0,24 0,116546 0,013871 1 0,0033 0,01921 0,41 0,196334 0,041052 8 0,0268 0,15367 f2 s 0,00333 0,03000 La tabla aparece oculta detrs de los grficos. Es la base para construir stos.

La descripcin de los epgrafes de la tabla y del contenido a los que stos se refieren es la siguiente:
X Rango de la v.a. Den Densidad de la v.a. El primer valor es Mnimo + Delta, los dems se calculan como L(-1)C + Delta Funcin de densidad terica evaluada en cada punto de X. Se utilizan las funciones de Excel cuando stas existen o bien se construye la frmula manualmente. Funcin de distribucin terica evaluada en cada punto de X. Se utilizan las funciones de Excel cuando stas existen o bien se construye la frmula manualmente. Se construye a partir de la funcin FRECUENCIA de Excel. Es matricial ={FRECUENCIA(INDIRECTO(Datos);X)} Para cada clase, se calcula dividiendo la frecuencia absoluta de la clase entre el nmero de observaciones muestrales que estn incluidas en el rango terico considerado (X): =LC(-1)/ n corregido Son los valores anteriores pero corregidos por el factor grfico para conseguir una misma escala de representacin de las funciones de densidad terica y simulada. =f_s * factor grfico Para cada clase se calcula dividiendo el valor de la frecuencia absoluta acumulada (ni) entre los datos considerados (n corregido): =SUMA($F$4:F4)/$L$7

Dis Distribucin de la v.a. Frecuencia absoluta de la ni muestra en funcin de los valores de X

f_s Densidad de la muestra

f1_s

Densidad corregida de la muestra

f2_s Distribucin de la muestra

Grficos Funcin de densidad de la v.a e histograma de los datos simulados. Los rangos son X vs Den para la densidad de la v.a. y X vs f1_s para el histograma.

0,80 0,70 0,60 0,50 0,40 0,30 0,20 0,10 0,00 0,2 0,6 0,9 1,2 1,6 1,9 2,2 2,5 2,9 3,2 3,5 3,9 4,2 4,5 4,9

Proyecto e-Math Financiado por la Secretara de Estado de Educacin y Universidades (MECD)

18

Variables aleatorias continuas


Funcin de distribucin terica y muestral. Los rangos son X vs f2_s para la muestral simulada y X vs Dis para la terica. A esta ltima se le aade una banda de error calculada sobre el test de bondad del ajuste de Kolmogorov-Smirnov (correspondiente al valor KS grfico de la tabla de parmetros y auxiliares) de valor3:

1,00 0,90 0,80 0,70 0,60 0,50 0,40 0,30 0,20 0,10 0,00 2,1 2,4 2,7 3,0 3,3 3,6 3,9 4,1 4,4 4,7 5,0
19

KSg =

1,3581 n

Vase Law y Kelton

Proyecto e-Math Financiado por la Secretara de Estado de Educacin y Universidades (MECD)

5,3

Variables aleatorias continuas

El aspecto que presentara la hoja en caso de eliminar los grficos y hacer visible las tablas seria el siguiente:

Proyecto e-Math Financiado por la Secretara de Estado de Educacin y Universidades (MECD)

20

Variables aleatorias continuas

BIBLIOGRAFA______________________________________________________
[1]. [2]. [3]. [4]. [5]. [6]. [7]. [8]. [9]. [10]. [11]. [12]. [13]. [14]. [15]. [16]. [17]. [18]. [19]. Bennet B.S "Simulation Fundamentals", Prentice Hall (1995) Bratley, P., Fox, B. y Schrage, L. "A Guide to Simulation", Springer. (1987) Fishman, G.S. "Monte Carlo: Concepts, Algorithms and Applications", Springer (3rd ed.) (1999). Gordon G. "System Simulation" Editorial Prentice-Hall (1978). Jambunathan, M. V. "Some Properties of Beta and Gamma Distributions." Ann. Math. Stat. 25, 401-405, 1954. Kleijnen, J. y Van Groenendaal, W. "Simulation: A Statistical Perspective", Wiley(1992). Kolarski, I. "On Groups of n Independent Random Variables whose Product Follows the Beta Distribution." Colloq. Math. IX Fasc. 2, 325-332, (1962). Krysicki, W. "On Some New Properties of the Beta Distribution." Stat. Prob. Let. 42, 131-137, (1999). Law A. M., W. D. Kelton "Simulation Modeling & Analysis" Ed. McGraw-Hill (1984). MacDougall M.H."Simulating Computer Systems Techniques and Tools" MIT Press (1987). Motwani y Ragharan "Randomized Algorithms", Cambridge U.P (1995). Neelamkavil, F. "Computer Simulation and Modelling", Wiley (1988). P. Bratley, B. L. Fox, L. E. Schrage "A Guide to Simulation" Springer-Verlag (1987). Raj Jain "The Art of Computer Systems Performance Analysis" Ed. Wiley (1991). Ros Insua et al. "Simulacin mtodos y aplicaciones" Ed. Ra-Ma, Madrid (1997) Ripley, B. "Stochastic Simulation", Wiley (1987). Ross, S. "A Course in Simulation", MacMillan (1990). Thompson, J.R. "Simulation: A modelers Approach". John Wiley, 2000. Ziegler, B. "Theory of Modelling and Simulation", Wiley (1976).

ENLACES___________________________________________________________
[W1] [W2] [W3] [W4] [W5] [W6] [W7] http://www.xycoon.com/continuousdistributions.htm Borghers, Reymen, y Wessa Resa Corporation. "Bradfords Law and related statistical patterns" Essays of an Information Scientist, Vol 4 pg. 476-482 1980. Measuring risk by Extreme Values.pdf OPERATIONAL RISK SPECIAL REPORT. 2000. Some EVT tools for estimation of large losses in Insurance.pdf Yuriy Krvavych, Kyiv National University of Taras, Ukraine Statistical reliability analysis on Rayleigh Probability Distributions.pdf Russell J. Hoppenstein 2000 Statistically Minimum-loss Design of Averages Control.pdf CHAO-YU CHOU*,Proc. Natl. Sci. Counc. ROC(A) Vol. 24, No. 6, 2000. pp. 472-479 The Extended Generalized Gamma Model.pdf Gebrenegus Ghilagaber, Stockholm University, Department of Statistics.

Proyecto e-Math Financiado por la Secretara de Estado de Educacin y Universidades (MECD)

21

Variables aleatorias discretas

VARIABLES ALEATORIAS DISCRETAS


Autores: Rafael Garca Martn (rgarciamart@uoc.edu), Francisco J. Fauln Fajardo (ffaulin@uoc.edu).

INTRODUCCIN______________________________________________
En este math-block titulado "Variables aleatorias discretas" se describen algunas de las variables aleatorias, creemos que las ms aplicacin tienen en el mbito del mtodo MonteCarlo, y la forma en que pueden ser tanto analizadas (tabular y grficamente) como simuladas a travs de Excel. Para cada una de las v.a. presentadas se muestra: una pequea descripcin de las aplicaciones que pueden encontrarse en la literatura, la funcin de probabilidad y distribucin, sus estadsticos principales y sus propiedades tericas, fundamentalmente respecto a otras variables aleatorias con las que pudieran estar relacionadas. Para cada una de ellas se presenta un mtodo de generacin de muestras aleatorias. El lector notar que se ha hecho un esfuerzo por evitar que los mecanismos de generacin se basen, contrario a lo que es habitual, en cdigo VBA. Varias son las razones que nos han movido a ello, en primer lugar evitar la aparicin, inevitable, de las macros que contuvieran dicho cdigo y que, quermoslo o no, arrojan siempre una sombra de amenaza para la integridad de nuestros ordenadores; en segundo lugar para reivindicar la capacidad de Excel - de las funciones propias de la hoja - para realizar tareas de mediana complejidad a espaldas de un cdigo que, aunque sumamente inteligible, implica en cualquier caso un aparato inevitable no siempre bien asumido por el usuario final. Finalmente, la generacin de v.a. a travs de cdigo VBA, o de cualquier otro lenguaje de programacin, est lo suficientemente bien tratada en la literatura como para que el lector que prefiera la utilizacin de mtodos diferentes a los aqu expuestos no tenga ningn dificultad para encontrar informacin profusamente desarrollada.

OBJETIVOS

Presentar al estudiante los conceptos bsicos de las variables aleatorias discretas y proporcionar una herramienta, basada en Excel, para su anlisis y simulacin.

_________________

__

RELACIN CON OTROS DOCUMENTOS

_________________

__

Este math-block es complementario del titulado Variables aleatorias continuas con el que, como es lgico, comparte muchas caractersticas. Este documento hace mencin a una serie de hojas de clculo con las que se complementa (Binomial.xls ; BinNeg.xls ; Geometrica.xls ; Hipergeo.xls ; Poisson.xls ; UniDisc.xls ).

NDICE

_________________

__

Binomial ......................................................................................................................... 2 Binomial Negativa ........................................................................................................... 3 Geomtrica ..................................................................................................................... 4 Hipergeomtrica ............................................................................................................. 6 Poisson .......................................................................................................................... 8 Uniforme (Discreta)......................................................................................................... 9 Anexo 1 Hoja Patrn para las variables aleatorias discretas. ............................................ 11 Anexo 2 Procedimiento genrico para la generacin de variables discretas. ...................... 14 Anexo 3 Procedimiento genrico de estimacin de parmetros. ....................................... 19 BIBLIOGRAFA.............................................................................................................. 21

Proyecto e-Math Financiado por la Secretara de Estado de Educacin y Universidades (MECD)

Variables aleatorias discretas

Binomial
Usos. Una v.a. Binomial representa el nmero de xitos que ocurren en n repeticiones independientes de un ensayo de Bernouilli cuya probabilidad de xito es p. As, se distribuyen de esta forma magnitudes como el nmero de piezas defectuosas en un lote de tamao n (moderado) cuando cada pieza tiene una probabilidad p de ser defectuosa; el tamao de un conjunto si ste es aleatorio y no demasiado grande; el nmero de artculos demandados en un almacn; el nmero de encuestados que estn a favor de determinada cuestin y un cuantioso etctera. Notacin y parmetros. La notacin habitual es XB(n,p). Probabilidad y Distribucin. La funcin de probabilidad es:

p( x ) =
La funcin de distribucin es: F(x) = Estadsticos.
X

n n p (1 p)1 X X
n

i=0

1 X X i p (1 p)

La media y varianza son (respectivamente): np ; np(1 p) Propiedades. Si (X1,X2,..Xm) B(ni,p) entonces (X1+X2+..+Xm)B(n1+n2+..nm,p); si XB(n,p) entonces la variable (n-X)B(n,1-p). La distribucin es simtrica slo si p=1/2 Generacin. Puesto que Excel cuenta con una funcin para la inversa de la funcin de distribucin, la generacin de variables aleatorias puede hacerse directamente por inversin utilizando la frmula siguiente: =BINOM.CRIT(n;p;ALEATORIO()) Caracterizacin. Vase el Anexo 3 Procedimiento genrico de estimacin de parmetros. Hoja de clculo. El fichero Binomial.xls es una plantilla para la generacin y anlisis de la distribucin Binomial en Excel as como para la estimacin de parmetros a partir de una muestra aleatoria. Su aspecto es el siguiente:

Proyecto e-Math Financiado por la Secretara de Estado de Educacin y Universidades (MECD)

Variables aleatorias discretas


0,20 X 0 0,18 1 2 3 0,16 4 5 0,14 6 7 8 0,12 9 10 11 0,10 12 13 0,08 14 15 16 0,06 17 18 0,04 19 20 21 0,02 22 23 0,00 24 25 26 Den 0,000000 0,000000 0,000000 0,000000 0,000000 0,000000 0,000000 0,000001 0,000006 0,000030 0,000128 0,000474 0,001525 0,004286 0,010566 0,022882 0,043554 0,072822 0,106781 0,136925 0,152900 0,147826 0,122781 0,086707 0,051345 0,025019 0,009769 n 0 0 0 0 0 0 0 0 0 0 0 0 1 0 7 9 20 18 31 36 53 38 28 23 20 9 6 f1_s 0,000000 0,000000 0,000000 0,000000 0,000000 0,000000 0,000000 0,000000 0,000000 0,000000 0,000000 0,000000 0,003333 0,000000 0,023333 0,030000 0,066667 0,060000 0,103333 0,120000 0,176667 0,126667 0,093333 0,076667 0,066667 0,030000 0,020000 f3_s 0,0 0,0 0,0 0,0 0,0 0,0 0,0 0,0 0,0 0,0 0,0 0,1 0,5 1,3 3,2 6,9 13,1 21,8 32,0 41,1 45,9 44,3 36,8 26,0 15,4 7,5 2,9 BINOMIAL(n,p) Ensayos (n) 30 Pr. xito (p) 67 0,67 Muestra 300 12 27

A1:A300

Mnimo Media Moda Mximo Varianza

Estadsticos Tericos Muestra 12 12 20,10 20,02 20 27 28 6,6 7,9 Bondad del generador 2 22,4901 GL 16 p.valor 0,0956

Binomial Negativa
Usos. Una v.a. Binomial negativa representa el nmero de fracasos que ocurren hasta obtener el nsimo xito en la realizacin de ensayos de Bernouilli con probabilidad p de xito. As, el nmero de artculos examinados de un lote hasta que aparece el n-simo defectuoso; el nmero de candidatos a entrevistar cuando se quiere formar un equipo de n personas idneas para un puesto de trabajo; el nmero de melocotones que un cliente exigente manipula antes de conseguir un kilo de ellos que satisfagan sus criterios; etc. Notacin y parmetros. La notacin habitual es XNegBin(n,p) o, a veces, BN(n,p). Probabilidad y Distribucin. La funcin de probabilidad es: n + X 1 X X p(x) = p (1 p) X La funcin de distribucin es: F(x) = Estadsticos. La media y varianza son respectivamente. n(1 p) ; p n(1 p) p2
i= X i=0

Proyecto e-Math Financiado por la Secretara de Estado de Educacin y Universidades (MECD)

12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27

BINOM.CRIT(n;p;ALEATORIO())

Algoritmo de generacin

n + i 1 n i p (1 p) i

Variables aleatorias discretas


Propiedades. Si (X1,X2,..Xm)BN(ni) entonces (X1+X2+..+Xm)BN(n1+ n 2+.. n m). Tambin es conocida como distribucin de Pascal o distribucin de Polya. Se verifica que BN(1,p) Geom(p). Generacin. Excel cuenta con una funcin para la distribucin y probabilidad de la Binomial Negativa aunque no con la inversa de la distribucin. No cuenta tampoco con la posibilidad de obtener muestras aleatorias a partir del mdulo de Anlisis de Datos + Generacin de nmeros aleatorios. En cualquier caso es posible obtener nmeros que se distribuyan segn una esta distribucin utilizando la frmula siguiente1: BINOM.CRIT(DISTR.GAMMA.INV(U;n;(1-p)/p)/;;U) siendo un nmero suficientemente pequeo (obtendremos buenos resultados con = 0,0001) y U la Uniforme (0;1), es decir U = ALEATORIO(). Hoja de clculo. El fichero BinNeg.xls es una plantilla para la generacin y anlisis de esta distribucin:
45,0 X 0 1 2 40,0 3 4 5 35,0 6 7 8 9 30,0 10 11 12 25,0 13 14 15 16 20,0 17 18 19 15,0 20 21 22 23 10,0 24 25 #N/A 5,0 #N/A #N/A #N/A 0,0 #N/A #N/A #N/A Den 0,00507 0,01880 0,03985 0,06336 0,08395 0,09788 0,10376 0,10213 0,09472 0,08367 0,07095 0,05812 0,04620 0,03579 0,02710 0,02011 0,01465 0,01051 0,00742 0,00518 0,00357 0,00243 0,00164 0,00110 0,00073 0,00048 #N/A #N/A #N/A #N/A #N/A #N/A #N/A 2 4 n 0 3 13 16 25 25 33 40 27 22 22 25 5 12 6 9 7 3 6 0 0 1 0 0 0 0 #N/A #N/A #N/A #N/A #N/A #N/A #N/A 8 f1_s 0,0000 0,0100 0,0433 0,0533 0,0833 0,0833 0,1100 0,1333 0,0900 0,0733 0,0733 0,0833 0,0167 0,0400 0,0200 0,0300 0,0233 0,0100 0,0200 0,0000 0,0000 0,0033 0,0000 0,0000 0,0000 0,0000 #N/A #N/A #N/A #N/A #N/A #N/A #N/A 12 f3_s 1,5 5,6 12,0 19,0 25,2 29,4 31,1 30,6 28,4 25,1 21,3 17,4 13,9 10,7 8,1 6,0 4,4 3,2 2,2 1,6 1,1 0,7 0,5 0,3 0,2 0,1 #N/A #N/A #N/A #N/A #N/A #N/A #N/A BINOMIAL NEGATIVA (n,p) Intentos (n) 7 Pr. xito (p) 47 0,47 Muestra 300 0 25

A1:A300

Mnimo Media Moda Mximo Varianza

Estadsticos Tericos Muestra 0 1 8 8 7 21 16,79 15,48 Bondad del generador 2 30,3827 GL 26 p.valor 0,2103

BINOM.CRIT(DISTR.GAMMA.INV(U;n;(1-p)/p)/; ;U) con U=ALEATORIO() y =0,0001

Algoritmo de generacin

10

14

16

18

20

22

Geomtrica
Usos. Una v.a. Geomtrica representa el nmero de fracasos que ocurren hasta obtener el primer xito en la realizacin de ensayos de Bernouilli con probabilidad p de xito. As, el nmero de artculos examinados de un lote hasta que aparece el primer defectuoso; el nmero de
1

Por composicin siguiendo una conocida propiedad de la distribucin BN, vase por ejemplo [3].

Proyecto e-Math Financiado por la Secretara de Estado de Educacin y Universidades (MECD)

24

Variables aleatorias discretas


candidatos a entrevistar cuando se quiere encontrar una nica persona idnea para un puesto de trabajo; el nmero de melones que un cliente exigente manosea antes de conseguir aqul que satisface sus criterios, etc. Notacin y parmetros. La notacin habitual es XGeom(p) o, a veces, G(p). Probabilidad y Distribucin. La funcin de probabilidad es:

p(x) = p (1 p)X
La funcin de distribucin es:

F(x) = 1 (1 p)x +1
Estadsticos. La media y varianza son respectivamente. (1 p) ; p Propiedades. La primera propiedad es evidente: se trata de una particularizacin de la binomial negativa, es decir, se verifica que BN(1,p) Geom(p). Si (X1,X2,..Xm)G(p) entonces (X1+X2+..+Xm)BN(m,p). Es el equivalente discreto de la Exponencial en el sentido de que es la nica distribucin discreta que "no guarda memoria" ya que el nmero de fallos ocurridos hasta un instante dado no modifica la probabilidad de que el prximo intento sea un xito. Generacin. Excel no cuenta con una funcin para la distribucin y probabilidad de la distribucin Geomtrica, sin embargo es fcil generar muestras aleatorias por inversin de la funcin de Distribucin utilizando la frmula siguiente REDONDEAR.MENOS(LN(ALEATORIO())/LN(1-p);0) Caracterizacin. Es trivial ya que se verifica que: = p Hoja de clculo. El fichero Geometrica.xls es una plantilla para la generacin y anlisis de esta distribucin: 1 X (n) + 1 (1 p) p2

Proyecto e-Math Financiado por la Secretara de Estado de Educacin y Universidades (MECD)

Variables aleatorias discretas


0,40 0,35 0,30 0,25 0,20 0,15 0,10 0,05 0,00 X 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 Den 0,310000 0,213900 0,147591 0,101838 0,070268 0,048485 0,033455 0,023084 0,015928 0,010990 0,007583 0,005232 0,003610 0,002491 0,001719 0,001186 0,000818 0,000565 0,000390 0,000269 0,000185 0,000128 0,000088 0,000061 0,000042 0,000029 0,000020 n 114 42 46 34 15 13 11 1 6 5 4 6 2 0 1 0 0 0 0 0 0 0 0 0 0 0 0 f1_s 0,3800 0,1400 0,1533 0,1133 0,0500 0,0433 0,0367 0,0033 0,0200 0,0167 0,0133 0,0200 0,0067 0,0000 0,0033 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 f3_s 93,0 64,2 44,3 30,6 21,1 14,5 10,0 6,9 4,8 3,3 2,3 1,6 1,1 0,7 0,5 0,4 0,2 0,2 0,1 0,1 0,1 0,0 0,0 0,0 0,0 0,0 0,0 GEOMTRICA(p) Probabilidad (p) 0,31 31 0 18

Muestra 300

A1:A300

Mnimo Media Moda Mximo Varianza

Estadsticos Tericos Muestra 0 0 2,23 2,24 0 0 0 14 7,18 8,16 Bondad del generador 2 37,8075 GL 1 p.valor 0,0041

Hipergeomtrica
Usos. Una v.a. Hipergeomtrica representa el nmero de xitos que ocurrirn cuando de una poblacin en la que hay N objetos cuya eleccin se considera (arbitrariamente) un xito y M-N objetos fracaso, se extrae una muestra, sin repeticin, de tamao n. Es importante notar que el muestreo se hace sin repeticin, es decir sin devolver los objetos al seno de la poblacin antes de cada ensayo, ya que esta caracterstica es la nica que diferencia esta distribucin de la distribucin binomial. Se distribuyen segn una Hipergeomtrica magnitudes tales como el nmero de hombres (o de mujeres) que incluye una seleccin al azar de un grupo en el que ambos gneros estn presentes, el nmero de temas estudiados por un opositor que ha decidido estudiar slo unos cuantos del temario de su oposicin cuando el examen consta de varios temas, etc. Notacin y parmetros. La notacin habitual es XHiperGeom(n,N,M) o tambin XH(n,N,M). Todos los parmetros deben ser lgicamente positivos y representan: n el tamao de la muestra extrada; N el nmero de xitos que contiene la poblacin; M el nmero total de elementos de la poblacin. Probabilidad y Distribucin. La funcin de probabilidad es: M N M X n X p(x) = N n F(x) = M N M 1 ni i N i =0 n
i= X

La funcin de distribucin es:

Proyecto e-Math Financiado por la Secretara de Estado de Educacin y Universidades (MECD)

0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18

REDONDEAR.MENOS(LN(aleatorio())/LN(1-p);0)

Algoritmo de generacin

Variables aleatorias discretas


Estadsticos. La media y varianza son: nM N Propiedades. Es evidente que ha de verificarse que: Max(0, n N + M) X Min(M , n) Generacin. Excel cuenta con una funcin para la distribucin y probabilidad, no cuenta sin embargo, con la posibilidad de obtener muestras aleatorias (Anlisis de Datos). Sin embargo, es posible obtener nmeros que se distribuyan segn esta distribucin a travs de la frmula matricial siguiente2: COINCIDIR(ALEATORIO();
1-PROBABILIDAD(FILA(INDIRECTO("A1:A"&n+1))-1; DISTR.HIPERGEOMFILA(INDIRECTO("A1:A"&n+1))-1;n;N;M) FILA(INDIRECTO("A1:A"&n+1))-1;n+1);1) -1)

M N n nM 1 N N 1 N

Hoja de clculo. El fichero Hipergeo.xls es una plantilla para la generacin y anlisis de esta distribucin:
0,3 X 0 1 2 3 0,3 4 5 6 7 8 0,2 9 10 11 12 13 0,214 15 16 17 18 19 0,120 21 #N/A #N/A #N/A 0,1 #N/A #N/A #N/A #N/A #N/A 0,0 #N/A #N/A #N/A Den 0,00000 0,00000 0,00000 0,00000 0,00001 0,00008 0,00066 0,00375 0,01533 0,04599 0,10248 0,17081 0,21351 0,19998 0,13967 0,07204 0,02702 0,00719 0,00131 0,00015 0,00001 0,00000 #N/A #N/A #N/A #N/A #N/A #N/A #N/A #N/A #N/A #N/A #N/A n 0 0 0 0 0 0 1 1 4 12 32 47 74 50 39 29 8 3 0 0 0 0 #N/A #N/A #N/A #N/A #N/A #N/A #N/A #N/A #N/A #N/A #N/A f1_s 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0033 0,0033 0,0133 0,0400 0,1067 0,1567 0,2467 0,1667 0,1300 0,0967 0,0267 0,0100 0,0000 0,0000 0,0000 0,0000 #N/A #N/A #N/A #N/A #N/A #N/A #N/A #N/A #N/A #N/A #N/A f3_s 0,0 0,0 0,0 0,0 0,0 0,0 0,2 1,1 4,6 13,8 30,7 51,2 64,1 60,0 41,9 21,6 8,1 2,2 0,4 0,0 0,0 0,0 #N/A #N/A #N/A #N/A #N/A #N/A #N/A #N/A #N/A #N/A #N/A HIPERGEOMETRICA (a,b,c) Muestra (a) 21 21 xitos (b) 35 35 Total (c) 60 60 Muestra 300 0 21

A1:A300

Mnimo Media Moda Mximo Varianza

Estadsticos Tericos Muestra 0 6 12 12 12 21 17 3,37 3,51 Bondad del generador 2 10,6794 GL 22 p.valor 0,9687 Algoritmo de generacin (Ver Documento)

Vase el procedimiento genrico expuesto en el Anexo II de este documento. 7

Proyecto e-Math Financiado por la Secretara de Estado de Educacin y Universidades (MECD)

0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21

CO I NCI DI R( A LEA TO R I O( ) ; 1-PRO BABI LI DAD( FI LA ( I NDI RECTO ( " A1: A "& $J$5+1) ) 1; DI STR. HI PERG EO M ( FI LA ( I NDI RECTO ( " A1: A "& $J$5+1) ) 1; $J$5; $J$8; $J$11) ; FI LA ( I NDI RECTO ( " A1: A "& $J$5+1) ) -1; $J$5+1) ; 1) -1

Variables aleatorias discretas

Poisson
Usos. Una v.a. de Poisson es en realidad una v.a. Binomial llevada al lmite, es decir cuando n (aunque basta con que sea suficientemente grande) y p0 (aunque basta con que sea suficientemente pequeo). En general cualquier suceso "raro" puede ser perfectamente modelizado por un v.a. de Poisson, ejemplos tpicos son el nmero de remaches defectuosos en un avin (porque un avin puede llegar a tener varios millones de ellos y al ser un mecanismo tan simple es realmente difcil que sea defectuoso); el nmero de erratas en un libro (que contiene un gran nmero de palabras que difcilmente estn mal escritas); el nmero de llegadas a un servicio ( o de llamadas a un callcenter) si la distribucin entre los tiempos es exponencial; el nmero de accidentes laborales en un mes en una gran empresa; el nmero de personas que entran en un supermercado en un minuto; el nmero de personas residentes en una gran ciudad que en un da sufren un infarto; etc. Notacin y parmetros. La notacin habitual es XPoisson(). El nico parmetro debe ser positivo >0. Probabilidad y Distribucin. La funcin de probabilidad es: p(x) = La funcin de distribucin es: F(x) = e Estadsticos. La media y varianza coinciden en el nico parmetro . Propiedades. Si (X1,X2,..Xm) Poisson(i) entonces (X1+X2+..+Xm)Poisson(1+ 2+.. m). Generacin. Excel cuenta con una funcin para la distribucin y probabilidad de Poisson, cuenta tambin con la posibilidad de obtener muestras aleatorias as distribuidas (Herramientas + Anlisis de Datos + Generacin de nmeros aleatorios). En cualquier caso es posible obtener nmeros aleatorios que se distribuyan segn una Poisson de parmetro , utilizando la frmula siguiente: BINOM.CRIT(/0,001;0,001;ALEATORIO()) Caracterizacin. El parmetro puede ser estimado fcilmente de la forma siguiente: = x (n) Hoja de clculo. El fichero Poisson.xls es una plantilla para la generacin y anlisis de esta distribucin:
i= X i=0

e X x!

i!

Proyecto e-Math Financiado por la Secretara de Estado de Educacin y Universidades (MECD)

Variables aleatorias discretas


0,20X 0 0,181 2 3 0,164 5 6 0,147 8 0,129 10 11 0,10 12 13 14 0,08 15 16 0,06 0,04 0,02 0,00 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 Den 0,001008 0,006954 0,023990 0,055178 0,095182 0,131351 0,151053 0,148895 0,128422 0,098457 0,067935 0,042614 0,024503 0,013005 0,006410 0,002949 0,001272 #N/A #N/A #N/A #N/A #N/A #N/A n 0 7 22 51 75 113 168 123 107 105 74 34 27 11 11 2 0 0 0 0 0 0 0 f1_s 0,0000 0,0075 0,0237 0,0548 0,0806 0,1215 0,1806 0,1323 0,1151 0,1129 0,0796 0,0366 0,0290 0,0118 0,0118 0,0022 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 f3_s 0,9 6,5 22,3 51,3 88,5 122,2 140,5 138,5 119,4 91,6 63,2 39,6 22,8 12,1 6,0 2,7 1,2 #N/A #N/A #N/A #N/A #N/A #N/A POISSON( ) 6,90 138 Muestra 930

0 17

A1:A930

Mnimo Media () Moda Mximo Varianza ()

Estadsticos Tericos Muestra 0 1 6,90 6,99 6 17 15 6,9 6,88 Bondad del generador 2 23,2976 GL 17 p.valor 0,1060

BINOM.CRIT($J$6/0,001;0,001;ALEATORIO())

Algoritmo de generacin

Uniforme (Discreta)
Usos. Esta v.a. es el equivalente discreto de la de mismo nombre dentro de las distribuciones continuas. Se utiliza cuando un conjunto de posibles resultados es igualmente probable: el nmero de veces que aparecer cada una de las caras de un dado regular; el dgito final de los nmeros premiados en la lotera, etc. Notacin y parmetros. La notacin habitual es XUD(a,b). Se verifica que a X b y a < b. Probabilidad y Distribucin. La funcin de probabilidad es:

p( x ) =

La funcin de distribucin es:

1 a b +1

x = {a, a + 1, a + 2,....,b 2, b 1, b}
F(x) = X a+1 a b +1

Estadsticos. La media y varianza son: a+b 2 Generacin. Excel cuenta con una funcin directa para generar muestras aleatorias as distribuidas ALEATORIO.ENTRE(a;b) ; (a b + 1)2 1 12

Proyecto e-Math Financiado por la Secretara de Estado de Educacin y Universidades (MECD)

Variables aleatorias discretas


Caracterizacin. Los parmetros pueden ser estimados fcilmente de la forma siguiente:

= min { X (n) } a
Hoja de clculo.

= max { X } ; b (n)

El fichero UniDisc.xls es una plantilla para la generacin y anlisis de esta distribucin:


0,08 X 1 2 3 0,07 4 5 6 0,06 7 8 9 10 0,05 11 12 13 14 0,04 15 16 17 0,03 18 19 20 21 0,02 22 23 24 0,01 25 26 27 28 0,00 29 30 31 Den 0,045455 0,045455 0,045455 0,045455 0,045455 0,045455 0,045455 0,045455 0,045455 0,045455 0,045455 0,045455 0,045455 0,045455 0,045455 0,045455 0,045455 0,045455 0,045455 0,045455 0,045455 0,045455 0,045455 0,045455 0,045455 0,045455 0,045455 0,045455 0,045455 0,045455 0,045455 n 12 15 14 15 13 13 9 11 12 13 11 13 15 15 20 14 11 12 13 21 15 13 0 0 0 0 0 0 0 0 0 f1_s 0,040000 0,050000 0,046667 0,050000 0,043333 0,043333 0,030000 0,036667 0,040000 0,043333 0,036667 0,043333 0,050000 0,050000 0,066667 0,046667 0,036667 0,040000 0,043333 0,070000 0,050000 0,043333 0,000000 0,000000 0,000000 0,000000 0,000000 0,000000 0,000000 0,000000 0,000000 f3_s 13,6 13,6 13,6 13,6 13,6 13,6 13,6 13,6 13,6 13,6 13,6 13,6 13,6 13,6 13,6 13,6 13,6 13,6 13,6 13,6 13,6 13,6 13,6 13,6 13,6 13,6 13,6 13,6 13,6 13,6 13,6 UNIFORME DISCRETA(a,b) Mnimo (a) 1 Mximo (b) 22 22 Muestra 300 1 22

A1:A300

Mnimo Media Moda Mximo Varianza

Estadsticos Tericos Muestra 1 1 11,50 11,84 22 36,8 22 41,5

Bondad del generador 2 11,5200 GL 21 p.valor 0,9517 Algoritmo de generacin


ALEATORIO.ENTRE(a;b)

Proyecto e-Math Financiado por la Secretara de Estado de Educacin y Universidades (MECD)

1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22

10

Variables aleatorias discretas

Anexo 1 Hoja Patrn para las variables aleatorias discretas.


Cada una de las hojas de clculo dedicadas al anlisis de una distribucin est dividida en seis partes. Cinco de ellas son externamente visibles y se han utilizado para presentar la informacin grfica y numrica que describe la distribucin de que se trate para la configuracin de parmetros elegida por el usuario. La sexta, que permanece oculta bajo las anteriores, est dedicada a recoger la muestra aleatoria generada bajo el algoritmo propuesto y la tabulacin de sta junto con la distribucin terica, tabulacin sobre la que se basa la descripcin grfica visible de la distribucin. A la vista del usuario aparecen las zonas siguientes: parmetros y clculos auxiliares, grfico, comparacin de los estadsticos tericos con los muestrales y la descripcin del algoritmo, o algoritmos, de generacin de variables aleatorias.
Grfico 0,18X 0 1 0,162 3 4 0,14 5 6 0,127 8 9 10 0,10 11 12 13 0,08 14 15 16 0,06 0,04 0,02 0,00 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 Den 0,001008 0,006954 0,023990 0,055178 0,095182 0,131351 0,151053 0,148895 0,128422 0,098457 0,067935 0,042614 0,024503 0,013005 0,006410 0,002949 0,001272 #N/A #N/A #N/A #N/A #N/A #N/A n 0 10 31 41 83 117 142 129 119 94 73 40 27 15 3 6 0 0 0 0 0 0 0 f1_s 0,0000 0,0108 0,0333 0,0441 0,0892 0,1258 0,1527 0,1387 0,1280 0,1011 0,0785 0,0430 0,0290 0,0161 0,0032 0,0065 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 f3_s 0,9 6,5 22,3 51,3 88,5 122,2 140,5 138,5 119,4 91,6 63,2 39,6 22,8 12,1 6,0 2,7 1,2 #N/A #N/A #N/A #N/A #N/A #N/A Parmetros y clculos auxiliares

POISSON( ) 0 17

6,90 138 Muestra 930 Comparacin de estadsticos

A1:A930

Mnimo Media () Moda Anlisis de la Mximo bondad del Varianza () generador

Estadsticos Tericos Muestra 0 1 6,90 6,97 6 17 15 6,9 7,20 Bondad del generador 2 19,1476 GL 17 p.valor 0,2611

BINOM.CRIT($J$6/0,001;0,001;ALEATORIO())

Algoritmo de generacin

Algoritmo de generacin de v.a.

Parmetros y Auxiliares. En esta zona se indica el nombre comn, no abreviado, de la variable aleatoria, sus parmetros, as como un control que permite al usuario variar tanto el valor de los parmetros como el tamao de la muestra aleatoria que se generar.
POISSON( ) Parmetro(s) 6,90 138 Muestra 930

0 17

Nombre Clculos auxiliares no visibles: Mnimo, Mximo y Datos

Tamao de la muestra a generar

A1:A930

Proyecto e-Math Financiado por la Secretara de Estado de Educacin y Universidades (MECD)

11

Variables aleatorias discretas

Muestra

Tamao de la muestra simulada Valor mnimo terico de los datos.

Mnimo

Mximo Anlogo al mnimo Direccin en la que se Datos encuentra la muestra simulada

Se controla por formulario, el valor mximo es 300 que puede ser modificado en las propiedades del selector. En realidad se trata del valor crtico para el 1% o el 5%. Calculado utilizando bien el algoritmo de generacin con un U forzado al valor correspondiente (0,01 o 0,99), bien utilizando la funcin de distribucin inversa cuando existe para esos mismo valores Id al anterior. Colocaremos la muestra siempre en la primera columna de manera que su direccin ser ="A1:A" & Muestra

Comparacin de los estadsticos. Se calculan tanto los estadsticos tericos de la distribucin para los parmetros elegidos como los observados en la muestra generada. Esta comparacin se hace nicamente a efectos informativos y no tiene ningn valor de contraste de hiptesis. Es necesario adecuar para cada v.a. los estadsticos tericos empleados, los muestrales se construyen con las funciones de Excel aplicadas al rango de datos simulados.
Estadsticos Tericos Muestra -116,81 Mnimo -7,00 3,88 Media 0,00 1053,49 Mximo 7,00 Varianza

Estadsticos muestrales y tericos

Anlisis de la bondad del generador. Se realiza una prueba de bondad del ajuste de la muestra obtenida, a travs del algoritmo de generacin propuesto, a la distribucin terica esperada. Los resultados que se muestran son: valor del estadstico (2), grados de libertad (GL), probabilidad asociada a la hiptesis nula (p.valor) de ajuste a la distribucin especificada.
Resultados de la prueba de bondad del ajuste de la muestra obtenida a la distribucin terica

Bondad del generador 2 19,1476 GL 17 p.valor 0,2611

Algoritmo de generacin de la v.a. Se describe la sintaxis del algoritmo empleado en la generacin de la muestra aleatoria en trminos de las funciones de Excel.

BINOM.CRIT($J$6/0,001;0,001;ALEATORIO())

Algoritmo de generacin

Proyecto e-Math Financiado por la Secretara de Estado de Educacin y Universidades (MECD)

12

Variables aleatorias discretas


0,18

Grficos Funcin de probabilidad de la v.a. e histograma de los datos simulados. Los rangos son X vs Den para la probabilidad de la v.a. y X vs f1_s para el histograma segn los nombres descritos en el siguiente epgrafe.

0,16 0,14 0,12 0,10 0,08

Tabla Oculta tras los grficos se encuentran la tabla en las que se realizan los clculos que permiten la representacin grfica tanto de la variable aleatoria terica como de la muestra simulada. La descripcin de los epgrafes de la tabla y del contenido a los que stos se refieren es la siguiente:
X Rango de la v.a.

0,06 0,04 0,02 0,00 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17


X 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 Den 0,001008 0,006954 0,023990 0,055178 0,095182 0,131351 0,151053 0,148895 0,128422 0,098457 0,067935 0,042614 0,024503 0,013005 0,006410 0,002949 0,001272 0,000516 #N/A #N/A #N/A #N/A #N/A n 1 5 24 54 96 127 125 140 117 98 53 42 26 12 8 2 0 0 0 0 0 0 0 f1 s 0,0011 0,0054 0,0258 0,0581 0,1032 0,1366 0,1344 0,1505 0,1258 0,1054 0,0570 0,0452 0,0280 0,0129 0,0086 0,0022 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 f3 s 0,9 6,5 22,3 51,3 88,5 122,2 140,5 138,5 119,4 91,6 63,2 39,6 22,8 12,1 6,0 2,7 1,2 0,5 #N/A #N/A #N/A #N/A #N/A

Den

Probabilidad de la v.a.

Frecuencia absoluta de la muestra en ni funcin de los valores de X f1_s Probabilidad de la muestra Frecuencia absoluta terica

f3_s

El primer valor es Mnimo + Delta, los dems se calculan como L(-1)C + Delta Funcin de probabilidad terica evaluada en cada punto de X. Se utilizan las funciones de Excel cuando stas existen o bien se construye la frmula manualmente Nmero de observaciones de la muestra en cada clase de X. Es matricial. ={SUMA(SI(INDIRECTO(Indirecto)=X;1;0 ))} Para cada clase, se calcula dividiendo la frecuencia absoluta de la clase entre el tamao de la muestra. Es necesaria para el clculo del estadstico 2 que se usa para comprobar la bondad del mtodo de generacin.

Todas las hojas tienen definidos una serie de nombres que permiten, adaptando en cada momento el rango horizontal del grfico al dominio ms probable (99,9%) de la variable aleatoria segn la configuracin de parmetros elegida por el usuario realizar, el grfico a partir de la tabla de datos. Estos nombres3 y su significado son los siguientes:
U X Den n f1_s f3_s =ALEATORIO() =DESREF(BinNeg!$B$3;1;1;1+BinNeg!$L$5-BinNeg!$L$4;1) =DESREF(BinNeg!$B$3;1;2;1+BinNeg!$L$5-BinNeg!$L$4;1) =DESREF(BinNeg!$B$3;1;3;1+BinNeg!$L$5-BinNeg!$L$4;1) =DESREF(BinNeg!$B$3;1;4;1+BinNeg!$L$5-BinNeg!$L$4;1) =DESREF(BinNeg!$B$3;1;5;1+BinNeg!$L$5-BinNeg!$L$4;1)

Ntese que los rangos aparecen precedidos siempre del nombre de la hoja, en este caso BinNeg!.

Proyecto e-Math Financiado por la Secretara de Estado de Educacin y Universidades (MECD)

13

Variables aleatorias discretas

Anexo 2 Procedimiento genrico para la obtencin de v.a. discretas.


Con frecuencia ser necesario generar muestras aleatorias que se distribuyan con arreglo a una distribucin discreta que ha sido definida por el usuario. Es decir, nos enfrentaremos al problema de simular una distribucin especificada en la forma siguiente {X,P}, en donde X = {X1,X2,.. Xi,...Xn} se refiere al posible conjunto de posibles valores de la variable aleatoria, conjunto cuyos elementos pueden ser nmeros naturales (consecutivos o no) o tal vez cdigos, dependiendo de la naturaleza de la variable y de la escala en que sta ha sido medida, y en donde P = {P1,P2,.. Pi,...Pn} se refiere a las probabilidades de que X tome precisamente esos valores: X P i {1,2,.., i,..n} 0 Pi 1 A 0,071651

Pi = 1
i

Excel cuenta con un mecanismo para la generacin de variables aleatorias cuya distribucin se especifica de esta forma, supongamos que queremos generar muestras de la variable X definida de la forma siguiente: X = {A, B, C,...., O, P} con probabilidades {0.0071651,...,0.031153} (vese la tabla) Lo primero que debemos tener en cuenta es que Excel no admite valores no numricos en el dominio de X de manera que ser necesario sustituirlos por los enteros naturales, hecho esto invocamos el mdulo 4 de Generacin de v.a. en la forma: Herramientas + Anlisis de Datos + Generacin de nmeros aleatorios". Hecho esto obtendremos un formulario en el que deberemos elegir la opcin adecuada, en este caso la opcin Discreta.

B C D E F G H I J K L M N O P

0,077882 0,077882 0,077882 0,062305 0,062305 0,062305 0,062305 0,062305 0,130841 0,031153 0,031153 0,034268 0,093458 0,031153 0,031153

Esta opcin est "caracterizada por un valor y el rango de probabilidades asociado. El rango debe contener dos columnas. La columna izquierda deber contener valores y la derecha probabilidades asociadas con el valor de esa fila. La suma de las probabilidades deber ser 1".

La "cumplimentacin" del formulario podra ser como la descrita en esta pgina. Una vez obtenidos los valores, bastara con utilizar las funciones de Excel para recuperar los valores reales de la variable a partir de los cdigos numricos obtenidos.

Para su uso es necesario haber habilitado previamente el mdulo de "Anlisis de Datos"

Proyecto e-Math Financiado por la Secretara de Estado de Educacin y Universidades (MECD)

14

Variables aleatorias discretas


Este mtodo tiene la ventaja de ser inmediato y requerir relativamente poco esfuerzo al usuario, sin embargo presenta desventajas, la fundamental derivada del hecho de que la obtencin de la muestra no est integrada en la hoja de trabajo. No menos importante que esta es el hecho de que slo hay posibilidad de generar un pequeo nmero de variables aleatorias. Una alternativa a este mtodo se basa en el empleo de las frmulas matriciales, mecanismo de extraordinaria potencia, que faculta al usuario (avanzado) de Excel para realizar potentes clculos que no han de plasmarse forzosamente en celda alguna sino que permanecen en memoria hasta que necesitamos de sus resultados. Antes de ello es conveniente recordar las prestaciones de una de las funciones de librera de Excel menos conocida, nos referimos a la funcin PROBABILIDAD, funcin que usada convenientemente nos proporciona la distribucin de frecuencias acumuladas de una variable a partir de su distribucin de frecuencias relativas. Supongamos el ejemplo anterior con una distribucin de probabilidad definida sobre la variable X de la forma {P1,P2,.. Pi,...Pn} tal como aparece en la tabla, asignemos en primer lugar el nombre P al vector (columna) de las probabilidades:
X A B C D E F G H I J K L M N O P P 0,071651 0,077882 0,077882 0,077882 0,062305 0,062305 0,062305 0,062305 0,062305 0,130841 0,031153 0,031153 0,034268 0,093458 0,031153 0,031153

Por comodidad asignemos tambin el nombre U a la frmula simple =ALEATORIO(), y notemos que al asignar al nombre Sec la frmula =FILA(INDIRECTO("A1:A"& FILAS(P))) acabamos de crear un vector (columna) que contiene los n primeros nmeros naturales siendo n la longitud de nuestro vector de probabilidades.

Proyecto e-Math Financiado por la Secretara de Estado de Educacin y Universidades (MECD)

15

Variables aleatorias discretas


Pues bien, la frmula =1-PROBABILIDAD(Sec;P;Xi;FILAS(P)) nos proporciona, la probabilidad de que se produzca un suceso x<Xi, por lo que al asignar al nombre Gen la frmula matricial: ={COINCIDIR (U;1-PROBABILIDAD(Sec;P;Xi;FILAS(P));1)} obtendremos un valor del vector X= {X1,X2,.. Xi,...Xn} distribuido segun P = {P1,P2,.. Pi,...Pn}, y si la verdadera naturaleza de la variable (que recordamos hemos codificado de forma numrica) se encuentra en el vector Nom, la frmula ={INDICE(Nom;+COINCIDIR (U;1-PROBABILIDAD(Sec;P;Xi;FILAS(P));1)1)} proporcionar, cada vez que sea invocada en una celda, un valor de NomX distribuido segn P. El libro UniDisc.xls contiene una hoja en la que aparecen estos clculos, su aspecto es el siguiente:
Nom X A B C D E F G H I J K L M N O P 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 P 0,071651 0,077882 0,077882 0,077882 0,062305 0,062305 0,062305 0,062305 0,062305 0,130841 0,031153 0,031153 0,034268 0,093458 0,031153 0,031153 Sec PRO Xgen Ngen 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 0,00 0,07 0,15 0,23 0,31 0,37 0,43 0,49 0,55 0,62 0,75 0,78 0,81 0,84 0,94 0,97 13 4 6 10 4 7 2 9 8 7 2 6 1 5 3 10 3 7 16 4 3 6 10 4 M D F J D G B I H G B F A E C J C G P D C F J D PRO = 1-PROBABILIDAD(Sec;P;E#;FILAS(P)) Xgen = COINCIDIR(U;1-PROBABILIDAD(Sec;P;Sec;FILAS(P));1) Ngen = INDICE(Nom;Xgen)

Tambin contiene una hoja que permite la generacin de una variable aleatoria especificada por el usuario. En la parte superior aparecen los controles que permiten indicar el nmero de puntos que tendr la variable y el tamao de la muestra que se desea generar.
Puntos 16 321 Tamao 215

Una vez elegidos los puntos de la variable el usuario puede introducir los valores de P, bien directamente, bien a travs de pesos asociados a los diferentes puntos.

Proyecto e-Math Financiado por la Secretara de Estado de Educacin y Universidades (MECD)

16

Variables aleatorias discretas

El resultado final incluye: la distribucin de frecuencias tericas inducida por los pesos elegidos por el usuario , Prob F(x), las frecuencias absolutas empricas (Em) y terica (Te), el resultado de la prueba de bondad del ajuste y un grfico de la distribucin de la muestra generada, los propios valores que componen la muestra generada tanto en trminos de los valores numricos como de los rtulos a stos asociados.
FRMULA Puntos 16 321 Rtulos A B C D E F G H I J K L M N O P Tamao 215

Media 6,79 Varianza 23,37 Moda C Ajuste ( 2) 0,1049 30 C A 20 D 15 B 10 E F

(6,7)

Em Te X Pesos Prob F(x) 0 23 0,07165 0,00000 21 15,40 1 25 0,07788 0,07165 12 16,74 2 25 0,07788 0,14953 25 16,74 3 25 0,07788 0,22741 17 16,74 4 20 0,06231 0,30530 15 13,40 5 20 0,06231 0,36760 11 13,40 6 20 0,06231 0,42991 8 13,40 7 20 0,06231 0,49221 8 13,40 8 20 0,06231 0,55452 8 13,40 9 42 0,13084 0,61682 21 28,13 10 10 0,03115 0,74766 10 6,70 11 10 0,03115 0,77882 7 6,70 12 11 0,03427 0,80997 8 7,37 13 30 0,09346 0,84424 24 20,09 14 10 0,03115 0,93769 10 6,70 15 10 0,03115 0,96885 10 6,70 12 10 10 10 10 10 10 10 10 57

25

N J

K G H I L M

O P

Muestra 12 M 5 F 9 J 14 O 10 K 3 D 5 F 6 G 3 D 6 G 5 F 13 N 13 N 7 H 9 J 9 J 13 N 1 B 4 E 5 F 5 F 1 B

Proyecto e-Math Financiado por la Secretara de Estado de Educacin y Universidades (MECD)

17

Variables aleatorias discretas


El procedimiento genrico expuesto en este apndice es el aplicado para la obtencin de muestras aleatorias de una variable hipergeomtrica. Para ello hemos sustituido el vector P, anteriormente definido por el usuario, por la distribucin de probabilidad calculada por Excel para los valores de los parmetros introducidos por el usuario. La frmula es algo ms complicada pero su justificacin es anloga a la descrita anteriormente: {=COINCIDIR(ALEATORIO();
1-PROBABILIDAD(FILA(INDIRECTO("A1:A"&n+1))-1; DISTR.HIPERGEOMFILA(INDIRECTO("A1:A"&n+1))-1;n;N;M) FILA(INDIRECTO("A1:A"&n+1))-1;n+1);1) -1)}

Proyecto e-Math Financiado por la Secretara de Estado de Educacin y Universidades (MECD)

18

Variables aleatorias discretas

Anexo 3 Procedimiento genrico de estimacin de parmetros.


El procedimiento estndar para la caracterizacin de cualquier variable, es decir para la estimacin de los parmetros de la distribucin a partir de una muestra aleatoria de sta, se hace habitualmente por el mtodo de mxima verosimilitud. La literatura est repleta de referencias a este mtodo, su aplicacin es muchas veces inmediata. La estimacin del parmetro de una distribucin de Poisson es, simplemente:

= x (n)
Sin embargo, la caracterizacin no es siempre una tarea tan sencilla. Consideremos por ejemplo el problema de la estimacin mximo verosmil de los parmetros n y p de una distribucin binomial de la que slo contamos con una muestra aleatoria de tamao N. La teora [6] nos dice que las estimaciones de ambos parmetros son aquellos valores que maximizan la funcin: M g(n,p) = fk Ln(n k + 1) + [N n Ln(1 p)] + k =1

1 N X (N)Ln 1 p

siendo M = max {1 i N} X i y fk (k = 0,1,...M) el nmero de observaciones de la muestra que son menores o iguales que k y sometido a la restriccin de que t {M, M+1, M+2,.....} lo cual dificulta enormemente el clculo de g(n,p).

Sin embargo un procedimiento para aproximar los valores de n y p puede consistir, simplemente, en elegir aquellos valores que minimicen (o maximicen) un determinado criterio. Por ejemplo, elegir los valores n,p que hagan mnima la discrepancia entre las frecuencias absolutas de la muestra y las que cabra esperar bajo la combinacin de parmetros elegida, es decir: , p = min n con :
,p Dn 0 < p <1 i n{M,M +1,..} ,p = NE Nn i i

NiE Nin,p

= Las frecuencias absolutas para i {0,1,2,..M} en la muestra, = Las frecuencias absolutas deducidas de la binomial de parmetros n,p es decir:
,p Nn = i 1 X X j p (1 p) j=i

j=0

En principio parecera lgico aprovechar las ventajas de Excel y elegir un criterio del tipo: , p = min n
,p Dn i

0 < p <1 n{M,M +1,..}

(N

E i

,p Nn i

,p Nn i

es decir elegir el par n,p que minimice la discrepancia en el sentido de la prueba 2, sin embargo, el hecho de que Excel devuelva #NAs cuando algn Nin,p es nulo hace complicada la ejecucin de este criterio. El fichero Binomial.xls contiene una segunda hoja en la que se ha implementado el procedimiento de estimacin anterior. La hoja contiene una tabla en la en las filas se ha discretizado el dominio de p en intervalos de longitud 0,025 y las columnas corresponden a los primeros valores de la secuencia {M, M+1, M+2,.....} siendo M = max {1i N} X i . En cada celda, correspondiente al valor de la discrepancia para el valor candidato de p (filas) y el valor candidato de n (columnas), se calcula la discrepancia:
,p ,p Dn = NE Nn i i i

Proyecto e-Math Financiado por la Secretara de Estado de Educacin y Universidades (MECD)

19

Variables aleatorias discretas


utilizando la frmula matricial siguiente: MAX(ABS(DISTR.BINOM(Sec;n;p;0)-FRECUENCIA(D;M)/CONTAR(D))) habindose definido previamente los nombres: D M Sec = INDIRECTO(Datos a ajustar) = FILA(INDIRECTO("A1:A"&MAX(D)+1))-1 = FILA(INDIRECTO("A1:A"&FILAS(M)+1))-1
110% de la mnima discrepancia
0,101 0,000 0,025 0,050 0,075 0,100 0,125 0,150 0,175 0,200 0,225 0,250 0,275 0,300 0,325 0,350 0,375 16 1,000 0,667 0,440 0,287 0,185 0,118 0,092 0,121 0,139 0,150 0,157 0,161 0,163 0,165 0,166 0,166 17 1,000 0,650 0,418 0,266 0,167 0,103 0,104 0,129 0,144 0,154 0,159 0,162 0,164 0,165 0,166 0,166 18 1,000 0,634 0,397 0,246 0,150 0,090 0,113 0,135 0,149 0,156 0,161 0,164 0,165 0,166 0,166 0,166 19 1,000 0,618 0,377 0,227 0,135 0,088 0,121 0,141 0,152 0,159 0,162 0,164 0,166 0,166 0,166 0,167 20 1,000 0,603 0,358 0,210 0,122 0,097 0,128 0,145 0,155 0,161 0,163 0,165 0,166 0,166 0,166 0,167

Valores candidatos de n (n =20)


21 1,000 0,588 0,341 0,195 0,109 0,106 0,134 0,149 0,157 0,162 0,164 0,165 0,166 0,166 0,167 0,167 22 1,000 0,573 0,324 0,180 0,098 0,114 0,139 0,152 0,159 0,163 0,165 0,166 0,166 0,166 0,167 0,167 23 1,000 0,559 0,307 0,166 0,089 0,120 0,143 0,155 0,161 0,164 0,165 0,166 0,166 0,167 0,167 0,167 24 1,000 0,545 0,292 0,154 0,087 0,126 0,146 0,157 0,162 0,164 0,166 0,166 0,166 0,167 0,167 0,167 25 1,000 0,531 0,277 0,142 0,095 0,131 0,149 0,159 0,163 0,165 0,166 0,166 0,167 0,167 0,167 0,167 26 1,000 0,518 0,264 0,132 0,102 0,136 0,152 0,160 0,164 0,165 0,166 0,166 0,167 0,167 0,167 0,167

Valores candidatos de p (p=0,300)

Discrepancia calculada para p=0,300 y n =20

Mediante formato condicional se indican los pares de valores n,p que son menores al 110% de la mnima discrepancia encontrada, en este caso (la figura muestra slo una parte de la hoja) los valores candidatos seran {(n=16;p=0,15) ; (18n=20;p=0,125) ; (22n=25;p=0,100); .....}.
0,101 0,000 0,025 0,050 0,075 0,100 0,125 0,150 0,175 0,200 0,225 0,250 0,275 0,300 0,325 0,350 0,375 16 1,000 0,667 0,440 0,287 0,185 0,118 0,092 0,121 0,139 0,150 0,157 0,161 0,163 0,165 0,166 0,166 17 1,000 0,650 0,418 0,266 0,167 0,103 0,104 0,129 0,144 0,154 0,159 0,162 0,164 0,165 0,166 0,166 18 1,000 0,634 0,397 0,246 0,150 0,090 0,113 0,135 0,149 0,156 0,161 0,164 0,165 0,166 0,166 0,166 19 1,000 0,618 0,377 0,227 0,135 0,088 0,121 0,141 0,152 0,159 0,162 0,164 0,166 0,166 0,166 0,167 20 1,000 0,603 0,358 0,210 0,122 0,097 0,128 0,145 0,155 0,161 0,163 0,165 0,166 0,166 0,166 0,167 21 1,000 0,588 0,341 0,195 0,109 0,106 0,134 0,149 0,157 0,162 0,164 0,165 0,166 0,166 0,167 0,167 22 1,000 0,573 0,324 0,180 0,098 0,114 0,139 0,152 0,159 0,163 0,165 0,166 0,166 0,166 0,167 0,167 23 1,000 0,559 0,307 0,166 0,089 0,120 0,143 0,155 0,161 0,164 0,165 0,166 0,166 0,167 0,167 0,167 24 1,000 0,545 0,292 0,154 0,087 0,126 0,146 0,157 0,162 0,164 0,166 0,166 0,166 0,167 0,167 0,167 25 26 Discrepancia<110% mnima 1,000 1,000 0,531 0,518 0,277 0,264 0,142 0,132 0,095 0,102 0,131 0,136 0,149 0,152 0,159 0,160 0,163 0,164 0,165 0,165 0,166 0,166 0,166 0,166 0,167 0,167 0,167 0,167 0,167 0,167 0,167 0,167

Pares candidatos

Proyecto e-Math Financiado por la Secretara de Estado de Educacin y Universidades (MECD)

20

Variables aleatorias discretas

BIBLIOGRAFA
[1]. [2]. [3]. [4]. [5]. [6]. [7]. [8]. [9]. [10]. [11]. [12]. [13]. [14]. [15]. [16]. Bennet B.S "Simulation Fundamentals", Prentice Hall (1995). Bratley, P., Fox, B. y Schrage, L. "A Guide to Simulation", Springer. (1987) Fishman, G.S. "Monte Carlo: Concepts, Algorithms and Applications", Springer (3rd ed.) (1999). Gordon G. "System Simulation" Editorial Prentice-Hall (1978). Kleijnen, J. y Van Groenendaal, W. "Simulation: A Statistical Perspective", Wiley(1992). Law A. M., W. D. Kelton "Simulation Modeling & Analysis" Ed. McGraw-Hill (1984). MacDougall M.H."Simulating Computer Systems Techniques and Tools" MIT Press (1987). Motwani y Ragharan "Randomized Algorithms", Cambridge U.P (1995). Neelamkavil, F. "Computer Simulation and Modelling", Wiley (1988). P. Bratley, B. L. Fox, L. E. Schrage "A Guide to Simulation" Springer-Verlag (1987). Raj Jain "The Art of Computer Systems Performance Analysis" Ed. Wiley (1991). Ros Insua et al. "Simulacin mtodos y aplicaciones" Ed. Ra-Ma, Madrid (1997) Ripley, B. "Stochastic Simulation", Wiley (1987). Ross, S. "A Course in Simulation", MacMillan (1990). Thompson, J.R. "Simulation: A modelers Approach". John Wiley, 2000. Ziegler, B. "Theory of Modelling and Simulation", Wiley (1976).

Proyecto e-Math Financiado por la Secretara de Estado de Educacin y Universidades (MECD)

21

Actividad 1: Estadstica descriptiva + distribucin binomial

ACTIVIDAD 1: Estadstica descriptiva + distribucin binomial


CASO 1-1: EVALUACIN DE UNA CLASE______________________________
Supongamos que trabajas como profesor en una universidad y te encuentras al final de un semestre acadmico. En el archivo notas.mtw has guardado las calificaciones obtenidas por cada uno de tus estudiantes en cada una de las tres pruebas que stos han realizado. 1. Calcular la nota media y la mediana obtenida por cada estudiante en el conjunto de las tres pruebas: Seleccionamos Calc > Row Statistics:

A continuacin, para hallar la media por filas, rellenamos los campos como sigue:

A1 - 1

Estadstica Aplicada con Minitab Para hallar la mediana por filas, se procede de forma anloga con la opcin Median de la ventana anterior (guardaremos los resultados en la columna C7). El output resultante ser:

Data Display
Row 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 2. Apellido Arnau Bentez Boyer Dez Duart Garca Gmez Gutierrez Lpez Lucas Mndez Morales Murcia Neruda Nez Prez Rojas Ruprez Sez Snchez Segura Sol Trrega Toms Nombre Juan Melisa Mar Joaqun Jos Andrs Juan Jenifer Antonio Toms Guillermo Esteban Brbara Amalia Inma Ricardo Luis Alberto Nria Miguel Carlos Isabel Francisco Josefa Media 8,60000 8,93333 6,93333 6,93333 5,00000 7,40000 9,66667 9,40000 7,03333 7,63333 5,70000 9,40000 9,26667 8,36667 8,40000 9,23333 7,83333 8,03333 7,13333 8,53333 9,70000 5,26667 6,76667 7,40000 Mediana 9,3 8,6 5,9 6,9 4,8 7,8 9,8 9,2 7,1 6,8 4,9 9,4 9,5 8,1 9,0 10,0 7,9 7,9 7,9 8,1 9,7 5,1 6,0 8,8

Hallar el valor medio o esperado de la nota asociada al Test 1: Seleccionamos Calc > Column Statistics Rellenamos los campos como se muestra en la siguiente imagen, guardando el resultado en la constante K1, cuyo valor se muestra en el output del programa:

Column Mean
Mean of Test1 = 8,0000 A1 - 2

Actividad 1: Estadstica descriptiva + distribucin binomial

CASO 1-2: COMPARACIN DE SALARIOS______________________________


El archivo salarios.mtw contiene los salarios anuales (en ) de los 11 trabajadores del departamento de finanzas de una empresa, as como otra informacin relevante asociada (nmero de aos que lleva cada trabajador en la empresa, experiencia previa, aos de formacin superior, edad, n identificativo, y sexo). 1. Construir un histograma a partir de la variable que contiene los sueldos. Seleccionamos Graph > Histogram y completamos los campos como sigue:

HISTOGRAMA DE SUELDOS
3

Frecuencia

0 25000 27500 30000 32500 35000 37500 40000 42500

Sueldos
Observar que hay un salto bastante grande entre los 4 trabajadores mejor pagados y el resto.

A1 - 3

Estadstica Aplicada con Minitab 2. Construir dos histogramas, uno por cada sexo, de la variable sueldos, comentando el resultado. Seleccionamos Graph > Histogram y completamos los campos como sigue:

HISTOGRAMA SUELDOS MUJERES


2

Frecuencia

0 25000 27500 30000 32500 35000 37500 40000 42500

Sueldos M

HISTOGRAMA SUELDOS HOMBRES


2

Frecuencia

0 25000 27500 30000 32500 35000 37500 40000 42500

Sueldos H

Parece observarse que los sueldos de los hombres tienden a ser mas altos que los de las mujeres. A1 - 4

Actividad 1: Estadstica descriptiva + distribucin binomial 3. Representar la variable sueldos mediante una grfico de cajas (Boxplot). Hacer lo mismo para cada sexo y comentar los resultados. Seleccionamos Graph > Boxplot y completamos los campos como sigue:

BOXPLOT PARA SUELDOS

40000

Sueldos

35000

30000

25000

El grfico anterior nos proporciona de forma visual bastante informacin. Por ejemplo, nos dice que la mitad de los sueldos del departamento estn comprendidos, aproximadamente, en el intervalo (29.000, 39.000), y tambin que la mitad de los salarios se sitan por debajo de 33.000 .

A1 - 5

Estadstica Aplicada con Minitab

Seleccionamos Graph > Boxplot y completamos los campos como sigue:

BOXPLOT SUELDOS POR SEXO

40000

Sueldos

35000

30000

25000 0=H 1=M

Sexo N

Se aprecia en este ltimo grfico que la mediana asociada a los sueldos de los hombres es mayor que la asociada a los sueldos de las mujeres en unos 7.000 . Es importante hacer notar aqu que, si bien parece haber indicios de diferencias entre los sueldos segn sexo, no se puede concluir nada en firme. Para ello sera necesario recurrir a tcnicas ms avanzadas, como la regresin lineal mltiple, que nos proporcionasen resultados estadsticamente significativos. A1 - 6

Actividad 1: Estadstica descriptiva + distribucin binomial

CASO 1-3: ANLISIS NUTRITIVO______________________________________


Pretendemos ahora realizar un anlisis descriptivo sobre las propiedades nutritivas de 14 marcas diferentes de yogures. Para cada marca se ha evaluado su calidad nutritiva, el coste de cada unidad, y el nmero de caloras. Los datos se encuentran guardados en el archivo Yogurt.mtw . A la hora de decidirnos por una determinada marca de yogurt, nos interesar escoger una que proporcione suficientes caloras a un precio razonable. En principio, podramos pensar en escoger una marca cuyo precio se encuentre por debajo de la media. 1. Hallar los estadsticos descriptivos asociados a las variables coste y caloras. Seleccionar Stat > Basic Statistics > Display Descriptive Statistics:

Los resultados se muestran a continuacin:

Current worksheet: Yogurt.mtw Descriptive Statistics


Variable Coste en Caloras Variable Coste en Caloras N 14 14 Minimum 0,07000 90,0 Mean 0,09357 170,9 Maximum 0,12000 253,0 Median 0,09000 175,0 Q1 0,07750 100,0 TrMean 0,09333 170,8 Q3 0,11000 240,0 StDev 0,01692 65,0 SE Mean 0,00452 17,4

A1 - 7

Estadstica Aplicada con Minitab 2. Hallar, para cada nivel de calificacin nutritiva, los estadsticos descriptivos asociados a las variables coste y caloras. Comentar los resultados. Seleccionar Stat > Basic Statistics > Display Descriptive Statistics:

Descriptive Statistics
Variable Coste en Califica Buena Excelent Muy buen Pobre Suficien Buena Excelent Muy buen Pobre Suficien Califica Buena Excelent Muy buen Pobre Suficien Buena Excelent Muy buen Pobre Suficien N 4 3 2 2 3 4 3 2 2 3 SE Mean 0,00645 0,0133 0,00000 0,0250 0,0115 37,5 6,67 0,00 6,50 16,7 Mean 0,09500 0,0967 0,09000 0,0950 0,0900 185,0 113,33 100,00 246,50 206,7 Minimum 0,08000 0,0700 0,09000 0,0700 0,0700 90,0 100,00 100,00 240,00 190,0 Median 0,09500 0,1100 0,09000 0,0950 0,0900 200,0 120,00 100,00 246,50 190,0 Maximum 0,11000 0,1100 0,09000 0,1200 0,1100 250,0 120,00 100,00 253,00 240,0 TrMean 0,09500 0,0967 0,09000 0,0950 0,0900 185,0 113,33 100,00 246,50 206,7 Q1 0,08250 0,0700 * * 0,0700 107,5 100,00 * * 190,0 StDev 0,01291 0,0231 0,00000 0,0354 0,0200 75,1 11,55 0,00 9,19 28,9 Q3 0,10750 0,1100 * * 0,1100 247,5 120,00 * * 240,0

Caloras

Variable Coste en

Caloras

Observamos que las marcas calificadas nutricionalmente como pobres tienen un coste medio de 0,095 , lo cual resulta superior a lo que deseamos gastar, por tanto las descartaremos. Se aprecia tambin como aquellas marcas con una mejor calificacin nutricional tienden a tener un menor nmero de caloras. A1 - 8

Actividad 1: Estadstica descriptiva + distribucin binomial 3. Crear una tabla de frecuencias y porcentajes para la variable calificacin nutritiva. Sacar conclusiones. Seleccionar Stat > Tables > Tally :

Summary Statistics for Discrete Variables


Califica Buena Excelent Muy buen Pobre Suficien N= Count CumCnt 4 4 3 7 2 9 2 11 3 14 14 Percent CumPct 28,57 28,57 21,43 50,00 14,29 64,29 14,29 78,57 21,43 100,00

Comprobamos que el 64% de las marcas fueron calificadas como buenas, muy buenas, o excelentes en trminos de valores nutritivos. Aunque el coste de los yogures vara entre 0,07 y 0,12 , la mitad de las marcas estn por debajo de los 0,09 . A la hora de seleccionar una de ellas, nos quedaramos probablemente con la marca n 8, dado que est considerado como excelente, cuesta 0,07 por unidad y, adems, el nmero de caloras que aporta (100) es inferior a la media (107,9).

A1 - 9

Estadstica Aplicada con Minitab

CASO 1-4: TIPOS DE SANGRE________________________________________


Supongamos que trabajas como estadstico voluntario para la Cruz Roja. El coordinador del centro te ha comentado que las reservas de sangre tipo O se estn acabando y que, en base a su experiencia, estima que necesitaris unas 10 o 12 nuevas bolsas se sangre tipo O para poder cubrir las necesidades de la prxima semana. Adems, te informa de que dispone de 25 potenciales donantes (los cuales no mantienen ninguna relacin de parentesco entre ellos), y te pregunta si sern suficientes o si, por el contrario, debera seguir buscando ms donantes. Viendo el historial clnico de tu centro, compruebas que 45 de cada 100 donantes tienen sangre del tipo buscado, por lo que la probabilidad de que al elegir un donante al azar ste tenga sangre de tipo O es de 0,45. As pues, si denotamos por X al nmero de donantes ya disponibles que tienen sangre de tipo O, tendremos que X seguir una distribucin binomial con n = 25 pruebas y probabilidad de xito p = 0,45. 1. Para k = 0, 1, 2, , 25 hallar la probabilidad de que X valga k, i.e., hallar P(X = k). En primer lugar, generaremos una columna que contenga los nmeros 1, 2, , 25. Para ello seleccionamos Calc > Make Patterned Data > Simple Set of Numbers :

A continuacin pulsamos Calc > Probability Distributions > Binomial :

A1 - 10

Actividad 1: Estadstica descriptiva + distribucin binomial Obtendremos el output que aparece a continuacin, el cual nos proporciona la probabilidad de que la variable aleatoria X tome cada uno de los valores posibles. As, p.e., la probabilidad de que exactamente 11 de entre los 25 donantes tengan clase de tipo O ser de 0,1583:

Data Display
Row 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 2. k 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 P(X=k) 0,000007 0,000065 0,000407 0,001830 0,006290 0,017155 0,038097 0,070133 0,108387 0,141889 0,158306 0,151110 0,123636 0,086705 0,052023 0,026603 0,011523 0,004190 0,001263 0,000310 0,000060 0,000009 0,000001 0,000000 0,000000

Estudiar, mediante un histograma, qu valores son los ms probables: Seleccionamos Graph > Plot :

A1 - 11

Estadstica Aplicada con Minitab

Nube de puntos de probabilidad vs. n de sucesos


0,15

P(X=k)

0,10

0,05

0,00 0 5 10 15 20 25

k
En el grfico anterior se aprecia claramente que los valores ms probables son: X = 9, X = 10, X = 11, X = 12 y X = 13.

3. Para k = 0, 1, 2, , 25 hallar la probabilidad de que X valga a lo sumo k, i.e.: P(X <= k). Cul es la probabilidad de que entre los 25 donantes haya al menos 12 que tengan sangre de tipo O? Pulsamos Calc > Probability Distributions > Binomial :

A1 - 12

Actividad 1: Estadstica descriptiva + distribucin binomial

Data Display
Row 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 k 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 P(X=k) 0,000007 0,000065 0,000407 0,001830 0,006290 0,017155 0,038097 0,070133 0,108387 0,141889 0,158306 0,151110 0,123636 0,086705 0,052023 0,026603 0,011523 0,004190 0,001263 0,000310 0,000060 0,000009 0,000001 0,000000 0,000000 P(X<=k) 0,00001 0,00007 0,00048 0,00231 0,00860 0,02575 0,06385 0,13398 0,24237 0,38426 0,54257 0,69368 0,81731 0,90402 0,95604 0,98264 0,99417 0,99836 0,99962 0,99993 0,99999 1,00000 1,00000 1,00000 1,00000

A partir de este ltimo output podemos conocer la probabilidad de que el nmero de donantes con sangre tipo O sea menor o igual que un determinado n. As, la probabilidad de que el nmero de donantes con sangre tipo O sea igual o menor a 11 es de 0,5426. Veamos, finalmente, cmo calcular la probabilidad de que al menos 12 de los 25 donantes tengan sangre tipo O, i.e., P(X >= 12). Para hallar esta probabilidad, usaremos la siguiente propiedad: la probabilidad de un suceso ms la de su opuesto es igual a 1, o dicho de otra forma: dado un suceso A de probabilidad P(A), la probabilidad de que ste no ocurra ser 1 P(A) . Por tanto, P(X >= 12) = 1 P(X < 12) = 1 P(X <= 11) = 1 0,5426 = 0,4574. Esto nos dice que, en las condiciones actuales, la probabilidad de que consigamos cubrir con xito las necesidades de la prxima semana por lo que a sangre de tipo O se refiere ser del orden de 0,46. Conclusin: nuestro coordinador deber seguir buscando nuevos donantes. Siguiendo un razonamiento anlogo al anterior podis comprobar que con 35 donantes la probabilidad de que cubramos nuestras necesidades de sangre tipo O, i.e.: P(X >= 12), ser de 0,93, valor que ya es bastante aceptable, pues significa que en 93 (aproximadamente) de cada 100 veces que estemos en una situacin como sta, lograremos disponer de las bolsas necesarias.

A1 - 13

Actividad 2: La distribucin Normal

ACTIVIDAD 2: La distribucin Normal


CASO 2-1: CLASE DE BIOLOGA______________________________________
El Dr. Saig es profesor de Biologa en una prestigiosa universidad. Est preparando una clase en la que pretende mostrar con ejemplos el hecho de que la distribucin normal es muy til a la hora de describir el comportamiento de muchas variables fisiolgicas de los seres vivos. As, p.e., se sospecha que la longitud de una determinada planta sigue un comportamiento aproximadamente normal con media = 64 cm y desviacin estndar = 3,1 cm. El Dr. Saig pretende comparar los resultados obtenidos en una prctica de campo, en la que sus alumnos midieron 60 plantas de la especie anterior, con una simulacin por ordenador realizada a partir de una normal. 1. Simular con Minitab la medicin de 60 plantas de la especie anterior. A fin de que todos obtengamos los mismos datos, usar como base para la generacin de datos aleatorios provenientes de una normal el nmero 333. Seleccionamos Calc > Set Base :

Ahora usamos la opcin Calc > Random Data > Normal :

A2 - 1

Estadstica Aplicada con Minitab Habremos generado 60 valores aleatorios procedentes de una distribucin normal con los parmetros indicados.

2.

Mostrar un resumen descriptivo y grfico (histograma + grfico de normalidad) de los datos obtenidos en el apartado anterior mediante simulacin. Seleccionar Stat > Basic Statistics > Display Descriptive Statistics > Graphs :

El programa nos dar el siguiente output:

Descriptive Statistics
Variable SIMULADO Variable SIMULADO N 60 Minimum 58,051 Mean 64,584 Maximum 70,316 Median 64,523 Q1 62,734 TrMean 64,635 Q3 66,640 StDev 2,931 SE Mean 0,378

Histogram of SIMULADOS, with Normal Curve


10

Frequency

0 60 65 70

SIMULADOS

A2 - 2

Actividad 2: La distribucin Normal

Ahora queremos un grfico de normalidad: Normality Test:

Stat

>

Basic

Statistics

>

Normal Probability Plot

,999 ,99 ,95

Probability

,80 ,50 ,20 ,05 ,01 ,001 60 65 70


Anderson-Darling Normality Test A-Squared: 0,236 P-Value: 0,780

SIMULADOS
Av erage: 64,5844 StDev : 2,93060 N: 60

Observar que los puntos se aproximan bastante a la lnea roja, lo cual era de esperar puesto que esto ocurrir siempre que los datos sean aproximables por una distribucin normal (y de hecho estos datos provienen de una normal).

A2 - 3

Estadstica Aplicada con Minitab 3. Hacer lo mismo que en el apartado 2 pero ahora con los datos obtenidos en el campo, los cuales se encuentran en el archivo campo.mtw . Qu podran concluir los alumnos del Dr. Saig?. Repitiendo los pasos anteriores con estos nuevos datos, obtendremos los siguientes resultados:

Descriptive Statistics
Variable Longitud Variable Longitud N 60 Minimum 57,200 Mean 65,357 Maximum 71,300 Median 66,000 Q1 62,425 TrMean 65,402 Q3 68,225 StDev 3,472 SE Mean 0,448

Histogram of Longitud, with Normal Curve


8 7 6

Frequency

5 4 3 2 1 0 60 65 70

Longitud

Normal Probability Plot

,999 ,99 ,95

Probability

,80 ,50 ,20 ,05 ,01 ,001 60 65 70


W-test f or Normality R: 0,9853 P-Value (approx): > 0,1000

Longitud
Av erage: 65,3567 StDev : 3,47155 N: 60

Si bien ahora los puntos se alejan ms que antes de la lnea roja, siguen estando lo suficientemente prximos a la misma como para que consideremos que se distribuyen de forma aproximadamente normal. Parece pues que los dos conjuntos de datos son bastante similares. A2 - 4

Actividad 2: La distribucin Normal

CASO 2-2: SALARIOS MEDIOS_______________________________________


Segn viene publicado en una prestigiosa revista de economa, el salario semanal medio de los profesores universitarios europeos es de 406,15 . Se estima adems que la desviacin estndar de dichos salarios es de 55,50 . Supongamos ahora que pretendemos tomar una muestra aleatoria de 100 profesores para estudiar sus salarios. Calcular las siguientes probabilidades referentes a la media de dicha muestra: 1. La probabilidad de que la media de la muestra sea menor de 400 . En primer lugar, observar lo siguiente: como n = 100 >> 30, por el Teorema Central del Lmite tendremos que la distribucin de las medias muestrales X se podr aproximar por una normal con media 406,15 y desviacin estndar 5,50. Hemos de hallar P ( X < 400) :

Seleccionamos: Calc > Probability Distributions > Normal :

Cumulative Distribution Function


Normal with mean = 406,150 and standard deviation = 5,55000 x 400,0000 P( X <= x) 0,1339

A2 - 5

Estadstica Aplicada con Minitab

2.

La probabilidad de que la media de la muestra est entre 400 y 410 . Sabemos que P (400 < X < 410) = P ( X < 410) P ( X < 400) probabilidades ya la hemos calculado en el apartado anterior. Para calcular la primera se razona anlogamente, obteniendo que: . La segunda de stas

Cumulative Distribution Function


Normal with mean = 406,150 and standard deviation = 5,55000 x 410,0000 P( X <= x) 0,7561

Por tanto, tendremos: P (400 < X < 410) = P ( X < 410) P ( X < 400) = 0,6222

3. La probabilidad de que la media de la muestra sea mayor de 415 . En este caso, P ( X > 415) = 1 P ( X < 415) . Hemos de calcular pues esta ltima probabilidad, lo cual haremos de forma anloga a los apartados anteriores. Obtendremos lo siguiente:

Cumulative Distribution Function


Normal with mean = 406,150 and standard deviation = 5,55000 x 415,0000 P( X <= x) 0,9446

Por consiguiente, P ( X > 415) = 1 P ( X < 415) = 0,0554

4. Hallar el valor del salario medio c tal que P ( X < c ) = 0,95 .

Seleccionamos nuevamente: Calc > Probability Distributions > Normal , pero ahora elegiremos la opcin Inverse Cumulative Probability , con lo que obtendremos :

Inverse Cumulative Distribution Function


Normal with mean = 406,150 and standard deviation = 5,55000 P( X <= x) 0,9500 x 415,2789

A2 - 6

Actividad 2: La distribucin Normal

CASO 2-3: APROXIMACIN NORMAL A UNA BINOMIAL__________________


Para muchas combinaciones de n y p es posible aproximar bastante bien una distribucin binomial B(n,p) mediante una distribucin normal de media = np y varianza 2 = np(1-p). Generalmente, esta aproximacin tiende a ser tanto mejor cuanto mayor es el nmero de pruebas n. 1. Introducir en la columna C1 de una hoja de trabajo los nmeros 0, 1, 2, ..., 16. En la columna C2 calcular P(X = 0), P(X = 1), ..., P(X = 16), siendo X una binomial de parmetros n = 16 y p = 0,5. Seleccionamos: Calc > Make Patterned Data > Simple Set of Numbers :

Ahora hacemos: Calc > Probability Distributions > Binomial :

A2 - 7

Estadstica Aplicada con Minitab El resultado ser el siguiente:

Data Display
Row 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 C1 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 C2 0,000015 0,000244 0,001831 0,008545 0,027771 0,066650 0,122192 0,174561 0,196381 0,174561 0,122192 0,066650 0,027771 0,008545 0,001831 0,000244 0,000015

2.

Introducir en la columna C3 el valor de la funcin de densidad de probabilidad (f.d.p.) asociada a los valores de la C1 para una distribucin normal que aproxime a la binomial anterior. Observar que: = n*p = 8 y 2 = n*p*(1-p) = 4 Hacemos: Calc > Probability Distributions > Normal :

A2 - 8

Actividad 2: La distribucin Normal 3. Dibujar un diagrama de barras con los datos de las columnas C1 (en eje x) y C2 (en eje y). Superpuesto a l, dibujad la funcin de densidad que se obtiene a partir de las columnas C1 (en eje x) y C3 (en eje y). Qu observas?. A fin de superponer ambos grficos, elegimos la opcin: Graph > Layout :

Seleccionamos: Graph > Chart :

Finalmente hacemos: Graph > Plot :

A2 - 9

Estadstica Aplicada con Minitab

Para representar los grficos superpuestos basta con hacer: Graph > End Layout :

Aproximacin normal a una binomial


0,2 binomial

C2 y C3

fdp normal 0,1

0,0 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16

C1

A partir del grfico anterior se comprende mejor el hecho de que podemos aproximar la probabilidad de que una variable binomial tome un determinado valor mediante la f.d.p. de una distribucin normal. As, p.e., podemos estimar P(X = 7) (rea en azul) por P(6,5 < X < 7,5) (rea comprendida entre la curva roja y ambos puntos). En el primer caso estamos considerando que la variable X es binomial, mientras que en el segundo consideramos que es normal (y por tanto hacemos uso de la aproximacin por continuidad, puesto que para cualquier variable continua la probabilidad puntual es cero).

A2 - 10

Actividad 3: Intervalos de Confianza para 1 poblacin

ACTIVIDAD 3: Intervalos de Confianza para 1 poblacin


CASO 3-1: REAJUSTE DE MQUINAS_________________________________
Trabajamos como supervisores de una mquina dedicada a la produccin de piezas metlicas cuya longitud sigue una distribucin normal con media = 75,20 mm y desviacin estndar = 0,5 mm. Tras realizar un reajuste en la mquina, sospechamos que habr cambiado mientras que la desviacin estndar de dicha variable no se habr visto alterada. A fin de estimar el nuevo valor de , hemos tomado una muestra aleatoria de unidades producidas y registrado su longitud. Los resultados son los siguientes: 75,3 76,0 75,0 77,0 75,4 76,3 77,0 74,9 76,5 75,8

1. Encontrar un estimador puntual para y hallar la mediana de las observaciones. En primer lugar, introducimos los datos anteriores en la columna C1. Parece lgico pensar que un buen estimador de la media poblacional ser la media muestral, la cual en este caso vale 75,92 mm: Seleccionamos Stat Statistics : > Basic Statistics > Display Descriptive

Descriptive Statistics
Variable Longitud Variable Longitud N 10 Minimum 74,900 Mean 75,920 Maximum 77,000 Median 75,900 Q1 75,225 TrMean 75,912 Q3 76,625 StDev 0,773 SE Mean 0,244

A3 - 1

Estadstica Aplicada con Minitab A pesar de que la media de las observaciones sea de 75,92 , este dato por s slo no es suficiente como para confirmar nuestras sospechas sobre si se ha producido un cambio en la longitud media. Tal discrepancia entre el valor estimado para la nueva (75,92) y el valor de la antigua (75,20) podra deberse a una simple casualidad en la eleccin de las muestras.

2. Hallar un intervalo de confianza del 99% para la media poblacional. Seleccionamos Stat > Basic Statistics > 1-Sample Z :

Z Confidence Intervals
The assumed sigma = 0,500 Variable Longitud N 10 Mean 75,920 StDev 0,773 SE Mean 0,158 ( 99,0 % CI 75,513; 76,327)

Observamos que hay una probabilidad del 0,99 de que la verdadera media poblacional se encuentre entre los valores 75,513 y 76,327. Este resultado s resulta muy significativo: el hecho de que casi con toda probabilidad la nueva media se encuentre entre los valores 75,513 y 76,327 corrobora (ahora s de forma bastante contundente) nuestras sospechas: la longitud media de las piezas ha variado (ya no es de 75,20 , sino que muy probablemente sea mayor).

A3 - 2

Actividad 3: Intervalos de Confianza para 1 poblacin

CASO 3-2: IRSE DE PESCA CON MINITAB______________________________


Sabemos que la longitud de un determinado pez sigue una distribucin normal de media 69 cm y desviacin estndar 3 cm. 1. Simular, con ayuda del Minitab, la captura y posterior medicin de 9 peces. Repetir esta simulacin hasta un total de 20 veces (con lo que habris pescado 180 peces). Seleccionamos Calc > Random Data > Normal :

Obtendris algo similar a lo que se muestra en la siguiente ventana (los nmeros no sern exactamente los mismos ya que el programa genera cada vez nuevos nmeros aleatorios):

A3 - 3

Estadstica Aplicada con Minitab

2. Para cada una de las 20 capturas, hallar el intervalo de confianza a nivel del 90% de la media poblacional . Cuntos de estos intervalos contienen el valor 69?. Seleccionamos Stat > Basic Statistics > 1-Sample Z :

Z Confidence Intervals
The assumed sigma = 3,00 Variable C1 C2 C3 C4 C5 C6 C7 C8 C9 C10 C11 C12 C13 C14 C15 C16 C17 C18 C19 C20 N 9 9 9 9 9 9 9 9 9 9 9 9 9 9 9 9 9 9 9 9 Mean 69,62 68,88 69,15 68,98 68,56 70,03 67,93 69,40 69,41 68,74 67,43 68,01 68,38 69,44 68,67 70,31 70,23 67,92 68,99 70,20 StDev 2,09 3,42 2,69 3,13 2,48 1,80 3,42 2,67 3,65 3,32 2,70 3,93 3,08 3,12 1,65 2,24 3,35 3,95 4,00 1,69 SE Mean 1,00 1,00 1,00 1,00 1,00 1,00 1,00 1,00 1,00 1,00 1,00 1,00 1,00 1,00 1,00 1,00 1,00 1,00 1,00 1,00 ( ( ( ( ( ( ( ( ( ( ( ( ( ( ( ( ( ( ( ( 90,0 % CI 67,98; 71,27) 67,24; 70,53) 67,51; 70,80) 67,34; 70,63) 66,92; 70,21) 68,38; 71,67) 66,28; 69,57) 67,76; 71,05) 67,77; 71,06) 67,10; 70,39) 65,78; 69,07) 66,36; 69,65) 66,73; 70,02) 67,80; 71,09) 67,02; 70,31) 68,67; 71,96) 68,58; 71,87) 66,27; 69,56) 67,34; 70,63) 68,56; 71,85)

En este caso, los 20 intervalos contienen el verdadero valor de la media = 69. Es de esperar que aproximadamente un 90% de los intervalos contengan dicho valor. Por tanto, para el caso de 20 intervalos, lo esperable es que aproximadamente 18 de ellos contengan el valor 69. Qu habis obtenido vosotros?.

A3 - 4

Actividad 3: Intervalos de Confianza para 1 poblacin 3. Repetid el punto anterior tomando ahora un intervalo de confianza del 95%. Son los intervalos resultantes ms amplios o son ms estrechos?. De forma anloga a la anterior, obtendris unos resultados similares a los siguientes:

Z Confidence Intervals
The assumed sigma = 3,00 Variable C1 C2 C3 C4 C5 C6 C7 C8 C9 C10 C11 C12 C13 C14 C15 C16 C17 C18 C19 C20 N 9 9 9 9 9 9 9 9 9 9 9 9 9 9 9 9 9 9 9 9 Mean 69,62 68,88 69,15 68,98 68,56 70,03 67,93 69,40 69,41 68,74 67,43 68,01 68,38 69,44 68,67 70,31 70,23 67,92 68,99 70,20 StDev 2,09 3,42 2,69 3,13 2,48 1,80 3,42 2,67 3,65 3,32 2,70 3,93 3,08 3,12 1,65 2,24 3,35 3,95 4,00 1,69 SE Mean 1,00 1,00 1,00 1,00 1,00 1,00 1,00 1,00 1,00 1,00 1,00 1,00 1,00 1,00 1,00 1,00 1,00 1,00 1,00 1,00 ( ( ( ( ( ( ( ( ( ( ( ( ( ( ( ( ( ( ( ( 95,0 % CI 67,66; 71,58) 66,92; 70,84) 67,19; 71,11) 67,02; 70,94) 66,60; 70,52) 68,07; 71,99) 65,97; 69,89) 67,44; 71,36) 67,45; 71,37) 66,78; 70,71) 65,47; 69,39) 66,05; 69,97) 66,42; 70,34) 67,48; 71,40) 66,71; 70,63) 68,35; 72,27) 68,27; 72,19) 65,96; 69,88) 67,03; 70,95) 68,24; 72,16)

En este caso, sera de esperar que aproximadamente el 95% de los intervalos contuviese el valor 69. En mi caso se da la circunstancia de que todos los intervalos lo contienen, lo cual era previsible dado que ya ocurra lo mismo en el punto anterior y que ahora los intervalos son algo ms amplios que los anteriores: si mantenemos el tamao muestral (n = 9 en este caso) constante, el aumentar el nivel de confianza (o probabilidad de que el intervalo contenga a la media) implica aumentar la amplitud del intervalo.

4.

Repetid los puntos 1 y 2, esta vez con n = 100 en lugar de n = 9. Qu ocurre con la amplitud de los intervalos?. Nuevamente, es de esperar que aproximadamente 18 intervalos (un 90% de los 20) contengan el valor 69. Observaris tambin que la amplitud de los intervalos ha disminuido considerablemente con respecto a la del punto 2. Ello es debido a que al aumentar el tamao muestral n de 9 a 100 disponemos de mucha ms informacin, por lo que podemos precisar mucho ms el intervalo en el cual se espera (con probabilidad 0,9) que est contenida la media.

A3 - 5

Estadstica Aplicada con Minitab

CASO 3-3: TEST DE INTELIGENCIA____________________________________


A continuacin se muestran los resultados de un test de inteligencia realizado a 53 alumnos escogidos al azar de entre los estudiantes de un centro de secundaria privado y elitista: 79 114 90 104 105 80 99 82 107 117 98 110 118 123 105 86 93 102 78 106 125 95 90 120 95 100 98 84 111 110 86 111 110 82 117 125 126 111 116 117 97 111 115 102 106 98 129 111 120 107 124 124 91

1. Comprobar si estos datos se distribuyen de forma aproximadamente normal. Seleccionamos Stat > Basic Statistics > Normality Test :

Test de Normalidad

,999 ,99 ,95

Probability

,80 ,50 ,20 ,05 ,01 ,001 80 90 100 110 120 130

C1
Av erage: 104,906 StDev : 13,8762 N: 53 Anderson-Darling Normality Test A-Squared: 0,445 P-Value: 0,274

A3 - 6

Actividad 3: Intervalos de Confianza para 1 poblacin

Se comprueba en el grfico anterior que, en efecto, podemos suponer que la distribucin de estos datos es aproximadamente normal ya que los puntos se aproximan bastante a la lnea roja (ms adelante veremos que tambin es posible llegar a tal conclusin a partir del p-valor que aparece en el margen inferior derecho de la grfica).

2. Hallar un intervalo de confianza a nivel del 93% para la media poblacional. Seleccionamos Stat > Basic Statistics > 1-Sample t :

Como se aprecia en el siguiente output, podemos afirmar que, con una probabilidad del 0,93, la media de las puntuaciones que obtendran los alumnos de dicho centro en el test de inteligencia anterior estara entre 101,38 y 108,43 puntos:

T Confidence Intervals
Variable C1 N 53 Mean 104,91 StDev 13,88 SE Mean 1,91 ( 93,0 % CI 101,38; 108,43)

A3 - 7

Estadstica Aplicada con Minitab

CASO 3-4: EL PESO MEDIO DE LAS ACEITUNAS________________________


Hemos seleccionado al azar 21 envases similares que contienen aceitunas de una determinada marca y lote. Despus de escurrir las aceitunas de cada bote, las hemos pesado, obteniendo los siguientes resultados (en gramos): 110 121 114 1. 105 108 112 115 116 116 122 118 120 120 109 117 118 109 114 112 120 116

Calcular la media y la desviacin estndar muestral. Estudiar si los datos se distribuyen de forma aproximadamente normal. De forma anloga a razonamientos anteriores, se obtiene el siguiente output:

Descriptive Statistics
Variable C1 Variable C1 N 21 Minimum 105,00 Mean 114,86 Maximum 122,00 Median 116,00 Q1 111,00 TrMean 115,00 Q3 119,00 StDev 4,75 SE Mean 1,04

Para determinar si los datos se distribuyen de forma aproximadamente normal, podemos optar por usar un histograma o bien por realizar un test de normalidad. En este caso el test de normalidad es bastante ms claro que el histograma a la hora de garantizar que es posible usar la hiptesis de normalidad:

Histogram of C1, with Normal Curve


4

Frequency

0 105 107 109 111 113 115 117 119 121 123

C1

A3 - 8

Actividad 3: Intervalos de Confianza para 1 poblacin

Test de Normalidad

,999 ,99 ,95

Probability

,80 ,50 ,20 ,05 ,01 ,001 105 110 115 120
Anderson-Darling Normality Test A-Squared: 0,310 P-Value: 0,527

C1
Av erage: 114,857 StDev : 4,74643 N: 21

2.

Suponiendo que el peso de las aceitunas de cada envase del lote es una variable que se distribuyen de forma aproximadamente normal, construir un intervalo de confianza al nivel del 98% para estimar el peso medio de las aceitunas contenidas en cada bote. Siguiendo los pasos descritos en el problema anterior, llegaremos al siguiente output, donde se aprecia que el intervalo de confianza para al nivel deseado es (112,24 , 117,48) :

T Confidence Intervals
Variable C1 N 21 Mean 114,86 StDev 4,75 SE Mean 1,04 ( 98,0 % CI 112,24; 117,48)

A3 - 9

Actividad 4: IC y Contraste de Hiptesis (1 y 2 poblac.)

ACTIVIDAD 4: IC y Contraste de Hiptesis (1 y 2 poblac.)


CASO 4-1: LMINAS DE ALUMINIO____________________________________
Sabemos que una determinada mquina produce lminas de aluminio cuya longitud sigue una distribucin aproximadamente normal, cuya media debera ser de 40 cm y cuya desviacin tpica es de 0,4 cm. A fin de comprobar si la mquina funciona correctamente, el operario encargado de la misma toma, de forma peridica, muestras compuestas por 5 lminas cada una. La ltima de dichas muestras ha proporcionado los siguientes datos en cuanto a longitudes (en cm.) de las lminas: 40,1 39,2 39,4 39,8 39,0

La media de esta muestra es de 39,5 cm., valor que difiere de la media ideal. Es esta diferencia estadsticamente significativa?, es decir: se debe esta diferencia a fluctuaciones aleatorias o por el contrario debemos concluir que la mquina est funcionando mal? 1. Realizar un contraste de hiptesis para un nivel de significacin = 0,05. Tomaremos como hiptesis nula H0 : = 40 , y como hiptesis alternativa H1 : 40 Colocamos los datos anteriores en C1 y seleccionamos Stat > Basic Statistics > 1Sample Z :

Z-Test
Test of mu = 40,000 vs mu not = 40,000 The assumed sigma = 0,400 Variable C1 N 5 Mean 39,500 StDev 0,447 SE Mean 0,179 Z -2,80 P 0,0053 A4 - 1

Estadstica Aplicada con Minitab

Como el p-valor obtenido es de 0,0053 < 0,5 concluiremos que hay indicios suficientes como para pensar que la mquina no est funcionando correctamente.

2.

Realizar un contraste similar suponiendo ahora que desconocemos . En este caso deberemos seleccionar Stat > Basic Statistics > 1-Sample t :

T-Test of the Mean


Test of mu = 40,000 vs mu not = 40,000 Variable C1 N 5 Mean 39,500 StDev 0,447 SE Mean 0,200 T -2,50 P 0,067

Observar que ahora p-valor = 0,067 > 0,05 . Por tanto, en caso de desconocer la desviacin estndar deberamos quedarnos con la hiptesis nula de que la media poblacional es de 40 pues no tenemos indicios suficientes como para rechazarla.

A4 - 2

Actividad 4: IC y Contraste de Hiptesis (1 y 2 poblac.)

CASO 4-2: ZAPATOS PARA CHICOS___________________________________


Una empresa productora de zapatos para chicos quiere comparar dos materiales, A y B, que se usan en la elaboracin de las suelas. Para ello, selecciona 10 chicos y les entrega un par de zapatos, uno elaborado con suela tipo A y el otro con suela tipo B. Pasado un mes, se recogen los zapatos y se mide el nivel de desgaste de cada uno de ellos, obteniendo los siguientes resultados (a mayor nmero, mayor desgaste): Chico 1 2 3 4 5 6 7 8 9 10 1. Material A 13,2 8,2 10,9 14,3 10,7 6,6 9,5 10,8 8,8 13,3 Material B 14,0 8,8 11,2 14,2 11,8 6,4 9,8 11,3 9,3 13,6

Estudiar mediante un grfico Plot la variabilidad existente entre los diferentes chicos (variabilidad entre muestras), comparndola con la variabilidad existente, para cada chico, entre los dos materiales (variabilidad dentro de cada muestra). Seleccionamos Graphs > Plot :

Para visualizar mejor el grfico, pulsaremos sobre Edit Attributes :

A4 - 3

Estadstica Aplicada con Minitab Ahora, para superponer ambos grficos, pulsamos sobre Frame > Mltiple Graphs :

El resultado ser algo similar al siguiente:

GRFICO DE DESGASTE VS CHICO SEGN MATERIAL


15 14

material A material B

Desgaste de Materiales

13 12 11 10 9 8 7 6 0 1 2 3 4 5 6 7 8 9 10

Chicos

El grfico nos muestra una gran diferencia entre el desgaste entre chico y chico. As, p.e., el chico 6 desgast mucho menos las suelas que el chico 4. Por otra parte, para cada uno de los chicos, la diferencia entre los dos materiales no es demasiado grande. En resumen: observamos una gran variabilidad entre las diferentes muestras, mientras que la variabilidad dentro de cada muestra no parece muy significativa. Observar tambin lo siguiente: en 6 de los 10 casos los materiales A estn por encima de los B mientras que en los 4 restantes estn los dos muy juntos.

A4 - 4

Actividad 4: IC y Contraste de Hiptesis (1 y 2 poblac.) 2. Construir una nueva columna con las diferencias entre C3 y C2. Hallar el intervalo de confianza a nivel del 95% para la media de dichas diferencias. Seleccionamos Calc > Calculator :

Observar que con ello generamos una nueva columna formada por las diferencias entre las dos anteriores:

Seleccionamos Stat > Basic Statistics > 1-Sample t :

A4 - 5

Estadstica Aplicada con Minitab

T Confidence Intervals
Variable C4 N 10 Mean 0,410 StDev 0,387 SE Mean 0,122 ( 95,0 % CI 0,133; 0,687)

Podemos interpretar el resultado obtenido como: estamos 95% seguros de que la diferencia media entre ambos materiales es un valor comprendido entre 0,133 y 0,687.

Observar que hubiramos podido obtener este mismo intervalo sin necesidad de generar la columna C4: Seleccionamos Stat > Basic Statistics > Paired t :

Paired T-Test and Confidence Interval


Paired T for Material B - Material A Material Material Difference N 10 10 10 Mean 11,040 10,630 0,410 StDev 2,518 2,451 0,387 SE Mean 0,796 0,775 0,122 P-Value =

95% CI for mean difference: (0,133; 0,687) T-Test of mean difference = 0 (vs not = 0): T-Value = 3,35 0,009

A4 - 6

Actividad 4: IC y Contraste de Hiptesis (1 y 2 poblac.) 3. Realizar un contraste de hiptesis, a un nivel de significacin = 0,05, para determinar si las dos medias muestrales son significativamente diferentes. El segundo mtodo utilizado en el apartado 2 para hallar un intervalo de confianza tambin nos ha proporcionado el p-valor asociado al siguiente contraste de hiptesis bilateral para un nivel de significacin = 0,05: H0 : A = B vs. H1 : A B Dicho p-valor era de 0,009. Otra forma de obtener dicho p-valor sera plantearnos el contraste equivalente: H0 : B-A = B A = 0 vs. H1 : B-A = B - A 0 Seleccionamos Stat > Basic Statistics > 1-Sample t :

El resultado ser:

T-Test of the Mean


Test of mu = 0,000 vs mu not = 0,000 Variable C4 N 10 Mean 0,410 StDev 0,387 SE Mean 0,122 T 3,35 P 0,0085

Observar que, nuevamente, el p-valor obtenido es de 0,009. Como dicho p-valor es menor que 0,05, hay indicios suficientes como para rechazar la hiptesis nula, i.e.: todo parece indicar que las dos medias son significativamente diferentes, lo que significa que los datos parecen apuntar a que material A es ms resistente que el B.

A4 - 7

Estadstica Aplicada con Minitab

CASO 4-3: ENFERMEDAD DE PARKINSON_____________________________


La enfermedad de Parkinson afecta, entre otras cosas, a la capacidad de hablar. Se realiz un estudio con enfermos de Parkinson en el cual ocho de los enfermos que participaron en el mismo recibieron el tratamiento mdico habitual en estos casos. Este tratamiento pareci mejorar las condiciones generales de los pacientes, pero nos preguntamos sobre cmo afect a su capacidad de hablar. A fin de dar un poco de luz sobre este tema, se les realiz un test de habla a los pacientes. Los resultados de dicho test se muestran a continuacin (a mayor puntuacin, mayores dificultades en el habla): Tratamiento 2,6 2,0 1,7 2,7 2,5 2,6 2,5 3,0 No tratamiento 1,2 1,8 1,8 2,3 1,3 3,0 2,2 1,3 1,5 1,6 1,3 1,5 2,7 2,0

1.

Hallar el intervalo de confianza a nivel del 95% para la diferencia entre ambas medias muestrales. Contrastar, para = 0,05, la hiptesis de que ambas medias coinciden. Seleccionamos Stat > Basic Statistics > 2-Samples t :

A4 - 8

Actividad 4: IC y Contraste de Hiptesis (1 y 2 poblac.)

Two Sample T-Test and Confidence Interval


Two sample T for Tratamiento vs No tratamiento Tratamie No trata N 8 14 Mean 2,450 1,821 StDev 0,411 0,556 SE Mean 0,15 0,15 P = 0,0073 DF =

95% CI for mu Tratamie - mu No trata: ( 0,19; 1,07) T-Test mu Tratamie = mu No trata (vs not =): T = 3,02 18

Obtenemos que, para un nivel de confianza del 95%, la diferencia entre ambas medias muestrales estar comprendida entre 0,19 y 1,07 (observar que este intervalo no contiene al 0, por lo que ya podemos deducir el que, para un = 1 0,95 = 0,05, rechazaremos la hiptesis nula de que ambas medias son iguales). En cuanto al p-valor, ste es 0,0073 < 0,05 por lo que rechazaremos la hiptesis nula, i.e., hay indicios suficientes como para pensar que ambas medias difieren. 2. Contrastar, para = 0,01, la hiptesis de que ambas medias coinciden frente a la hiptesis alternativa de que la media de los pacientes tratados es mayor. Seleccionamos Stat > Basic Statistics > 2-Samples t :

Two Sample T-Test and Confidence Interval


Two sample T for Tratamiento vs No tratamiento Tratamie No trata N 8 14 Mean 2,450 1,821 StDev 0,411 0,556 SE Mean 0,15 0,15 DF = 18

99% CI for mu Tratamie - mu No trata: ( 0,03; 1,23) T-Test mu Tratamie = mu No trata (vs >): T = 3,02 P = 0,0036

Observar que el p-valor obtenido es de 0,0036 < 0,01 por lo que, para este nivel de significacin, rechazaremos la hiptesis nula de que ambas medias son iguales a favor de la hiptesis alternativa de que la media de los que han recibido tratamiento mdico es mayor que la de los que no. En definitiva, parece pues que el tratamiento recibido tiene efectos negativos sobre la capacidad del habla. A4 - 9

Actividad 5: Correlacin y Regresin Lineal

ACTIVIDAD 5: Correlacin y Regresin Lineal


CASO 5-1: RELACIONES ENTRE VARIABLES___________________________
A continuacin se muestran cuatro variables y seis valores (observaciones) asociados a cada una de ellas: X1 1 2 3 4 5 6 1. Y1 4 5 6 7 8 2 X2 1 2 3 4 5 6 Y2 1 4 7 7 4 1

Calcular la correlacin entre X1 e Y1. Crees que hay algn tipo de relacin entre ambas variables? Dibuja la nube de puntos asociada. Qu opinas ahora? Seleccionamos Stat > Basic Statistics > Correlation :

Correlations (Pearson)
Correlation of X1 and Y1 = 0,000; P-Value = 1,000 En principio, dado que el coeficiente de correlacin de Pearson (r) es igual a 0,000 es lgico pensar que no hay relacin lineal entre ambas variables.

Seleccionamos Graph > Plot :

A5 - 1

Estadstica Aplicada con Minitab

Nube de puntos X1 vs Y1
8 7 6

Y1

5 4 3 2 1 2 3 4 5 6

X1

Sorpresa!: viendo la grfica parece claro que la causa de que r sea 0 es atribuible a la existencia de un outlier (punto muy alejado del resto). Notar que si no fuese por dicho valor extrao, podramos decir que la relacin entre ambas variables sera lineal (de hecho hubisemos obtenido un r = +1).

A5 - 2

Actividad 5: Correlacin y Regresin Lineal

2.

Repetir el apartado anterior con las variables X2 e Y2.

De forma anloga, podemos calcular el nuevo coeficiente de correlacin lineal. Obtendremos nuevamente un valor de r = 0:

Correlations (Pearson)
Correlation of X2 and Y2 = 0,000; P-Value = 1,000 Si dibujamos la nube de puntos asociada, entenderemos el por qu de tal valor. Como se puede apreciar en el grfico, existe una relacin polinmica no lineal entre ambas variables. Es por ello que r = 0 ya que este coeficiente slo mide la existencia de relaciones lineales.

Nube de puntos de X2 vs Y2
7 6 5

Y2

4 3 2 1 1 2 3 4 5 6

X2

A5 - 3

Estadstica Aplicada con Minitab

CASO 5-2: EVOLUCIN HISTRICA DE UN TEST________________________


En un instituto de bachillerato se ha llevado a cabo el siguiente experimento: a lo largo de 15 aos (desde 1986 hasta el 2000) se han realizado dos tests a los alumnos del ltimo curso, uno de lengua y otro de matemticas. Las medias de las puntuaciones obtenidas en cada test se muestran a continuacin (las puntuaciones utilizan una escala distinta a la decimal para evitar ser interpretadas fuera del mbito del estudio): Ao 1986 1987 1988 1989 1990 1991 1992 1993 1994 1995 1996 1997 1998 1999 2000 1. Lengua 466 466 463 460 455 453 445 444 434 431 429 429 427 424 424 Mates 492 492 493 488 488 484 481 480 472 472 470 468 467 466 466

Representar la nube de puntos junto con la recta de regresin para cada uno de los pares ao-test. Podemos decir que ambas puntuaciones varan a la misma velocidad con el paso de los aos? Seleccionamos Stat > Regression > Fitted Line Plot :

Hacemos lo propio con la variable Mates. Los grficos, junto con las correspondientes rectas de regresin, se muestran a continuacin:

A5 - 4

Actividad 5: Correlacin y Regresin Lineal

Regression Plot
Y = 7440,19 - 3,51071X R-Sq = 96,1 %
470

460

Lengua

450

440

430

420

1985

1990

1995

2000

Ao

Regression Plot
Y = 4998,44 - 2,26786X R-Sq = 95,6 %
495

490

485

Mates

480

475

470

465

460 1985 1990 1995 2000

Ao

Se aprecia un descenso lineal en ambas puntuaciones conforme pasan los aos. Sin embargo, podemos ver que el descenso es ms acentuado en las calificaciones de Lengua, ya que aqu la pendiente de la recta es de 3,51 por una pendiente de 2,27 en el caso de Mates (i.e.: las notas de Lengua parecen decrecer ms rapidamente que las de Mates).

A5 - 5

Estadstica Aplicada con Minitab 2. A partir de los modelos lineales anteriores, pronosticar el valor de la puntuacin de Mates para los aos 1960, 1990, 2005, y 2010. Cules de estos pronsticos tienen sentido? Colocamos los valores 1960, 1990, 2005 y 2010 (por este orden) en una nueva columna, digamos la C4 Seleccionamos Stat > Regression > Regression :

A continuacin se muestra parte del output que genera el programa. Bajo la columna Fit aparecen las puntuaciones que el modelo predice para cada uno de los aos anteriores. El mismo programa nos avisa de que todas excepto la segunda son poco fiables. Ello se debe a que corresponden a aos que caen fuera del rango sobre el que disponemos de datos (desde 1986 al 2000).

Regression Analysis
Predicted Values Fit StDev Fit 553,439 4,465 485,404 0,706 451,386 1,711 440,046 2,353 X denotes a row with XX denotes a row with 95,0% CI ( 543,793; 563,085) ( ( 483,879; 486,928) ( ( 447,689; 455,082) ( ( 434,963; 445,130) ( X values away from the very extreme X values 95,0% PI 542,643; 564,236) XX 480,320; 490,487) 445,288; 457,483) X 433,021; 447,072) XX center

A5 - 6

Actividad 5: Correlacin y Regresin Lineal

CASO 5-3: EXAMEN PARCIAL Y EXAMEN FINAL________________________


En el archivo examenes.mtw estn contenidas las notas obtenidas por cada alumno de una asignatura en un examen parcial y en el examen final. Se pide: 1. Construir un modelo lineal para explicar la nota obtenida en el final a partir de la obtenida en el parcial y calcular el intervalo de confianza a nivel del 90% para la pendiente de la recta de regresin. Seleccionamos Stat > Regression > Regression :

El output del programa nos proporciona la recta de regresin: Final = 2,25 + 0,755 Parcial. Adems, entre otras cosas, podemos ver que este modelo permite explicar aproximadamente un 50% del comportamiento de la variable Final a partir del de la variable Parcial (ver R-Sq).

Regression Analysis
The regression equation is Final = 2,25 + 0,755 Parcial Predictor Constant Parcial S = 1,151 Coef 2,247 0,7546 StDev 1,022 0,1417 T 2,20 5,32 P 0,036 0,000

R-Sq = 49,4%

R-Sq(adj) = 47,7%

Analysis of Variance Source Regression Residual Error Total DF 1 29 30 SS 37,574 38,440 76,014
Fit 7,906

MS 37,574 1,326

F 28,35

P 0,000

Unusual Observations Obs Parcial Final 27 7,50 5,200

StDev Fit 0,216

Residual -2,706

St Resid -2,39R

R denotes an observation with a large standardized residual A5 - 7

Estadstica Aplicada con Minitab Sabemos que la forma general de un intervalo t-Student de confianza, a nivel 1 - , para un determinado parmetro es la siguiente: (parmetro) t(/2,n-2) * (Stdev) , donde t(/2,n-2) es el valor que en una distribucin t-Student con n-2 grados de libertad deja a su izquierda una probabilidad de 1 - /2 , siendo n el nmero de observaciones. En este caso, 1 - = 0,90 = 0,10 n = 31 2 = 29 parmetro = 0,7546 Stdev = 0,1417 1 - /2 = 0,95

Seleccionamos Calc > Probability Distributions > t :

Inverse Cumulative Distribution Function


Student's t distribution with 29 DF P( X <= x) 0,9500 x 1,6991

Tendremos pues que el intervalo deseado es (0,7546) (1,6991)*(0,1417) = (0,5138 , 0,9954)

A5 - 8

Actividad 5: Correlacin y Regresin Lineal 2. Hallar el intervalo de confianza a nivel del 95% para la media de las notas finales correspondientes a todas aquellas personas que obtuvieron una puntuacin de 8,6 en el parcial. Sabiendo que una persona ha obtenido una puntuacin de 8,6 en el parcial, hallar un intervalo de prediccin a nivel del 90% para el valor que se espera obtenga en el final. Observemos que nos estn pidiendo dos cosas diferentes: por un lado nos hablan de hallar un intervalo de confianza para la media de las notas en el final correspondientes a todas aquellas personas que han obtenido una determinada nota en el parcial, mientras que por otro nos piden un intervalo de prediccin para la nota que se espera obtenga en el final una nica persona que ha obtenido una determinada nota parcial. Como siempre resulta ms fcil hacer predicciones sobre medias que sobre parmetros individuales, es de esperar que el intervalo de prediccin contenga (sea mayor) que el intervalo de confianza. Seleccionamos Stat > Regression > Regression > Options :

Predicted Values Fit 8,736 StDev Fit 0,300 ( 95,0% CI 8,122; 9,350) ( 95,0% PI 6,303; 11,169)

En este caso, el modelo construido predice que una persona que hubiese obtenido una puntuacin de 8,6 en el parcial obtendra una puntuacin de 8,736 en el final. La nota final media de todos aquellos que obtuvieron en el parcial un 8,6 estar, con probabilidad 0,95, entre 8,12 y 9,35. Por otra parte, si una persona ha obtenido un 8,6 en el parcial, es de esperar (con probabilidad 0,95) que obtenga en el final una nota situada entre 6,30 y 11,17. Observar que, tal y como predijimos, el intervalo de confianza para la media est contenido dentro del intervalo de prediccin para una observacin individual. Este hecho se observa mejor en el siguiente grfico, obtenido a partir de las opciones Stat > Regression > Fitted Line Plot > Options :

A5 - 9

Estadstica Aplicada con Minitab

INTERVALOS DE CONFIANZA E INTERVALOS DE PREDICCION


Y = 2,24671 + 0,754575X R-Sq = 49,4 %
12 11 10 9

Final

8 7 6 5

Regression
4 3 4 5 6 7 8 9 10

95% CI 95% PI

Parcial

3.

Contrastar, para un nivel de significacin = 0,05 , la hiptesis nula H0 : el coeficiente de la variable Parcial (variable X) es cero (hiptesis que es equivalente a H0 : el coeficiente de correlacin lineal de la poblacin, , es cero). En otras palabras, al hacer esta hiptesis nos estamos preguntando si hay indicios suficientes o no para considerar que el modelo obtenido es vlido (la hiptesis nula afirma que no lo es). Para responder a la pregunta de si el modelo construdo es o no vlido para explicar el comportamiento de la variable Y en funcin del de la variable X, basta con volver al output inicial:

Regression Analysis
The regression equation is Final = 2,25 + 0,755 Parcial Predictor Constant Parcial S = 1,151 Coef 2,247 0,7546 StDev 1,022 0,1417 T 2,20 5,32 P 0,036 0,000

R-Sq = 49,4%

R-Sq(adj) = 47,7%

Analysis of Variance Source Regression Residual Error Total DF 1 29 30 SS 37,574 38,440 76,014 MS 37,574 1,326 F 28,35 P 0,000

Observar que el output nos proporciona ya el p-valor asociado al test cuya hiptesis nula afirma que el coeficiente de la X es cero (el modelo no sirve). Dicho p-valor es 0,000 , por lo cual rechazaremos la hiptesis nula y concluiremos que el modelo s es vlido. En la parte de Analysis of Variance se realiza el test equivalente sobre el coeficiente poblacional de correlacin lineal, por lo que no es de extraar que obtengamos el mismo p-valor. Finalmente, notar que tambin se realiza un test similar sobre el trmino independiente del modelo (cuyo p-valor en este caso es de 0,036). A5 - 10

Actividad 5: Correlacin y Regresin Lineal

CASO 5-4: MOVIMIENTO PENDULAR__________________________________


En una clase de fsica se lleva a cabo un experimento consistente en dejar caer un pndulo de longitud variable desde su posicin horizontal, esperar a que complete 50 ciclos y registrar el tiempo transcurrido. Los datos obtenidos en 5 pruebas se muestran a continuacin: Longitud 1 2 3 4 5 1. 175,2 151,5 126,4 101,7 77,0 Tiempo 132,5 123,4 112,8 101,2 88,2

Sea T el tiempo medio por ciclo. Calcular T para cada prueba dividiendo el tiempo transcurrido por 50. Representar T vs. Longitud y hallar la recta de regresin que permite explicar T a partir de la Longitud. Te parece bueno el modelo hallado? Seleccionamos Calc > Calculator :

Con ello generaremos una nueva columna que contendr los valores de T:

A5 - 11

Estadstica Aplicada con Minitab

Seleccionamos Stat > Regression > Fitted Line Plot :

Regression Plot
2,7 2,6 2,5 2,4 2,3

Y = 1,09470 + 9,00E-03X

2,2 2,1 2,0 1,9 1,8 1,7 80 130 180

R-Sq = 99,6 %

Longitud

Tanto la grfica de regresin como el valor del coeficiente de determinacin R-sq = 0,996 parecen indicar que el modelo hallado es bastante til a la hora de estimar T a partir de la variable Longitud: los puntos se aproximan bastante a la recta de regresin y, adems, el coeficiente de determinacin nos dice que aproximadamente un 99,6% de la variacin en T es explicable con este modelo a partir del comportamiento de la variable Longitud. Sin embargo, como veremos en el siguiente apartado, sera prematuro confiar en este modelo antes de analizar si se cumplen las hiptesis de la regresin lineal.

A5 - 12

Actividad 5: Correlacin y Regresin Lineal 2. Representar en un grfico los residuos del modelo anterior vs. la Longitud. Hay alguna indicacin que os haga pensar en la necesidad de usar otro modelo distinto del lineal?. Seleccionamos la subopcin Storage de la ventana anterior y pedimos al programa que nos guarde los residuos en una nueva columna:

Ahora vamos a Graph > Plot :

GRFICO DE RESDUOS VS. LONGITUD

0,02

0,01

RESI1

0,00

-0,01

-0,02

80

130

180

Longitud

A5 - 13

Estadstica Aplicada con Minitab

Observamos en el grfico de resduos anterior una clara tendencia parablica, lo que implica que el modelo anterior no es vlido. Deberemos buscar un modelo que se ajuste mejor a los datos obtenidos con nuestro experimento. Vamos a probar con un modelo polinmico de orden 2 (notar que ste ya no ser un modelo lineal). Usaremos las variables Longitud y Longitud^2 (el cuadrado de la variable anterior): Seleccionamos Calc > Calculator :

Seleccionamos Stat > Regression > Regression :

Regression Analysis
The regression equation is T = 0,812 + 0,0139 Longitud -0,000019 Longitud^2 S = 0,001945 R-Sq = 100,0% R-Sq(adj) = 100,0% Vaya! Ahora s parece que hemos dado con un buen modelo. Observar que el coeficiente de determinacin es 1, lo que significa que con este modelo podemos explicar de forma total el comportamiento de T a partir del de la variable Longitud. A5 - 14

Anlisis de regresin y correlacin lineal.

CORRELACIN LINEAL Y ANLISIS DE REGRESIN


Autores: Alicia Vila (avilag@uoc.edu), Mximo Sedano (msedanoh@uoc.edu), Ana Lpez (alopezrat@uoc.edu), ngel A. Juan (ajuanp@uoc.edu),

MAPA CONCEPTUAL

________________________

Definicin

Ejemplo con la definicin

Con frmula

Correlacin lineal

Deteccin grfica

Definicin

Regresin lineal (recta de mnimos cuadrados)

Representacin grfica

Por la definicin Con frmula

Supuestos del modelo de regresin

Coeficiente de Determinacin

Inferencia en el modelo de regresin

Definicin

Por la definicin

Con frmula

Clculo con Minitab

Proyecto e-Math Financiado por la Secretara de Estado de Educacin y Universidades (MECD)

Anlisis de regresin y correlacin lineal.

INTRODUCCIN

___________________

El objetivo de este math-block es analizar el grado de la relacin existente entre variables utilizando modelos matemticos y representaciones grficas. As pues, para representar la relacin entre dos o ms variables desarrollaremos una ecuacin que permitir estimar una variable en funcin de la otra. Por ejemplo, en qu medida, un aumento de los gastos en publicidad hace aumentar las ventas de un determinado producto?, cmo representamos que la bajada de temperaturas implica un aumento del consumo de la calefaccin?,... A continuacin, estudiaremos dicho grado de relacin entre dos variables en lo que llamaremos anlisis de correlacin. Para representar esta relacin utilizaremos una representacin grfica llamada diagrama de dispersin y, finalmente, estudiaremos un modelo matemtico para estimar el valor de una variable basndonos en el valor de otra, en lo que llamaremos anlisis de regresin.

OBJETIVOS
Aprender a calcular la correlacin entre dos variables Saber dibujar un diagrama de dispersin

________________________

Representar la recta que define la relacin lineal entre dos variables Saber estimar la recta de regresin por el mtodo de mnimos cuadrados e interpretar su ajuste. Realizar inferencia sobre los parmetros de la recta de regresin Construir e interpretar intervalos de confianza e intervalos de prediccin para la variable dependiente Realizar una prueba de hiptesis para determinar si el coeficiente de correlacin es distinto de cero

CONOCIMIENTOS PREVIOS

___________________________________

Es recomendable haber ledo, previamente, los math-blocks Estimacin puntual e intervalos de confianza y Contraste de hiptesis para dos poblaciones, as como los ejercicios asociados resueltos con Minitab.

Proyecto e-Math Financiado por la Secretara de Estado de Educacin y Universidades (MECD)

Anlisis de regresin y correlacin lineal.

CONCEPTOS FUNDAMENTALES___________________________________
Definicin de Correlacin Lineal En ocasiones nos puede interesar estudiar si existe o no algn tipo de relacin entre dos variables aleatorias. As, por ejemplo, podemos preguntarnos si hay alguna relacin entre las notas de la asignatura Estadstica I y las de Matemticas I. Una primera aproximacin al problema consistira en dibujar en el plano R2 un punto por cada alumno: la primera coordenada de cada punto sera su nota en estadstica, mientras que la segunda sera su nota en matemticas. As, obtendramos una nube de puntos la cual podra indicarnos visualmente la existencia o no de algn tipo de relacin (lineal, parablica, exponencial, etc.) entre ambas notas. Otro ejemplo, consistira en analizar la facturacin de una empresa en un periodo de tiempo dado y de cmo influyen los gastos de promocin y publicidad en dicha facturacin. Si consideramos un periodo de tiempo de 10 aos, una posible representacin sera situar un punto por cada ao de forma que la primera coordenada de cada punto sera la cantidad en euros invertidos en publicidad, mientras que la segunda sera la cantidad en euros obtenidos de su facturacin. De esta manera, obtendramos una nube de puntos que nos indicara el tipo de relacin existente entre ambas variables. En particular, nos interesa cuantificar la intensidad de la relacin lineal entre dos variables. El parmetro que nos da tal cuantificacin es el coeficiente de correlacin lineal de Pearson r, cuyo valor oscila entre 1 y +1 :

Cov( X , Y ) 1 r = = s X sY

(X
t =1

X ) (Yt Y )
2

(X
t =1

X) *

(Y
t =1

+1
2

Y )

VARIABLES NO CORRELACIONADAS ( r = 0 )

CORRELACIN LINEAL NEGATIVA ( r = -1 )

9 8 7 6

9 8 7 6

Y
5 4 3 2 1 2 3 4 5 6 7 8
5 4 3 2 1 2 3 4 5 6 7 8

X
CORRELACIN NO LINEAL ( r = 0 )

CORRELACIN LINEAL POSITIVA ( r = +1 )

9 8 7 6

9 8 7 6

5 4 3 2 1 2 3 4 5 6 7 8

5 4 3 2 1 2 3 4 5 6 7 8

Proyecto e-Math Financiado por la Secretara de Estado de Educacin y Universidades (MECD)

Anlisis de regresin y correlacin lineal.

Como se observa en los diagramas anteriores, el valor de r se aproxima a +1 cuando la correlacin tiende a ser lineal directa (mayores valores de X significan mayores valores de Y), y se aproxima a 1 cuando la correlacin tiende a ser lineal inversa. Es importante notar que la existencia de correlacin entre variables no implica causalidad. Atencin!: si no hay correlacin de ningn tipo entre dos v.a., entonces tampoco habr correlacin lineal, por lo que r = 0. Sin embargo, el que ocurra r = 0 slo nos dice que no hay correlacin lineal, pero puede que la haya de otro tipo. El siguiente diagrama resume el anlisis del coeficiente de correlacin entre dos variables:
Correlacin negativa perfecta Correlacin postiva perfecta

Correlacin Correlacin Correlacin negativa negativa negativa fuerte moderada dbil

Ninguna correlacin

Correlacin Correlacin Correlacin positiva positiva positiva dbil moderada fuerte

- 1.00

- 0.50

0.50

1.00

Definicin y caractersticas del concepto de Regresin Lineal En aquellos casos en que el coeficiente de regresin lineal sea cercano a +1 o a 1, tiene sentido considerar la ecuacin de la recta que mejor se ajuste a la nube de puntos (recta de mnimos cuadrados). Uno de los principales usos de dicha recta ser el de predecir o estimar los valores de Y que obtendramos para distintos valores de X. Estos conceptos quedarn representados en lo que llamamos diagrama de dispersin:

Nube de puntos y recta de mnimos cuadrados


8 7 6 5

4 3 2 1 1 2 3 4 5 6 7 8 9

La ecuacin de la recta de mnimos cuadrados (en forma punto-pendiente) es la siguiente:

y y =

Cov( X , Y ) sx
2

(x x)

Proyecto e-Math Financiado por la Secretara de Estado de Educacin y Universidades (MECD)

Anlisis de regresin y correlacin lineal.


Veamos con detalle estos conceptos mediante un ejemplo: Si queremos estudiar la relacin existente entre ambas variables, siguiendo con el ejemplo anterior referente a la relacin entre las ventas de una empresa (Vt ) y sus gastos en publicidad (GPt ) , lo que podemos hacer es representar grficamente el modelo matemtico lineal que podemos considerar para analizar dicha relacin.

Vt = 1 + 2 GPt + u t
Supongamos que disponemos de los siguientes datos:

Ao 1998 1999 2000 2001 2002

Ventas en millones de euros. Gastos en publicidad en millones de euros. 200 400 800 1.200 900 30 50 50 60 60

A partir de este modelo matemtico lineal, vamos a analizar la relacin entre ambas variables, la variable ventas (Vt ) que es la variable dependiente del modelo y la variable que vamos a analizar y los gastos en publicidad (GPt ) que es la variable independiente o la variable explicativa que vamos a utilizar para estudiar las ventas. En este modelo queremos comprobar qu influencia tienen los gastos de publicidad sobre el volumen de facturacin o las ventas de la empresa. Para poder cuantificar dicha relacin, debemos tambin representar la recta de regresin que subyace en el modelo matemtico que relaciona ambas variables. Para cuantificar la relacin entre ambas variables y tener un aproximacin de la magnitud de la influencia de los gastos en publicidad sobre las ventas de la empresa debemos estimar el modelo por mnimos cuadrados ordinarios (M.C.O.) donde se minimiza la suma de los cuadrados de los residuos. La recta en rojo (que aparece a continuacin en el grfico), es la que mejor se ajusta a la nube de puntos que tenemos. Dicho de otra forma, es la recta que hace que el error de estimacin, definido como la distancia entre el valor observado y el valor estimado de la variable endgena (en el grfico, es la distancia vertical sealada por la flecha en rojo), sea la mnima para cada una de las observaciones (recta de mnimos cuadrados), esta recta ser la que utilizaremos para predecir o estimar los valores de Y que obtendremos para distintos valores de X.

Proyecto e-Math Financiado por la Secretara de Estado de Educacin y Universidades (MECD)

Anlisis de regresin y correlacin lineal.


La diferencia entre un valor observado y el valor estimado lo denominaremos residuo.

Residuo = Yt Y t
Nuestro problema consiste en minimizar la suma de los cuadrados de los residuos de los cuadrados de los residuos,

u
t =1

2 t

. De este problema de optimizacin se deduce la expresin

de mnimos cuadrados ordinarios del MRLM:

Criterio MCO:

t2 Min u
t =1

Como ya hemos citado anteriormente, la ecuacin de la recta de mnimos cuadrados (en forma punto-pendiente) es la siguiente:

Cov( X , Y ) Y Y = (X X ) = 2 sx

(X
t =1

X ) (Yt Y )
t

(X
t =1

(X X )

X)

2002

2 =

t =1998 2002

(GP G P )(V
t t =1998 t

V ) =
2

(GP G P )

17.000 = 28,3 , sta sera la estimacin de la pendiente 600

de la recta por mnimos cuadrados. Por otro lado, 1 = V 2 G P = 700 28,333 50 = 716,6 , y sta sera la estimacin de la ordenada de la recta de regresin el punto de corte de la recta con los ejes. Por tanto, Y = 716,6 + 28,3X La representacin grfica de los datos anteriores es la que sigue:

Proyecto e-Math Financiado por la Secretara de Estado de Educacin y Universidades (MECD)

Anlisis de regresin y correlacin lineal.

Regression Plot
Y = -716,667 + 28,3333X R-Sq = 75,3 %
1200

1000

800

VENTAS

600

error de estimacin (ut)

400

200

0 30 40 50 60

Publicidad

Del diagrama anterior, cabe observar que no todos los puntos estn en la lnea de regresin. Si todos lo estuvieran y, adems, si el nmero de observaciones fuera suficientemente grande, no habra ningn error de estimacin. En ese caso, no habra ninguna diferencia entre el valor observado y el valor de prediccin. Como imaginamos, en los casos reales, las predicciones perfectas son prcticamente imposibles y lo que necesitamos es una medida que describa cmo de precisa es la prediccin de Y en funcin de X o, inversamente, qu inexacta puede ser la estimacin. A esta medida se le llama error estndar de estimacin y se denota Syx. El error estndar de estimacin, es el mismo concepto que la desviacin estndar, aunque sta mide la dispersin alrededor de la media y el error estndar mide la dispersin alrededor de la lnea de regresin.

Interpretacin de los coeficientes estimados Segn la recta de mnimos cuadrados, al incrementarse en un milln de euros los gastos en publicidad, la cantidad de facturacin obtenida se incrementar en 28,3 millones de euros. Y cuando no se haga ningn esfuerzo publicitario, las ventas segn la recta sern negativas. Esto se puede entender como que no se vende nada o que si no se hace ningn esfuerzo publicitario se obtienen unas ventas negativas, en el sentido de que hay otros gastos a la hora de vender que provocan que al final haya ventas negativas. La correlacin entre ambas variables es muy alta, ya que el coeficiente de correlacin r = 0.87 est muy prximo a 1.
2002

Cov( X , Y ) r= = s X sY

t =1998 2002

(GP G P ) (V
t 2 t

V ) = 0,868
t

t =1998

(GP G P )

2002

t =1998

(V

V )2

Proyecto e-Math Financiado por la Secretara de Estado de Educacin y Universidades (MECD)

Anlisis de regresin y correlacin lineal.


Para profundizar ms en los conceptos vistos hasta el momento o para entender grficamente como funcionan, a continuacin citamos algunos enlaces web interesantes: En el enlace: http://www.stat.wvu.edu/SRS/Modules/Applets/Regression/regression.html encontraremos un applet en el que modificando los datos de la variable X e Y podemos construir la recta de regresin. El grfico resultante ser similar al siguiente:

Un applet de similares caractersticas lo encontraremos en: http://www.kuleuven.ac.be/ucs/java/version2.0/Applet010.html

Proyecto e-Math Financiado por la Secretara de Estado de Educacin y Universidades (MECD)

Anlisis de regresin y correlacin lineal.


Los conceptos de regresin lineal y correlacin entre variables se aplican a innumerables aspectos de la vida real, tanto en el mbito social, como cientfico,... En el siguiente enlace: http://www.fisterra.com/material/investiga/regre_lineal_simple/regre_lineal_simple.htm#1 encontramos un claro ejemplo de cmo utilizar estos conceptos para ver la relacin entre la Tensin arterial sistlica y la edad, a partir de una muestra de 69 pacientes.

Supuestos del modelo de regresin lineal En el caso en que nuestras observaciones sean una muestra aleatoria proveniente de una poblacin, estaremos interesados en realizar inferencias sobre la misma. A fin de que estas inferencias sean estadsticamente razonables, se han de cumplir las siguientes condiciones: 1. En la poblacin, la relacin entre las variables X e Y debe ser aproximadamente lineal, i.e.: y = 1 + 2 x + , siendo la v.a. que representa los residuos (diferencias entre el valor estimado por el modelo y el verdadero valor de Y ). 2. Los residuos se distribuyen segn una Normal de media 0, i.e., 3. Los residuos son independientes unos de otros. 4. Los residuos tienen varianza 2 constante. Afortunadamente, el modelo de regresin lineal es bastante robusto, lo que significa que no es necesario que las condiciones anteriores se cumplan con exactitud (en particular las tres ltimas).

N (0, 2 ) .

Proyecto e-Math Financiado por la Secretara de Estado de Educacin y Universidades (MECD)

Anlisis de regresin y correlacin lineal.

Definicin del Coeficiente de Determinacin Denominamos coeficiente de determinacin R2 como el coeficiente que nos indica el porcentaje del ajuste que se ha conseguido con el modelo lineal, es decir el porcentaje de la variacin de Y(ventas) que se explica a travs del modelo lineal que se ha estimado, es decir a travs del comportamiento de X (publicidad) . A mayor porcentaje mejor es nuestro modelo para predecir el comportamiento de la variable Y Tambin se puede entender este coeficiente de determinacin como el porcentaje de varianza explicada por la recta de regresin y su valor siempre estar entre 0 y 1 y siempre es igual al cuadrado del coeficiente de correlacin (r).

R2 = r 2
Es una medida de la proximidad o de ajuste de la recta de regresin a la nube de puntos. Tambin se le denomina bondad del ajuste.

regresin, es como si fuera la varianza inexplicada que es la varianza de los residuos.

1 R 2 nos indica qu porcentaje de las variaciones no se explica a travs del modelo de

En nuestro ejemplo, el coeficiente de determinacin nos da bajo, el 75,3%, por lo que slo conseguimos explicar el 75,3 % de las variaciones de las ventas a travs del ajuste por medio de los gastos en publicidad.

Inferencia en el modelo de regresin Una vez que hemos calculado la recta de regresin y el ajuste que hemos conseguido con el modelo de regresin lineal, el siguiente paso consiste en analizar si la regresin en efecto es vlida y la podemos utilizar para predecir. Para ello debemos contrastar si la correlacin entre ambas variables es distinta de cero o si el modelo de regresin es vlido en el sentido de contrastar si el anlisis de nuestra variable endgena (Y). es vlido a travs de la influencia de la variable explicativa (X). Supongamos por un lado que el coeficiente de correlacin lineal r, est prximo a +1 o a 1, y por tanto parece indicar la existencia de una correlacin lineal entre los valores de la muestra. Pero este valor del coeficiente de correlacin lineal muestral entre ambas variables no garantiza que tambin estn correlacionadas en la poblacin. Para poder contrastar esta suposicin, una vez que hemos estimado la recta de regresin y hemos obtenido las estimaciones de los parmetros del modelo; Vt = 1 + 2 GPt + u t

+ GP . = como V t 1 2 t
Ahora lo que debemos es comprobar si esta estimacin de este modelo es vlida en el sentido de si es significativa de forma que la variable Publicidad (X) es relevante para explicar (Y) que son las ventas. Entonces debemos contrastar si la pendiente de la recta de regresin poblacional 2 es significativamente distinta de cero, de ah tendramos que, en efecto, existe una correlacin lineal entre ambas variables poblacionales.

Proyecto e-Math Financiado por la Secretara de Estado de Educacin y Universidades (MECD)

10

Anlisis de regresin y correlacin lineal.


Los dos contrastes siguientes son equivalentes porque si el coeficiente de correlacin , r, es

puesto que: = r SY cero tambin lo ser la estimacin de la pendiente, 2 2


(1)

SX

H 0 : = 0 H 1 : 0

(2)

H 0 : 2 = 0 H 1 : 2 0

donde

es el coeficiente de correlacin entre ambas variables.

El estadstico (t-Student) que se utiliza para realizar el test (2 ) es el siguiente:

2 t= 2 t n 2, 2 S
2

),

donde

S =
1

2 ( X) 2 (n 2) X n

1 Y 2 XY

donde t(n-2,/2) es el valor asociado a una t-Student con n-2 grados de libertad que deja a su derecha un rea de /2 (o, equivalentemente, deje a su izquierda un rea de 1 - /2). OJO!: si en vez de realizar el contraste bilateral ( 2 ) deseamos hacer un contraste unilateral (en el cual la hiptesis alternativa sera H1 : 2 > 0 H1 : 2 < 0 ), deberemos sustituir en la frmula anterior /2 por (ya que ahora trabajaremos con una nica cola de la distribucin). Finalmente, tambin podemos obtener el intervalo de confianza para 1 a nivel de confianza (1-) utilizando la expresin:

t n 2, * s 2 2 ) 28,3 0 2 2 t= = = 3,02 S 9,38


2

Siguiendo con el ejemplo anterior, el estadstico de contraste nos queda:

Si calculamos el p-valor de t = 3,02 con tres grados de libertad, vamos a la tabla t-student y debemos calcular el rea que hay por encima de t = 3,02 y el rea por debajo de t= -3,02, si miramos en la tabla , el valor de t ms cercano es t = 3,1824 que le corresponde un rea de 0,025, por lo que a t>=3,02 le corresponder un rea menor, por lo que el p-valor ser algo menor del 0,05=2*0,025. Por lo que, si el nivel de significacin es del 5%, como el p-valor es menor que 0,05, rechazaremos la hiptesis nula a un nivel de significacin del 5%,. Esto indica que existen evidencias estadsticas de que la variable gastos en publicidad es una variable relevante o que influye sobre las ventas. Es interesante notar que todo lo que hemos realizado sobre el coeficiente 2 es tambin aplicable al coeficiente 1.

Proyecto e-Math Financiado por la Secretara de Estado de Educacin y Universidades (MECD)

11

Anlisis de regresin y correlacin lineal.

CASOS PRCTICOS CON SOFTWARE________________________________


1. En la siguiente tabla, se muestran los datos registrados de las ventas en millones de euros y de los gastos incurridos en publicidad, tambin en millones de euros, por una empresa industrial que fabrica sillas abatibles para oficina: Gtos de publicidad (millones euros) (X) 14,2226 13,9336 15,5040 16,3105 17,4936 19,8906 21,4803 20,4046 21,4776 22,6821 20,9722 23,3538 26,1040 29,1101 27,2418 23,0096 27,6116 32,1111 36,1788 37,5671 33,5069 36,6088 31,1554 32,7752 41,1886 39,9715 39,6866 40,2991 40,9538 41,9323 39,8393 Volumen de ventas (millones euros) (Y) 95,065 97,281 103,159 107,607 113,860 121,153 129,102 132,340 138,663 142,856 143,120 147,928 155,955 164,946 163,921 163,426 172,485 180,519 190,509 196,497 196,024 200,832 196,769 205,341 220,230 228,703 236,500 244,560 254,771 263,683 268,304

a) Calcular el coeficiente de correlacin lineal entre las variables ventas y gastos de publicidad. Seleccionamos Stat > Basic Statistics > Correlation :

Proyecto e-Math Financiado por la Secretara de Estado de Educacin y Universidades (MECD)

12

Anlisis de regresin y correlacin lineal.

Correlations (Pearson)
Correlation of Publicidad y ventas = 0.973, P-Value = 0.000

El valor obtenido para el coeficiente de correlacin es de 0,973, lo cual hace suponer que, en principio, la correlacin entre ambas variables es muy alta por lo que se puede prever que en la regresin obtendremos un buen ajuste. b) Representar la nube de puntos (grfico x-y) ventas vs. publicidad, junto con la recta de regresin asociada. Piensas que el modelo obtenido sirve para explicar las ventas obtenidas por esta empresa en los ltimos treinta aos en funcin de lo que se ha gastado en publicidad? Seleccionamos Stat > Regression > Fitted Line Plot :

Proyecto e-Math Financiado por la Secretara de Estado de Educacin y Universidades (MECD)

13

Anlisis de regresin y correlacin lineal.

Regression Plot
Y = 21,1667 + 5,33582X R-Sq = 93,7 %

250

Ventas

200

150

100

20

30

40

Publicidad

Regression
The regression equation is y = 21,2 + 5,34 x Predictor Constant x S = 12,94 Coef 21,167 5,3358 StDev 7,687 0,2568 T 2,75 20,78 P 0,010 0,000

R-Sq = 93,7%

R-Sq(adj) = 93,5%

Como se aprecia en el grfico, el modelo lineal simple ajusta con mnimos errores la evolucin de las ventas en funcin de los gastos en publicidad. De hecho, si nos fijamos en el valor del coeficiente de determinacin R-sq, veremos que este modelo explica casi el 94% del comportamiento de las ventas a travs de la evolucin, por lo que es un buen ajuste y por tanto, los residuos son mnimos.

c)

Presenta la muestra suficiente evidencia, a un nivel de significacin de 0,05, como para rechazar la hiptesis nula sobre la pendiente (H0: pendiente de la recta es cero)?

En el output anterior podemos ver que el p-valor asociado al contraste de hiptesis anterior es casi cero. Como este valor es menor que = 0,05, debemos rechazar la hiptesis nula, i.e., concluiremos que la pendiente de la recta es distinta de cero o, lo que es lo mismo, que el coeficiente de correlacin poblacional es no nulo (es decir, que ambas variables estn correlacionadas y que, por tanto, el modelo tiene sentido).

Proyecto e-Math Financiado por la Secretara de Estado de Educacin y Universidades (MECD)

14

Anlisis de regresin y correlacin lineal.


2. La informacin estadstica obtenida de una muestra de tamao 12 sobre la relacin existente entre la inversin hecha y el rendimiento obtenido en miles de euros para explotaciones agropecuarias se muestra la tabla siguiente: Inv Rend. a) 11 2 14 3 16 5 15 6 16 5 18 3 20 7 31 10 14 6 20 10 19 5 11 6

Calcula el coeficiente de correlacin lineal, as como la recta de regresin. Calcula adems, la previsin de inversin que se obtendr con un rendimiento de 8000 Seleccionamos Stat > Basic Statistics > Correlation y obtenemos:

Correlations (Pearson) Correlation of Rend. and Inv. = 0.618, P-Value = 0.032

Como el coeficiente de correlacin lineal es 0.618 no podemos deducir que exista una relacin fuerte ni dbil, tendramos que realizar un contraste de hiptesis para saberlo con claridad. Calculemos ahora la recta de regresin. Para ello, seleccionaremos Stat > Regression > Fitted Line Plot:

Proyecto e-Math Financiado por la Secretara de Estado de Educacin y Universidades (MECD)

15

Anlisis de regresin y correlacin lineal.


A partir de este grfico, observamos que no existe ninguna correlacin entre las dos variables. Para conocer ms detalles, seleccionamos Stat > Regression > Regression: Regression Analysis
The regression equation is Inv. = - 1.68 + 0.452 Rend. Predictor Constant Rend. S = 2.060 Coef -1.682 0.4522 StDev 3.015 0.1819 T -0.56 2.49 P 0.589 0.032

R-Sq = 38.2%

R-Sq(adj) = 32.0%

Analysis of Variance Source Regression Residual Error Total DF 1 10 11 SS 26.230 42.437 68.667 MS 26.230 4.244 F 6.18 P 0.032

As pues, la recta de regresin ser: Inv=-1.68 + 0.452*Rend Por tanto, para obtener un rendimiento de 8000 , tendramos que hacer una inversin de... Inv = -1.68 + 0.452*8000 = 3614.32

b)

Presenta la muestra suficiente evidencia, a un nivel de significacin de 0,05, como para rechazar la hiptesis nula sobre la pendiente (H0: pendiente de la recta es cero)? En el output anterior podemos ver que el p-valor asociado al contraste de hiptesis anterior es 0,032. Como este valor es menor que = 0,05, debemos rechazar la hiptesis nula, i.e., concluiremos que la pendiente de la recta es distinta de cero o, lo que es lo mismo, que el coeficiente de correlacin poblacional es no nulo (es decir, que ambas variables estn correlacionadas y que, por tanto, el modelo tiene sentido).

Proyecto e-Math Financiado por la Secretara de Estado de Educacin y Universidades (MECD)

16

Anlisis de regresin y correlacin lineal.


3. La entidad bancaria City Banking est estudiando el nmero de veces por da que se usa el cajero automtico localizado en un barrio de una determina ciudad espaola del sur. Los siguientes datos son las veces por da que fue usado el cajero en los ltimos 30 das: 83 63 95 64 80 36 84 84 78 76 73 61 84 68 59 54 52 84 75 65 95 59 90 47 70 52 87 61 77 60

a) Realiza un dotplot de los valores anteriores y comenta los resultados. Para dibujar el dotplot, seleccionamos Graph > Dotplot:

Del grfico anterior podramos concluir que el valor que ms se repite es 84 y, adems, podemos apreciar que los datos no parecen seguir una distribucin normal.

Proyecto e-Math Financiado por la Secretara de Estado de Educacin y Universidades (MECD)

17

Anlisis de regresin y correlacin lineal.


b) Dibujar un diagrama de cajas (boxplot) asociado a los datos anteriores, as como tambin los estadsticos descriptivos correspondientes. Para realizar el diagrama de cajas, seleccionamos Graph > Boxplot, y en el eje de las Y, insertamos cada una de las columnas:

Del anterior grfico se desprende que el valor mximo es 95 y el mnimo 36. As mismo, el valor de la mediana estar aproximadamente entre 70 y 75. Los cuartiles primero y tercero sern 60 y 85 aproximadamente. Verifiquemos estos resultados anteriores calculando los estadsticos descriptivos. Seleccionamos Stat > Basic Statistics > Display Basic Statistics: Descriptive Statistics
Variable C1 Variable C1 N 30 Minimum 36.00 Mean 70.53 Maximum 95.00 Median 71.50 Q1 59.75 TrMean 70.88 Q3 84.00 StDev 14.82 SE Mean 2.71

Por tanto, como vemos en este resultado, los valores correspondientes a la media, mediana, mximo, mnimo y cuartiles coinciden con los comentados a partir del diagrama de cajas. b) Adems, se quiere tambin estudiar cul es la relacin entre la cantidad gastada semanalmente en comida (en euros) y el nmero de miembros de una familia. Para ello, cogemos una muestra de 10 familias del barrio obteniendo los siguientes resultados: Miembros familia Cantidad gastada 3 99 6 104 5 151 6 129 3 142 4 74 4 91 5 119 3 91 6 142

Determina el coeficiente de correlacin entre las dos variables. Calcula y representa tambin la recta de regresin. Qu cantidad gastada en comida cabra esperar si el nmero de miembros de una familia aumenta a 8?

Proyecto e-Math Financiado por la Secretara de Estado de Educacin y Universidades (MECD)

18

Anlisis de regresin y correlacin lineal.


Para calcular el coeficiente de correlacin, seleccionamos Stat > Basic Statistics > Correlation:

Correlations (Pearson) Correlation of miembros f and cantidad g = 0.589, P-Value = 0.073 Como vemos, el coeficiente de correlacin es de 0.589, lo cual indica que existe cierta correlacin entre el nmero de miembros de una familia y la cantidad gastada semanalmente. Para representar la recta de regresin, utilizamos la opcin Stat > Regresin > Fitted Line Plot :

Proyecto e-Math Financiado por la Secretara de Estado de Educacin y Universidades (MECD)

19

Anlisis de regresin y correlacin lineal.

A partir de este grfico observamos que sorprendentemente, parece no existir apenas correlacin entre el nmero de miembros de una familia y la cantidad gastada en alimentos semanalmente. The regression equation is y = 60.4 + 11.3 x Predictor Constant x S = 20.82 Coef 60.36 11.276 StDev 25.47 5.467 T 2.37 2.06 P 0.045 0.073

R-Sq = 34.7%

R-Sq(adj) = 26.6%

Analysis of Variance Source Regression Residual Error Total DF 1 8 9 SS 1843.6 3467.3 5310.9 MS 1843.6 433.4 F 4.25 P 0.073

Por tanto, la recta de regresin es: cantidad_g = 60.4 + 11.3(miembros_f) As pues, la cantidad que esperamos gastar en una familia de 8 miembros ser: Cantidad_g = 60.4 + 11.3 * 8 = 150.8

Proyecto e-Math Financiado por la Secretara de Estado de Educacin y Universidades (MECD)

20

Anlisis de regresin y correlacin lineal.

BIBLIOGRAFA
[1] [2] [3] [4] [5]

____________________________

D.A. Lind, R.D. Mason, W.G. Marchal (2001): Estadstica para Administracin y Economa. Ed. Irwin McGraw-Hill.F. Kvanli, A. Introduction to Business Statistics South-Western R. Johnson (1996): Elementary Statistics. Ed. Duxbury Richard I. Levin & David S. Rubin (1996): Estadstica para Administradores. Ed. Prentice Hall. E. Farber (1995): A Guide to Minitab. Ed. McGraw-Hill.

ENLACES

___________________________________

http://www.unalmed.edu.co/~estadist/regression/regresion.htm : Caractersticas y applet de Regresin lineal. http://kitchen.stat.vt.edu/~sundar/java/applets/ : Applets de Java de Estadstica http://huizen.dds.nl/~berrie/ : Coleccin de enlaces a applets de Java de Estadstica http://e-stadistica.bio.ucm.es/mod_regresion/regresion_applet.html : Caractersticas y applets de regresin lineal simple http://www.stat.wvu.edu/SRS/Modules/Applets/Regression/regression.html : Applet de Java para calcular la recta de regresin http://www2.egr.uh.edu/%7Eemw30693/applet.htm : Applet de Java para calcular la recta de regresin http://www.ruf.rice.edu/%7Elane/stat_sim/reg_by_eye/index.html : Ejemplo de recta de regresin y correlacin lineal http://www.kuleuven.ac.be/ucs/java/version2.0/Applet010.html : Applet para calcular la recta de regresin http://www.kuleuven.ac.be/ucs/java/index.htm : Coleccin de applets para mostrar conceptos de estadstica. http://ima.udg.es/Docencia/02-03/3105100015/Dossier_Rev.pdf : Ejercicios resueltos con Minitab de la Universitat de Girona.

Proyecto e-Math Financiado por la Secretara de Estado de Educacin y Universidades (MECD)

21

Contrastes de hiptesis de 1 poblacin

CONTRASTES DE HIPTESIS DE 1 POBLACIN


Autores: Alicia Vila (avilag@uoc.edu), Mximo Sedano (msedanoh@uoc.edu), ngel A. Juan (ajuanp@uoc.edu), Anna Lpez (alopezrat@uoc.edu).

ESQUEMA DE CONTENIDOS

________________________

Definicin

Explicacin grfica

Ejemplo de clculo

P - VALOR

Ejemplo de clculo

Distribucin Normal

CH- 1 POBLACIN

Distribucin t-student

Caso prctico con Minitab

Proyecto e-Math Financiado por la Secretara de Estado de Educacin y Universidades (MECD)

Contrastes de hiptesis de 1 poblacin

INTRODUCCIN

___________________

En este math-block, se pretende entender qu es y para qu se utiliza un contraste de hiptesis, as como saber calcular e interpretar los p-valor a la hora de realizar dichos contrastes para la media poblacional, sea o no conocida la desviacin estndar poblacional.

OBJETIVOS
Definir una hiptesis y realizar la prueba de sta Entender el concepto de p-valor

________________________

Saber calcular el p-valor en los contrastes de hiptesis unilaterales y bilaterales Saber interpretar el resultado del p-valor a la hora de tomar decisiones en los contrastes de hiptesis

CONOCIMIENTOS PREVIOS

___________________________________

Es recomendable haber revisado los math-blocks correspondientes a La distribucin normal y Estimacin puntual y intervalos de confianza, as como los ejercicios asociados resueltos con Minitab.

Proyecto e-Math Financiado por la Secretara de Estado de Educacin y Universidades (MECD)

Contrastes de hiptesis de 1 poblacin

CONCEPTOS FUNDAMENTALES___________________________________

Concepto de contraste de hiptesis


Podemos definir un contraste de hiptesis como un procedimiento que se basa en lo observado en las muestras y en la teora de la probabilidad para determinar si la hiptesis es un enunciado razonable.

Contraste de hiptesis de una poblacin


Un contraste de hiptesis es un proceso estadstico que permite elegir una hiptesis de trabajo de entre dos posibles y antagnicas. El contraste comienza con la formulacin de dos hiptesis sobre el valor de algn parmetro poblacional, siendo ambas incompatibles (si una es cierta, la otra necesariamente ha de ser falsa). Supondremos cierta una de ellas, a la cual llamaremos hiptesis nula H0, y trataremos de determinar hasta qu grado las observaciones registradas son coherentes con H0. Slo en caso de que haya fuertes indicios de incompatibilidad entre el supuesto de que H0 sea cierta y los datos obtenidos empricamente, descartaremos H0 como hiptesis de trabajo y en su lugar tomaremos como cierta la hiptesis alternativa H1 . Dos ejemplos de contrastes de hiptesis seran:

H 0 : = 0 (i ) H1 : 0
Contraste Bilateral ()

H 0 : = 2,5 () (ii ) H 1 : > 2,5


Contraste Unilateral (>)

En el siguiente esquema se representan las cuatro combinaciones posibles (en funcin de la decisin que tomemos y de la certeza o no de la hiptesis nula) de todo contraste de hiptesis: Decisin tomada Verdadera No descartar H0 Decisin correcta de tipo A Probabilidad 1- Error de tipo I Probabilidad Error de tipo II Probabilidad Decisin correcta de tipo B Probabilidad 1- Hiptesis Nula H0 Falsa

Descartar H0

Tendremos una decisin correcta de tipo A cuando hayamos optado por no descartar la hiptesis nula y resulte que sta es cierta. Por su parte, una decisin correcta de tipo B ocurrir cuando hayamos decidido descartar la hiptesis nula y resulte que sta era falsa. Hablaremos de error de tipo I cuando hayamos descartado la hiptesis nula siendo sta cierta (error que se considera como muy grave). Finalmente, acontecer un error de tipo II cuando hayamos optado por no descartar la hiptesis nula y resulte que sta es falsa. Dado que descartaremos o no la hiptesis nula a partir de muestras obtenidas (es decir, no dispondremos de informacin completa sobre la poblacin), no ser posible garantizar que la decisin tomada sea la correcta.

Proyecto e-Math Financiado por la Secretara de Estado de Educacin y Universidades (MECD)

Contrastes de hiptesis de 1 poblacin


Lo que s podremos hacer es controlar la probabilidad de cometer un error. Ahora bien, cul de ellos? En un contraste de hiptesis lo interesante es rechazar la hiptesis nula. Por lo tanto el riesgo que estoy dispuesto a asumir de equivocarme al rechazar la H0, error de tipo I, es el que queremos controlar. Fijmonos que a error de tipo I ms pequeo ms seguridad al rechazar la hiptesis nula. Ahora bien, al empequeecer el error de tipo I estamos javascript:sendmail()aumentando el error de tipo II, puesto que cuanta ms probabilidad de aceptar H0 ms posibilidades de que aceptemos casos donde se cumpla H1 (error de tipo II). Usualmente el error de tipo I se fija en 0,01, 0,05 0,10. Fijado el error de tipo I para empequeecer el error de tipo II debemos aumentar el tamao de muestra. Ahora bien, aumentar el nmero de muestra no siempre es posible ya sea por falta de presupuesto o tiempo, por inviabilidad, Llamaremos potencia del contraste a la probabilidad de rechazar la hiptesis nula siendo sta falsa. Fijmonos que, a mayor potencia, mejor contraste, puesto que podremos aceptar la hiptesis alternativa con poca probabilidad de que sea falsa. Denotaremos por el nivel de significacin o probabilidad de cometer un error de tipo I, y por la probabilidad de cometer un error de tipo II. Con lo cual, la potencia es de 1 - . Como ya hemos indicado usualmente se fija en 0,01, 0,05 o 0,10. Notamos otra vez que , , y el tamao muestral n estn interrelacionados, de forma que si hacemos disminuir cualquiera de ellos alguno de los dos restantes habr de aumentar. As, p.e., si queremos tomar un menor deberemos aceptar que aumente o bien incrementar el tamao de la muestra n . Finalmente, llamaremos estadstico de contraste a una v.a. calculada a partir de las observaciones muestrales, la cual se usa conjuntamente con un criterio de decisin (establecido a priori) para determinar si hemos de descartar o no la hiptesis nula. Concepto de p-valor. Definimos el p-valor como la probabilidad de que, suponiendo cierta H0, el estadstico de contraste tome un valor al menos tan extremo como el que se obtiene a partir de las observaciones muestrales, i.e., el p-valor es el rea de la cola de la distribucin (o colas si el test es bilateral) definida a partir del estadstico de contraste: 1. El p-valor slo puede calcularse una vez tomada la muestra, obtenindose niveles crticos distintos para cada muestra. 2. El p-valor puede interpretarse como un nivel mnimo de significacin en el sentido de que niveles de significacin , iguales o superiores al p - valor llevarn a rechazar la hiptesis nula. Por tanto, cuanto menor sea el p - valor mayor es el grado de incompatibilidad de la muestra con H0, lo que lleva a rechazar H0. 3. El clculo del p-valor no proporciona de modo sistemtico una decisin entre H0 y H1. Esta forma de abordar los tests, nos permite una visin ms amplia, por cuanto nos da informacin de para qu niveles de significacin puede rechazarse la hiptesis nula, y para cuales no se puede. Para lo que sigue, tendremos en cuenta la siguiente propiedad: Supuesto:

X se distribuye segn una normal.

Proyecto e-Math Financiado por la Secretara de Estado de Educacin y Universidades (MECD)

Contrastes de hiptesis de 1 poblacin

X tambin lo har. En caso contrario, Recordatorio TCL: Si X se distribuye normalmente necesitaremos tomar un tamao muestral n grande (generalmente, n > 30 es suficiente).
Uso del p-valor en los contrastes sobre con conocida Dada una poblacin X (que sigue una distribucin cualquiera), con media (desconocida) y desviacin estndar conocida, se trata de contrastar alguno de los tres tests siguientes:

H 0 : = 0 H 1 : 0

o bien

H 0 : = 0 H 1 : < 0 z* = x

o bien

H 0 : = 0 H 1 : > 0

Estadstico de contraste:

N (0,1)

Si H1 contiene > p-valor = P(Z>z*) Si H1 contiene < p-valor = P(Z<z*) Si H1 contiene p-valor = P(Z< -z* Z>z*) = 2 P(Z< z*)

P-valor cuando H1 contiene ">"


0,4

Funcin de densidad (f.d.p.)

0,3

0,2 p-valor 0,1

0,0 0 z*

Valores de la v.a. Z

P-valor cuando el test es bilateral


0,4

Funcin de densidad (f.d.p.)

0,3

p-valor

0,2

0,1

0,0 -/z*/ 0 /z*/

Valores de la v.a. Z

Proyecto e-Math Financiado por la Secretara de Estado de Educacin y Universidades (MECD)

Contrastes de hiptesis de 1 poblacin

El p-valor nos proporciona el grado de credibilidad de la hiptesis nula: si el valor de p fuese muy pequeo (inferior a 0,001), significara que la hiptesis nula es del todo increble (en base a las observaciones obtenidas), y por tanto la descartaramos; si el valor de p oscilase entre 0,05 y 0,001 significara que hay fuertes evidencias en contra de la hiptesis nula, por lo que la rechazaramos o no en funcin del valor que hubisemos asignado (a priori) a . Finalmente, si el valor de p es grande (superior a 0,05), no habra motivos suficientes como para descartar la hiptesis nula, por lo que la tomaramos como cierta. Criterio de decisin: Descartaremos H0 si p-valor (normalmente = 0,05). En caso contrario aceptaremos H0 (p-valor > )

Ejemplo utilizando la tabla de la normal. Un banco quiere analizar si las comisiones que cobra a sus clientes por operaciones en el mercado burstil difieren significativamente de las que cobra la competencia, cuya media es de 12 euros mensuales con una desviacin estndar de 4,3 euros. Este banco toma una muestra de 64 operaciones burstiles y observa que la comisin promedio es de 13,6 euros. Contrastar, al nivel de significacin del 5%, que este banco no difiere significativamente en el cobro de las comisiones por operaciones en la Bolsa con respecto a la competencia. Sea X = Comisiones que se cobran por operaciones en el mercado burstil Tenemos: X ( , 4,3) Queremos contrastar:

H 0 : = 12 H 1: : 12
Es decir, queremos contrastar si es 12 euros como la competencia o si por el contrario es distinto de esta cantidad. Calculamos el estadstico de contraste,

Z* =

X H0

X H0

13,6 12 1,6 = = 2,98 4,3 0,5375 64

Como es un contraste de dos extremos, ahora tenemos que calcular el p-valor correspondiente a z*=2,98, es decir el rea que hay por debajo de z=-2,98 ms el rea que hay por encima de z= 2,98, i.e., el rea en las dos colas. Si observamos la tabla de la distribucin normal estndar, podemos comprobar que el rea que hay a la izquierda de z=-2,98 es 0,0014 y el rea que hay a la derecha de 2,98 es tambin 10,9986=0,0014 por lo que el p-valor= 2*0,0014=0,0028 Como el p-valor es menor que el nivel de significacin, rechazaremos la hiptesis nula a un nivel de significacin del 5%. Por lo tanto existe evidencia estadstica de que la comisin promedio que cobra este banco difiere significativamente de la competencia.

Proyecto e-Math Financiado por la Secretara de Estado de Educacin y Universidades (MECD)

Contrastes de hiptesis de 1 poblacin

Uso del p-valor en los contrastes sobre con desconocida

Dada una poblacin X (que sigue una distribucin cualquiera), con media y desviacin estndar desconocidas, se trata de contrastar alguno de los tres tests siguientes:

H 0 : = 0 H 1 : 0

o bien

H 0 : = 0 H 1 : < 0

o bien

H 0 : = 0 H 1 : > 0

Estadstico de contraste:

t* =

x t Student (n 1) s n
p-valor (normalmente = 0,05).

Criterio de decisin:

Descartaremos H0 si

Ejemplo utilizando la tabla de la t-student La directora del departamento de personal de una importante corporacin est reclutando un gran nmero de empleados para un puesto en el extranjero. Durante el proceso de seleccin, la administracin le pregunta cmo van las cosas, y ella responde que cree que la puntuacin promedio en la prueba de aptitudes ser de aproximadamente 90 puntos. Cuando la administracin revisa 19 de los resultados de la prueba compilados, encuentra que la puntuacin media es 83,24 y la desviacin estndar de esta puntuacin es 11. Si la administracin desea probar la hiptesis H 0 : = 90 vs H a : 90 al nivel de significacin del 10%, Cul es el valor del estadstico de contraste y su p-valor?

H 0 : = 90 H a : 90
Suponemos que la poblacin de resultados de todos los candidatos sigue una distribucin normal . X N ( ; ) y entonces la distribucin muestral de cada media muestral de cada muestra de cada poblacin seguir tambin una normal :

X N ;

S n

Como no se conocen las desviaciones estndar de las dos poblaciones, tendremos que utilizar la distribucin de la t-student como distribucin del estadstico de contraste .

t=

X H0

X H0

t student (n 1)

Si calculamos el estadstico t de contraste nos queda:

Proyecto e-Math Financiado por la Secretara de Estado de Educacin y Universidades (MECD)

Contrastes de hiptesis de 1 poblacin

t=

X H0 X

X H 0 83,25 90 = = 2,6747 11 19 n

Como los grados de libertad son 18, entonces como tenemos un contraste de dos colas, es decir en la hiptesis alternativa aparece el distinto, es decir H 0 : = 90 H 1 : 90 ; entonces el p-valor de t = -2,6747 ser la probabilidad de estar por encima de 2,6747 ms la probabilidad de estar por debajo de t =-2,6747. Cuando no aparece en la tabla de la t-student el valor exacto del estadstico del cual se quiere calcular su p-valor, se toma como referencia el valor ms cercano, en este caso t=-2,5524. Por tanto el p-valor = P(t>2,5524)+P(t<2,5524)=0,01+0,01=2*0,01=0,02, porque a la derecha de 2,5524 hay la misma probabilidad que a la izquierda de -2,5524 As que el p-valor de t=-2,6747 ser menor a 0,02 porque a mayor valor del estadstico menor rea por encima como se puede ver en la tabla. Cuando los grados de libertad no aparezcan en la tabla de la t-student, se toma los grados de libertad ms cercanos al cual se quiere tener en cuenta. Si el contraste hubiese sido de una cola, bien por la derecha o bien por la izquierda, H 1 : > 90 H 1 : < 90 , entonces el pvalor del estadstico (supongamos que el estadstico es t = 2,6747) si el contraste es de cola derecha, es decir (mayor que), sera la probabilidad de estar por encima de t = 2,5524 que sera 0,01, por lo que el p-valor de t= 2,6747 sera menor que 0,01. Si es por la cola izquierda (es decir menor que), el p-valor del estadstico (supongamos que el estadstico vale t= -2,6747) sera la probabilidad de estar por debajo de t = -2,5524 que sera 0,01, por lo que el p-valor de t= - 2,6747 sera menor que 0,01. Uso del p-valor en los contrastes sobre la prob. de xito p en una binomial Supongamos que una poblacin X se distribuye segn una binomial con probabilidad de xito p desconocida. A fin de estimar dicho parmetro, tomamos una muestra de tamao n y definimos la probabilidad muestral de xito como: p = n xitos observados / n . Se tratar de contrastar alguno de los tres tests siguientes:

H 0 : p = p0 H 1 : p p0

o bien

H 0 : p = p0 H 1 : p < p0

o bien

H 0 : p = p0 H 1 : p > p0

Supuesto 1: La distribucin de X es aproximadamente normal.

Recordemos que si n 20 , n*p 5 , y n*(1-p) 5 , entonces X N np, np (1 p ) . Supuesto 2: Las n observaciones que constituyen la muestra han sido seleccionadas de forma aleatoria e independiente de una poblacin que no ha cambiado durante el muestreo. Estadstico de contraste:

z* =

p p

p (1 p) n

N (0,1)

Criterio de decisin:

Descartaremos H0 si

p-valor (normalmente = 0,05).

Proyecto e-Math Financiado por la Secretara de Estado de Educacin y Universidades (MECD)

Contrastes de hiptesis de 1 poblacin

Ejemplo utilizando la tabla de la normal Un portal e-business sabe que el 60% de todos sus visitantes a la web estn interesados en adquirir sus productos pero son reacios al comercio electrnico y no realizan finalmente la compra va Internet. Sin embargo, en la direccin del portal se piensa que en el ltimo ao, el porcentaje de gente que est dispuesta a comprar por Internet ha aumentado y eso se debe reflejar en sus resultados empresariales. Contrastar al nivel de significacin del 2% si en el ltimo ao se ha reducido el porcentaje de gente que no est dispuesta a comprar por Internet, si para ello se tom una muestra de 500 visitantes para conocer su opinin y se observ que el 55% no estaba dispuesto a realizar compras va on-line.

H 0 : p = 0,6 H A: : p < 0,6


La distribucin del nmero de visitantes del portal que no estn dispuestos a comprar va internet se va a aproximar a una normal debido a que n*p = 500*0,6 = 300 5. Calculamos el estadstico de control estandarizado:

z* =

p p p (1 p ) n

0,55 0,6 0,6(1 0,6) 500

= 2,27

Como es un contraste de un extremo, por la izquierda, ahora tenemos que calcular el p-valor correspondiente a z*=-2,27 es decir el rea que hay bajo la curva a la izquierda de -2,27 en la tabla de la normal. Entonces si vamos a la tabla de la normal, podemos ver que el rea que hay por debajo de z = -2,27 es 0,0116. Como el p-valor = 0,0116 es menor que el nivel de significacin que es 0,02(2%), entonces rechazaremos la hiptesis nula a un nivel de significacin del 2%.. En conclusin existe evidencia estadstica que la proporcin de visitantes al portal que estn dispuestos a comprar a travs de Internet ha aumentado o dicho de otra manera que el porcentaje de visitantes que son reacios a comprar va on-line ha disminuido.

Casos hipotticos: 1. Si el contraste hubiese sido unilateral por la derecha, es decir p > 0,6 y z= 2,27, tendramos que tener en cuenta el reas que hay por encima de z=-2,27,, es decir 1-rea por debajo de z=2,27, es decir 1 P ( Z < 2,27) = 1 0,9884 = 0,0116 Como el p-valor=0,0116 es menor que el nivel de significacin que es 0,02(2%), entonces rechazaremos la hiptesis nula a un nivel de significacin del 2%. En conclusin existe evidencia estadstica que la proporcin de visitantes al portal que estn dispuestos a comprar a travs de Internet ha disminuido o dicho de otra manera que el porcentaje de visitantes que son reacios a comprar va on-line ha aumentado.

Proyecto e-Math Financiado por la Secretara de Estado de Educacin y Universidades (MECD)

Contrastes de hiptesis de 1 poblacin


2. Si el contraste hubiese sido bilateral, es decir en la alternativa hubiese aparecido p 0,6 y z = 2,27 el p-valor sera igual a la suma del rea por encima de z=2,27 ms el rea por debajo de z = -2,27, es decir 0,0116 dos veces, p-valor = 2*0,0116=0,0232. Como el p-valor=0,0232 es mayor que el nivel de significacin que es 0,02(2%), entonces no rechazaremos la hiptesis nula a un nivel de significacin del 2%. En conclusin existe evidencia estadstica que el porcentaje de visitantes que son reacios a comprar va on-line es del 60%.

P-valor cuando el contraste es bilateral


0,4

Funcin de densidad (f.d.p.)

0,3

p-valor: suma de ambas reas = 0,0232

0,2

0,1 0,0116 0,0 -/z*/= - 2,27 0 /z*/ = 2,27 0,0116

Valores de la v.a. Z

Proyecto e-Math Financiado por la Secretara de Estado de Educacin y Universidades (MECD)

10

Contrastes de hiptesis de 1 poblacin

CASOS PRCTICOS CON SOFTWARE___________________________________


1. Una multinacional desea analizar el sueldo neto por ao de sus empleados en las empresas situadas en Espaa. Para ello se tom una muestra de 40 directivos y se obtuvo el salario bruto anual de cada uno. En los ltimos aos se haba estimado que el salario medio anual de los trabajadores en Espaa era de 18.000 euros, con una desviacin estndar de 2.600 euros.

Salarios brutos medios anuales en miles de euros.


18,2630 13,2104 17,8783 15,2542 20,7617 15,1401 19,.8144 16,9471 20,3956 18,8842 20,6542 16,648 22,4938 23,5305 14,9760 22,3734 18,4742 18,9199 18,2433 19,1553 18,2460 20,2367 20,3570 18,2373 18,5457 14,7056 16,8871 16,1106 17,2399 16,5339 17,5765 14,6103 19,2611 16,6708 21,1429 18,8906 17,5592 20,8730 16,6488 12,8947

a) El jefe de personal considera que el sueldo medio anual debe ser menor que 18.000 euros y quiere contrastar, con un nivel de significacin del 0.05, la hiptesis oficial de que el tiempo medio es de 18.000 euros frente a la hiptesis de que dicha media es menor. El contraste de hiptesis que estableceremos ser H0: =18 vs. H1: <18 Seleccionamos Stat > Basic Statistics > 1-Sample Z:

Proyecto e-Math Financiado por la Secretara de Estado de Educacin y Universidades (MECD)

11

Contrastes de hiptesis de 1 poblacin

Z-Test Test of mu = 18.000 vs mu < 18.000 The assumed sigma = 2.60 Variable C1 N 40 Mean 18.129 StDev 2.474 SE Mean 0.411 Z 0.31 P 0.62

Dado que el p-valor obtenido 0.62 > 0.05, no descartaremos la hiptesis nula, esto significa que parece razonable considerar que el salario medio bruto anual sea de es de 18.000 euros.

b) Igualmente, realiza el mismo contraste que en el apartado a), pero suponiendo sta vez que no conoces la desviacin estndar. Anlogamente, seleccionamos Stat > Basic Statistics > 1-Sample t, obteniendo los siguientes resultados:

T-Test of the Mean Test of mu = 18.000 vs mu < 18.000 Variable C1 N 40 Mean 18.129 StDev 2.474 SE Mean 0.391 T 0.33 P 0.63

Por tanto, observamos que el p-valor 0.63 > 0.05, lo cual nos indica que no rechazaremos la hiptesis nula, es decir, asumiremos como posible la opcin de que el salario bruto medio anual sea 18.000 euros, ya que no tenemos indicios suficientes para rechazar esta posibilidad.

Proyecto e-Math Financiado por la Secretara de Estado de Educacin y Universidades (MECD)

12

Contrastes de hiptesis de 1 poblacin

2. El Dpto. de Marketing de una empresa europea quiere analizar la eficacia de su fuerza de ventas. Para ello tom una muestra de 150 comerciales repartidos por sus varias delegaciones en Europa y se obtuvo en euros lo que cada comercial ha facturado en los ltimos seis meses. Se ha comprobado que, hasta ahora, que el volumen facturado por la fuerza de ventas hasta ahora segua una distribucin aproximadamente normal de media 165.000 y desviacin tpica de 45.000 .

a)

Realizar un contraste de hiptesis bilateral sobre la media de la poblacin para un nivel de significacin =0,05.

Tomamos como hiptesis nula H0: = 165000, siendo la hiptesis alternativa H1: 165000 Copiamos los datos en una hoja de Minitab y seleccionamos Stat > Basic Statistics > 1Sample Z :

Proyecto e-Math Financiado por la Secretara de Estado de Educacin y Universidades (MECD)

13

Contrastes de hiptesis de 1 poblacin

Z-Test Test of mu = 165000 vs mu not = 165000 The assumed sigma = 45000 Variable Precio N 150 Mean 153775 StDev 41611 SE Mean 3674 Z -3.06 P 0.0023

Observar que el p-valor obtenido es de 0,0023 < 0,05. Esto indica que deberamos rechazar la hiptesis nula. Por tanto, concluiremos que hay indicios suficientes para pensar que la facturacin obtenida por la fuerza de ventas ha variado.

b)

Realizar un contraste similar al anterior suponiendo que esta vez no conocemos la desviacin estndar .

En este caso, tenemos que utilizar la distribucin t-Student, en lugar de la normal debido a que la desviacin estndar es desconocida. Seleccionamos Stat > Basic Statistics > 1-Sample t:

Proyecto e-Math Financiado por la Secretara de Estado de Educacin y Universidades (MECD)

14

Contrastes de hiptesis de 1 poblacin

T-Test of the Mean Test of mu = 165000 vs mu not = 165000 Variable Precio N 150 Mean 153775 StDev 41611 SE Mean 3398 T -3.30 P 0.0012

Observar que el p-valor obtenido 0,0012 sigue siendo inferior a 0,05, lo que nos lleva nuevamente a rechazar la hiptesis nula. Por ello, podemos concluir que efectivamente la facturacin obtenida por la fuerza de ventas ha variado.

3. Supongamos que trabajamos para un candidato a la alcalda de nuestra ciudad y nos encontramos en plena campaa electoral. Nuestro candidato estima que tiene el apoyo del 55% de los votantes. Sin embargo, acaban de llegar a nuestra oficina los datos de una encuesta reciente en la que slo 86 de 200 potenciales votantes (seleccionados de forma aleatoria) optan por nuestra opcin. Nos interesa contrastar, a un nivel de significacin del 0,05, las hiptesis H0 : p = 0,55 vs. H1 : p < 0,55 . Observar que se verifican los supuestos. En particular, el supuesto de normalidad se verifica dado que n = 200 > 20, np = 200*0,55 > 5, y n(1-p) = 200*0,45 > 5. Realicemos el contraste: Seleccionamos: Stat > Basic Statistics > 1 Proportion :

Entramos en el men Options y rellenamos los campos como se muestra en la imagen siguiente:

Proyecto e-Math Financiado por la Secretara de Estado de Educacin y Universidades (MECD)

15

Contrastes de hiptesis de 1 poblacin

Test and Confidence Interval for One Proportion Test of p = 0,55 vs p < 0,55 Sample 1 X 86 N 200 Sample p 0,430000 95,0 % CI (0,361387; 0,498613) Z-Value -3,41 P-Value 0,000

A raz del resultado obtenido ( p-valor = 0,000 < 0,05 ), concluimos que deberemos descartar la hiptesis nula, i.e., los datos obtenidos en la ltima encuesta sobre intencin de voto sugieren que el porcentaje de votantes que apoyan nuestra candidatura es inferior al 55%. De hecho, a partir de las observaciones, podemos afirmar con un nivel de confianza del 95% que el porcentaje de votos favorables se sita entre un 36% y un 50%.

Proyecto e-Math Financiado por la Secretara de Estado de Educacin y Universidades (MECD)

16

Contrastes de hiptesis de 1 poblacin

RESUMEN-ESQUEMA SOBRE IC & CH PARA 1 POBLACIN________________

NP significa que deberemos usar mtodos No Paramtricos (fuera del contenido del curso)

Proyecto e-Math Financiado por la Secretara de Estado de Educacin y Universidades (MECD)

17

Contrastes de hiptesis de 1 poblacin

TABLA DE LA t-STUDENT_____________________________________________
Esta tabla nos da los valores de tales que P[ t(df) a ] = p

donde t(df) sigue una distribucin t-Student con df grados de libertad a


DF 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 35 40 45 50 60 70 80 90 100 120 150 200 300 1E+09 0,400 0,3249 0,2887 0,2767 0,2707 0,2672 0,2648 0,2632 0,2619 0,2610 0,2602 0,2596 0,2590 0,2586 0,2582 0,2579 0,2576 0,2573 0,2571 0,2569 0,2567 0,2566 0,2564 0,2563 0,2562 0,2561 0,2560 0,2559 0,2558 0,2557 0,2556 0,2553 0,2550 0,2549 0,2547 0,2545 0,2543 0,2542 0,2541 0,2540 0,2539 0,2538 0,2537 0,2536 0,2533 0,250 1,0000 0,8165 0,7649 0,7407 0,7267 0,7176 0,7111 0,7064 0,7027 0,6998 0,6974 0,6955 0,6938 0,6924 0,6912 0,6901 0,6892 0,6884 0,6876 0,6870 0,6864 0,6858 0,6853 0,6848 0,6844 0,6840 0,6837 0,6834 0,6830 0,6828 0,6816 0,6807 0,6800 0,6794 0,6786 0,6780 0,6776 0,6772 0,6770 0,6765 0,6761 0,6757 0,6753 0,6745 0,150 1,9626 1,3862 1,2498 1,1896 1,1558 1,1342 1,1192 1,1081 1,0997 1,0931 1,0877 1,0832 1,0795 1,0763 1,0735 1,0711 1,0690 1,0672 1,0655 1,0640 1,0627 1,0614 1,0603 1,0593 1,0584 1,0575 1,0567 1,0560 1,0553 1,0547 1,0520 1,0500 1,0485 1,0473 1,0455 1,0442 1,0432 1,0424 1,0418 1,0409 1,0400 1,0391 1,0382 1,0364 VALORES DE P 0,100 0,050 3,0777 6,3137 1,8856 2,9200 1,6377 2,3534 1,5332 2,1318 1,4759 2,0150 1,4398 1,9432 1,4149 1,8946 1,3968 1,8595 1,3830 1,8331 1,3722 1,8125 1,3634 1,7959 1,3562 1,7823 1,3502 1,7709 1,3450 1,7613 1,3406 1,7531 1,3368 1,7459 1,3334 1,7396 1,3304 1,7341 1,3277 1,7291 1,3253 1,7247 1,3232 1,7207 1,3212 1,7171 1,3195 1,7139 1,3178 1,7109 1,3163 1,7081 1,3150 1,7056 1,3137 1,7033 1,3125 1,7011 1,3114 1,6991 1,3104 1,6973 1,3062 1,3031 1,3007 1,2987 1,2958 1,2938 1,2922 1,2910 1,2901 1,2886 1,2872 1,2858 1,2844 1,2816 1,6896 1,6839 1,6794 1,6759 1,6706 1,6669 1,6641 1,6620 1,6602 1,6576 1,6551 1,6525 1,6499 1,6449 0,025 12,7062 4,3027 3,1824 2,7765 2,5706 2,4469 2,3646 2,3060 2,2622 2,2281 2,2010 2,1788 2,1604 2,1448 2,1315 2,1199 2,1098 2,1009 2,0930 2,0860 2,0796 2,0739 2,0687 2,0639 2,0595 2,0555 2,0518 2,0484 2,0452 2,0423 2,0301 2,0211 2,0141 2,0086 2,0003 1,9944 1,9901 1,9867 1,9840 1,9799 1,9759 1,9719 1,9679 1,9600 0,010 31,8210 6,9645 4,5407 3,7469 3,3649 3,1427 2,9979 2,8965 2,8214 2,7638 2,7181 2,6810 2,6503 2,6245 2,6025 2,5835 2,5669 2,5524 2,5395 2,5280 2,5176 2,5083 2,4999 2,4922 2,4851 2,4786 2,4727 2,4671 2,4620 2,4573 2,4377 2,4233 2,4121 2,4033 2,3901 2,3808 2,3739 2,3685 2,3642 2,3578 2,3515 2,3451 2,3388 2,3263 0,005 63,6559 9,9250 5,8408 4,6041 4,0321 3,7074 3,4995 3,3554 3,2498 3,1693 3,1058 3,0545 3,0123 2,9768 2,9467 2,9208 2,8982 2,8784 2,8609 2,8453 2,8314 2,8188 2,8073 2,7970 2,7874 2,7787 2,7707 2,7633 2,7564 2,7500 2,7238 2,7045 2,6896 2,6778 2,6603 2,6479 2,6387 2,6316 2,6259 2,6174 2,6090 2,6006 2,5923 2,5758

Proyecto e-Math Financiado por la Secretara de Estado de Educacin y Universidades (MECD)

18

Contrastes de hiptesis de 1 poblacin

BIBLIOGRAFA
[1] [2] [3] [4]

______________________________________________

D.A. Lind, R.D. Mason, W.G. Marchal (2001): Estadstica para Administracin y Economa. Ed. Irwin McGraw-Hill.F. Kvanli, A. Introduction to Business Statistics South-Western R. Johnson (1996): Elementary Statistics. Ed. Duxbury Richard I. Levin & David S. Rubin (1996): Estadstica para Administradores. Ed. Prentice Hall.

ENLACES

___________________________________

http://oak.cats.ohiou.edu/~wallacd1/shyp.html : Caractersticas y ejemplos del contraste de hiptesis para una muestra, conocida la media y desviacin estndar de la poblacin. http://oak.cats.ohiou.edu/~wallacd1/sci.html : Caractersticas y ejemplos de intervalos de confianza para una muestra, conocida la media de la poblacin. http://halweb.uc3m.es/esp/Personal/personas/stefan/ESP/applet.htm : Coleccin de applets de conceptos bsicos de Estadstica. http://e-stadistica.bio.ucm.es/mod_intervalos/intervalos_applet.html : Applet sobre estimacin por intervalos. http://e-stadistica.bio.ucm.es/mod_contraste/contraste_applet.html : Applet sobre contraste de hiptesis.

Proyecto e-Math Financiado por la Secretara de Estado de Educacin y Universidades (MECD)

19

Contraste de hiptesis de dos poblaciones

CONTRASTE DE HIPTESIS DE DOS POBLACIONES


Autores: ngel A. Juan (ajuanp@uoc.edu), Mximo Sedano (msedanoh@uoc.edu), Alicia Vila (avilag@uoc.edu), Anna Lpez (alopezrat@uoc.edu)

MAPA CONCEPTUAL

________________________

Definicin de muestras dep. e indep.

Ejemplo

MUESTRAS DEPENDIENTES E INDEPENDIENTES

Diferencia de proporciones

CONTRASTES DE HIPOTESIS PARA MUESTRAS DEPENDIENTES E INDEPENDIENTES

Diferencia de medias

Casos prcticos

Por la definicin

Con Minitab

Proyecto e-Math Financiado por la Secretara de Estado de Educacin y Universidades (MECD)

Contraste de hiptesis de dos poblaciones

INTRODUCCIN

___________________

En este math-block, se pretende calcular e interpretar aquellos contrastes sobre la diferencia de medias y la diferencia de proporciones para dos poblaciones, que permita tomar decisiones acerca de qu poblacin hay que tener en cuenta en comparacin con la otra. Adems de calcular intervalos de confianza (rango de valores dentro del que se espera encontrar un determinado parmetro de la poblacin), se realizar lo que llamaremos prueba de hiptesis acerca de una afirmacin sobre un parmetro de la poblacin. Para poner de manifiesto sus aplicaciones en la vida real, pondremos ejemplos de actividades en el mbito econmico-empresarial y en el informtico. [2] Hasta ahora, habamos utilizado una sla muestra aleatoria, comparando su media con un valor supuesto de la media poblacional, es decir, nos plantebamos si era posible que muestra con una media dada pudiera provenir de una poblacin la media propuesta. En este caso, extenderemos la idea anterior a dos muestras, preguntndonos si las medias de ambas son iguales o no, es decir, el planteamiento ser razonar si es posible que las dos medias muestrales puedan provenir de dos poblaciones idnticas.

OBJETIVOS

________________________

Entender la diferencia entre muestras independientes y dependientes. Realizar los contrastes de diferencia de medias y de proporciones en dos muestras independientes. Saber interpretar los resultados estadsticos obtenidos. Tomar conclusiones de cualquier ndole a travs de los contrastes de hiptesis de dos poblaciones.

CONOCIMIENTOS PREVIOS

___________________________________

Es recomendable haber ledo, previamente, el math-block Estimacin puntual e intervalos de confianza y Contraste de hiptesis de una poblacin, as como el manual introductorio a Minitab y los ejercicios con Minitab asociados a los math-blocks anteriores.

Proyecto e-Math Financiado por la Secretara de Estado de Educacin y Universidades (MECD)

Contraste de hiptesis de dos poblaciones

CONCEPTOS FUNDAMENTALES

______________________________

Diferencia entre muestras independientes y dependientes Dos muestras son independientes o dependientes entre s, en funcin de si las observaciones de las muestras se han obtenido de los mismos individuos u objetos o no. Si ambas muestras se obtienen de distintos individuos, mquinas, empresas, objetos, etcno hay nada en comn en dichas muestras lo que hace que ambas sean independientes. Sin embargo, si las observaciones o valores de ambas muestras se obtienen de los mismos individuos, empresas, agentes, etc., diremos que hay algo en comn en dichas muestras por lo que sern muestras dependientes o no independientes. Ejemplo: Supongamos que queremos comparar los beneficios empresariales del sector de la construccin entre el ao 2001 y el ao 2002. Para ello podemos tomar una muestra aleatoria formada por 50 empresas constructoras de todo el pas y medimos sus beneficios en el ao 2001. A continuacin, para poder comparar los beneficios del sector con el ao 2002, se toma otra muestra aleatoria distinta con otras 30 empresas constructoras y analizamos sus beneficios en el ao 2002. En este caso se trata de muestras independientes puesto que las observaciones de ambas muestras se toman de distintos individuos, en este caso distintas empresas. Sin embargo, si en el ao 2002 observamos los beneficios de las mismas 50 empresas constructoras de la muestra del ao 2001, estaramos por tanto ante muestras dependientes, o no independientes. Supongamos ahora que, al iniciar el semestre, seleccionamos al azar 30 alumnos matriculados en Estadstica y les pasamos un test de conocimientos previos. Al final del semestre, seleccionamos otros 30 alumnos al azar y les pasamos un test de conocimientos adquiridos durante el curso. En tal caso, consideraramos ambas muestras como independientes. Por el contrario, si el test de conocimientos adquiridos se realizase a los mismos 30 alumnos que hicieron el test inicial, entonces hablaramos de muestras dependientes.

Proyecto e-Math Financiado por la Secretara de Estado de Educacin y Universidades (MECD)

Contraste de hiptesis de dos poblaciones


Contrastes de hiptesis en muestras dependientes 1. Contraste de diferencia de medias en dos muestras dependientes A las personas que sufren de tensin alta, se les recomienda seguir una dieta libre de sal. Queremos realizar un estudio para comprobar si esta dieta es efectivamente ventajosa. Para el estudio se estudio una muestra de 8 personas y se tom la tensin antes de empezar la dieta y dos semanas despus. Los resultados obtenidos fueron: Antes Despus 93 92 106 102 87 89 92 92 102 101 95 96 88 88 110 105

Denotamos A y B a las medias poblacionales de tensin antes y despus de empezar la dieta, respectivamente. De este modo, el contraste de hiptesis que debemos plantear es:

H0 : A = B H1 : A < B (, >)

(1)

Observacin: En el caso que tuviramos la creencia de que el hacer dieta supone una disminucin de la presin de 2 puntos entonces el contraste deberamos plantearlo como:

H0 : A B = 2 H1 : A B < 2 (, >)

Para realizar el contraste observamos en primer lugar que las muestras de antes, XA, y despus de la dieta, XB, son dependientes, puesto que se han tomado del mismo individuo. Para realizar este contraste consideramos la diferencia de ambas muestras: d = XA - XB. Denotaremos por d = A-B y d a su media y desviacin estndar respectivamente. Observamos pues que el contraste anterior es equivalente al contraste:

H 0 : d = 0 H 1 : d < 0 (, >)

Supuesto: XA y XB siguen una distribucin normal. Observacin: d = XA-XB N(A-B ,d) . El intervalo de confianza, a nivel 1-, para d = A-B viene dado por la expresin:

d t n 1,

)* S

donde t(n-1,/2) es el valor que, en una t-Student con n-1 grados de libertad, deja a su derecha un rea de /2 , y Sd es la desviacin estndar muestral de la v.a. d.

El estadstico de contraste para el test

H 0 : d = 0 H 1 : d 0 (o bien < >)

es:

Proyecto e-Math Financiado por la Secretara de Estado de Educacin y Universidades (MECD)

Contraste de hiptesis de dos poblaciones

t* =

d d t Sudent (n 1) Sd

En nuestro ejemplo o= 0. En el caso de la observacin donde sospechbamos que la tensin bajaba dos puntos, o= 2.

d = 1 y S d = 2.390 . Entonces con un 95% de confianza d ( 3,1) .


As siguiendo nuestro ejemplo: Y el estadstico de contraste es t* = -1.18. Ahora bien, mirando la tabla de la t (7, 0.05) =1.895. De este modo, como t* < -1.18 no tenemos evidencias significativas que realmente hacer dieta sea ventajoso.

Contrastes de hiptesis en muestras independientes 1. Contraste de diferencia de medias en dos muestras independientes Para realizar esta prueba, se requiere de tres suposiciones: Las poblaciones muestreadas tienen una distribucin normal Las dos muestras son independientes Las desviaciones estndar de ambas poblaciones son iguales

Supongamos que un estadstico de recursos humanos desea analizar si los salarios por hora de los obreros semiespecializados son los mismos, mayores o menores en Madrid que en Barcelona. Los datos muestrales obtenidos son los siguientes: Salarios medios por hora de la muestra 8,95 euros 9,1 euros Desviacin estndar de la muestra 0,4 euros 0,6 euros Tamao de la muestra 200 175

Ciudad Madrid Barcelona

Supongamos que la empresa desea probar la hiptesis en el nivel de significacin del 5% de que (en promedio) no hay diferencia entre los salarios por hora de los trabajadores semiespecializados de las dos ciudades. Llamamos M y B a las medias de salarios por hora de los trabajadores de Madrid y de Barcelona, respectivamente. Con esta notacin el anterior contraste de hiptesis equivale a formular:

H 0 : M = B H 1 : M B (o bien < >)


Notamos que en este ejemplo tomaremos el contraste bilateral, es decir, la hiptesis alternativa H1 es un desigual y no un mayor que o menor que puesto que no nos dan ninguna pista para saber en que lugar realmente creemos que en promedio el salario es mayor. Si en el enunciado se detallar que hay sospechas de que en Madrid se cobra un salario superior al de Barcelona entonces la hiptesis alternativa se traducira por M > B, y a la inversa en caso contrario.

Proyecto e-Math Financiado por la Secretara de Estado de Educacin y Universidades (MECD)

Contraste de hiptesis de dos poblaciones


Observamos adems que tal como hemos tomados las muestras stas provienen de grupos independientes. Realizaremos pues un contraste de hiptesis de muestras independientes. Denotamos:

X M : Media de la muestra de los salarios de Madrid,


SM : Desviacin estndar de la muestra de los salarios de Madrid, nM: : Nmero de individuos de la muestra de Madrid.

X B : Media de la muestra de los salarios de Barcelona,


SB : Desviacin estndar de la muestra de los salarios de Barcelona, nB : Nmero de individuos de la muestra de Barcelona. En nuestro ejemplo: X M = 8,95, SM = 0,4, nM = 200 y X B = 9,1, SB = 0,6, nB = 175. Bajo el supuesto que los salarios (por hora) se distribuyen mediante una distribucin Normal tenemos:

X M X B N M B ,

2 M

nM

+ B
2

nB

donde M i B son las desviaciones poblacionales de los salarios de Madrid y Barcelona, respectivamente. El intervalo de confianza de nivel de confianza (1 ) para expresin:

M B

viene dado por la

( X M X B ) t (min{nM 1, nB 1}, / 2)

2 SM

nM

2 SB

nB

donde t(min{},/2) es el valor que, en una t-Student con los grados de libertad indicados, deja a su derecha un rea de /2, y SM, SB son las desviaciones estndar de las muestras.

El estadstico de contraste para el test junto a su distribucin es:

t* =

( X M X B ) ( M B ) H0
2 SM

nM

2 + SB

t (min{ n M 1, n B 1}, / 2)

nB

La expresin ejemplo H 0 :

( M B ) H0

M B = 0 por lo tanto ( M B ) H =0.


0

es el valor de la diferencia bajo la hiptesis nula. En nuestro

Observacin 1:

Proyecto e-Math Financiado por la Secretara de Estado de Educacin y Universidades (MECD)

Contraste de hiptesis de dos poblaciones


En algunos casos lo que nos interesa es discutir si el promedio de las muestras difieren significativamente o no en un nmero k. Por ejemplo si en el enunciado del ejemplo anterior nos expusieran lo siguiente:

Por cuestiones de impuestos sabemos que en Madrid los salarios son 1Euro por hora ms que en Madrid, pero sospechamos que son ms de un euro
De este modo, el contraste de hiptesis se traduce formalmente como:

H 0 : M B = 1 H 1 : M B > 1

Para contrastar esta hiptesis utilizamos el mismo estadstico t* pero en este caso

( M B ) H 0 =1.

Sigamos con nuestro ejemplo . Si calculamos t*:

t* =

(8,95 9,1) 0 0,4 2 200 + 0,6 2 175

= 2,83

Entonces como min(199,174) = 174, para 174 grados de libertad, si vamos a la tabla de la tstudent a los grados de libertad ms cercanos, 150, podemos ver que el rea que hay por debajo de t* = -2,83, ser menor que 0,005 que es el rea por debajo del valor t = -2,609 por tanto el p-valor, si el contraste es unilateral, ser menor que 2*0,005 = 0,01. Como el p-valor es menor que el nivel de significacin, si cogemos el 5%, por tanto rechazaremos la hiptesis nula y por tanto existe evidencia estadstica de que s existen diferencias significativas en los salarios de los trabajadores semiespecializados en las dos ciudades. Si el contraste hubiera sido unilateral por la derecha o por la izquierda, es decir, en la hiptesis alternativa, hubiera aparecido > <, entonces el p-valor de t=-2,83 sera menor que 0,005 y habra que compararlo con el nivel de significacin para rechazar o no la hiptesis nula.

Ejemplo: En el campo de la informtica, se hace un experimento en el que se miden las velocidades de los Pentium frente a los correspondientes AMD. Los resultados obtenidos son los siguientes:

X M = 110
2 = 35 SM

X B = 100
2 = 26 SB

n M = 61

n B = 61

Contrastar la hiptesis de que la velocidad media es la misma para ambos procesadores. Nivel de significacin del 1%. Solucin 1: Proyecto e-Math Financiado por la Secretara de Estado de Educacin y Universidades (MECD) 7

Contraste de hiptesis de dos poblaciones


Estamos en el caso de dos muestras independientes de 50 elementos para cada una de ellas. El intervalo de confianza para la diferencia de medias viene dado por:

( X M X B ) t min{n M 1, n B 1},
en

) 2

2 SM

nM
60

2 SB

nB

)
de libertad con

/ 2 = 0.01 / 2 = 0.005 , quedara:


(110 100) 2.6603 10 2.66

nuestro

caso,

tenemos

una

t-student

con

grados

35 26 + 61 61

El intervalo de confianza para la diferencia de medias al 99% es (7.34 , 12.66). Como el intervalo no contiene el valor 0, rechazamos que las medias de los Pentium y los AMD sean iguales. Solucin 2: Podemos realizar un contraste de hiptesis para contestar la cuestin de forma directa.

H 0 : M = B H1 : M = B
El estadstico del contraste es: t* =

( X M X B ) ( Mi Bo ) H 0
2 SM

nM

+ SB

10 = 10 1

nB

El p-valor ser la probabilidad de que en una distribucin t-student con 60 grados de libertad obtengamos un valor superior a 10 o inferior a -10. El p-valor en este ejercicio es prcticamente 0. Podemos rechazar la hiptesis nula a cualquier nivel de significacin ya que la probabilidad de equivocarnos al rechazar es prcticamente cero.

2. Contraste de diferencia de proporciones en dos muestras independientes. Supongamos que con fines de la declaracin del impuesto IRPF, el Ayuntamiento de una determinada ciudad ha estado utilizando dos mtodos para listar propiedades. El primero requiere que el dueo de la propiedad aparezca en persona ante el recabador de la informacin; y el segundo mtodo permite que el propietario enve por correo una declaracin fiscal con la informacin requerida. El Alcalde de la ciudad considera que el mtodo en el cual se requiere la presencia de la persona produce menor errores que el otro. Autoriza la realizacin de un examen de 100 listas hechas con el primer mtodo, donde el 71% no tiene errores y de 90 listas tomadas de los datos llegados por correo, donde el 64,4% no tiene errores. El Ayuntamiento desea probar, al nivel de significacin del 5%, si existe diferencia entre la informacin recogida entre los dos mtodos.

Proyecto e-Math Financiado por la Secretara de Estado de Educacin y Universidades (MECD)

Contraste de hiptesis de dos poblaciones


En este caso queremos contrastar si hay diferencias o no entre las proporciones de errores en el mtodo en el que se requiere presencia respecto a las que no se requiere presencia. Si llamamos PA a la proporcin de errores (poblacionales) cometidos con el mtodo que se requiere presencia y PB a la proporcin de errores cometidos con el mtodo sin presencia, el contraste anterior es equivalente a formular:

H 0 : PA = PB H 1 : PA PB (o bien < >)


Las muestras en este caso son independientes. Este hecho es fundamental para que se cumplan los resultados que damos a continuacin. Denotamos: XA: nmero de errores al realizar nA pruebas en el mtodo en el que se requiere presencia (poblacional). XB: nmero de errores al realizar nB pruebas en el mtodo en el que NO se requiere presencia (poblacional). Y definimos las proporciones de cada muestra como: pA = XA /nA, y pB = XB / nB. En el ejemplo nos dan una realizacin de pA y pB al coger un par de muestras de la poblacin. Estos valores son pA=0,71 y pB=0,644. Para muestras suficientemente grandes (nA , nB >30) se puede demostrar que:

PA (1 PA ) PB (1 PB ) + ( p A pB ) N PA PB , nA nB
Sabemos que: XA B(nA, PA ) y XB B(nB, PB ) Ahora bien, para muestras grandes (recordamos n 20 , n*p 5 , y n*(1-p) 5) ambas se aproximan a una normal:

X A N n A PA , n A PA (1 PA )

X B N n B PB , n B PB (1 PB ) .

Con lo cual este resultado junto a la definicin de pA y pB obtenemos el resultado anterior. El intervalo de confianza, a nivel 1-, para pA-pB viene dado por la expresin:

( p A pB ) z

( 2)

p p (1 p A (1 p A ) B) + B nA nB

donde z(/2) es el valor que, en una normal estndar, deja a su derecha un rea de /2 . El estadstico de contraste para el test ser:

Z* =

( p' A p' B ) 1 1 + p ' p (1 p p ) n n B A

Proyecto e-Math Financiado por la Secretara de Estado de Educacin y Universidades (MECD)

Contraste de hiptesis de dos poblaciones


Podemos escoger diferentes versiones del valor pp. (consultar lieteratura para ver

opciones). Una posible buena aproximacin que utilizamos en los ejemplos que siguen es p ' p =

n A p' A + n B p' B la cual es la estimacin de la porcin completa de xitos de las n A + nB

poblaciones combinadas. De este modo para discutir el contraste en nuestro ejemplo calculamos:

p' p =

n A p ' A + n B p' B 100 0,71 + 90 0,644 71 + 58 = = = 0,6789 100 + 90 190 n A + nB ( p' A p' B ) = 0,71 0,644 1 1 + 0,6789 (1 0,6789) 100 90 = 0,9729

Z* =

1 1 p ' p (1 p p ) n + n B A

El ltimo paso ser calcular el p-valor de z = 0,9729. Como el contraste es bilateral por las dos colas, debemos buscar el rea que hay por encima de z = 0,9729 y el rea que hay por debajo de z = - 0,9729 que ser, p-valor = 2 * 0,1660=0,332, porque el rea por debajo de z = 0,9729 es 1-0,8340, mientras el rea por debajo de z = - 0,9729 es 0,1660. Como el p-valor es 0,332 que es mayor que el nivel de significacin del 5%, no rechazaremos la hiptesis nula, por lo tanto existe evidencia estadstica de que los dos mtodos de recogida de informacin sobre las propiedades de esta ciudad son igualmente fiables.

En el siguiente enlace: http://fltbw2.rug.ac.be/iloapp/Applets/Ap6b.html , podemos encontrar una representacin grfica de este concepto de Contraste de hiptesis para dos muestras. Obtendremos un grfico similar al siguiente, donde podemos modificar los datos de entrada y observar las variaciones resultantes :

Proyecto e-Math Financiado por la Secretara de Estado de Educacin y Universidades (MECD)

10

Contraste de hiptesis de dos poblaciones

CASOS PRCTICOS CON SOFTWARE___________________________________


1. Contraste de diferencia de medias de dos muestras dependientes Hemos pedido a 10 personas que evalen, en base a unos criterios preestablecidos, la calidad y usabilidad de un determinado software informtico. Las puntuaciones varan entre un mnimo de 0 y un mximo de 15. Pasados tres meses, las mismas 10 personas repiten el proceso de evaluacin. Los resultados obtenidos, que introduciremos en las columnas C1 y C2, son los siguientes:
Persona 1 2 3 4 5 6 7 8 9 10 EV_1 13,2 8,2 10,9 14,3 10,7 6,6 9,5 10,8 8,8 13,3 EV_2 14,0 8,8 11,2 14,2 11,8 6,4 9,8 11,3 9,3 13,6

Nuestro objetivo es doble: por un lado, pretendemos calcular un intervalo de confianza, a nivel del 95%, para A-B ; por otro, contrastar las hiptesis: H0 : A-B = 0 vs. A-B 0 . En primer lugar, comprobaremos el supuesto de que las poblaciones siguen una distribucin aproximadamente normal: Seleccionamos: Stat > Basic Statistics > Normality Test : Completamos la ventana siguiente con cada una de las variables a estudiar: Proyecto e-Math Financiado por la Secretara de Estado de Educacin y Universidades (MECD) 11

Contraste de hiptesis de dos poblaciones

En los grficos resultantes se observa que no hay indicios para dudar de que se cumple el supuesto de normalidad ya que los puntos se encuentran muy prximos a las respectivas rectas. Adems, los grficos nos proporcionan tambin el p-valor asociado al test de normalidad de Anderson-Darling, siendo dicho p-valor suficientemente grande en ambos casos como para no descartar la hiptesis nula de este contraste: que los datos siguen una distribucin normal.

Normal Probability Plot

,999 ,99 ,95

Probability

,80 ,50 ,20 ,05 ,01 ,001 6,5 7,5 8,5 9,5 10,5 11,5 12,5 13,5 14,5

EV_1
Av erage: 10,629 StDev : 2,45121 N: 10 Anderson-Darling Normality Test A-Squared: 0,227 P-Value: 0,748

Proyecto e-Math Financiado por la Secretara de Estado de Educacin y Universidades (MECD)

12

Contraste de hiptesis de dos poblaciones

Normal Probability Plot

,999 ,99 ,95

Probability

,80 ,50 ,20 ,05 ,01 ,001 6 7 8 9 10 11 12 13 14

EV_2
Av erage: 11,04 StDev : 2,51847 N: 10 Anderson-Darling Normality Test A-Squared: 0,236 P-Value: 0,715

Pasamos pues a realizar las inferencias ya comentadas sobre A-B : Seleccionamos: Stat > Basic Statistics > Paired t : Completamos la ventana principal y la de opciones como se muestra en las imgenes:

Proyecto e-Math Financiado por la Secretara de Estado de Educacin y Universidades (MECD)

13

Contraste de hiptesis de dos poblaciones

Paired T-Test and Confidence Interval


Paired T for EV_1 - EV_2 EV_1 EV_2 Difference N 10 10 10 Mean 10,629 11,040 -0,411 StDev 2,451 2,518 0,387 SE Mean 0,775 0,796 0,122 P-Value = 0,008

95% CI for mean difference: (-0,688; -0,134) T-Test of mean difference = 0 (vs not = 0): T-Value = -3,36

Los resultados obtenidos nos dicen que, en base a las observaciones registradas, hay una probabilidad de 0,95 de que A-B sea un valor del intervalo (-0,688 , -0,134). Adems, con un p-valor de 0,008 tambin podemos afirmar que hay indicios suficientes como para descartar la hiptesis nula. Por tanto, parece sensato pensar que las dos medias poblacionales son distintas. Notar que esta conclusin es coherente con que el valor 0 no est incluido en el intervalo de confianza hallado para la diferencia de ambas medias. 2. Contraste de diferencia de medias en dos muestras independientes Una agencia de valores desea analizar qu xito han tenido sus nuevos comerciales en la obtencin de nuevos clientes para la intermediacin burstil. Para ello, se tomaron dos muestras de 8 comerciales hombres y 8 comerciales mujeres donde se observ la cantidad de nuevas cuentas conseguidas por cada comercial (hombre o mujer) en el primer mes de trabajo. 93 92 106 102 87 89 92 92 102 101 95 96 88 88 110 105

Comerciales hombre Comerciales mujer

Primero, insertamos los valores anteriores en el espacio de trabajo del Minitab:

Proyecto e-Math Financiado por la Secretara de Estado de Educacin y Universidades (MECD)

14

Contraste de hiptesis de dos poblaciones

a)

Construir una nueva columna con las diferencias entre C1 y C2. Hallar el intervalo de confianza a nivel del 95% para la media de dichas diferencias. Seleccionamos Calc > Calculator :

As generamos una nueva columna formada por la diferencia entre los valores registrados. Seleccionamos ahora Stat > Basic Statistics > 1-Sample t :

Proyecto e-Math Financiado por la Secretara de Estado de Educacin y Universidades (MECD)

15

Contraste de hiptesis de dos poblaciones

T Confidence Intervals Variable C4 N 8 Mean 1,000 StDev 2,390 SE Mean 0,845 ( 95.0 % CI -1,000 ; 3,000)

De este resultado deducimos que en el 95% de los casos la diferencia de nuevos clientes conseguidos entre comerciales hombres y mujeres estar entre 1 y 3, es decir, un mximo de 3 nuevos clientes.

b)

Realizar un contraste de hiptesis, a un nivel de significacin =0,05, para determinar si las dos medias muestrales son significativamente diferentes. Planteamos el siguiente contraste de hiptesis bilateral aprovechando la columna de diferencias anterior: H0 : A = B; H1 : A B; De donde, H0 : B-A = B - A = 0 ; H1 : B-A = B - A 0;

Seleccionamos Stat > Basic Statistics > 1-Sample t :

Proyecto e-Math Financiado por la Secretara de Estado de Educacin y Universidades (MECD)

16

Contraste de hiptesis de dos poblaciones

Obteniendo el siguiente resultado:


T-Test of the Mean Test of mu = 0.000 vs mu not = 0.000 Variable C4 N 8 Mean 1,000 StDev 2,390 SE Mean 0,845 T 1,18 P 0,28

Observar que el p-valor obtenido 0,28 es mucho mayor que 0,05 por lo cual no hay indicios suficientes para rechazar la hiptesis nula. Esto quiere decir que las dos medias no son significativamente diferentes. De ello se deduce que la productividad en la captacin de nuevos clientes no depende de si el comercial es hombre o mujer en el primer mes de trabajo. Supongamos que disponemos los datos sobre las calificaciones obtenidas por dos grupos de estudiantes de Estadstica de la UOC.

Grupo 1 5 7.5 6 2.5 8 9 7 6 4 3.75 9 10 8.25 9 6

Grupo 2 6.25 5.75 5 4.75 8 9 7.5 8 9 10

Proyecto e-Math Financiado por la Secretara de Estado de Educacin y Universidades (MECD)

17

Contraste de hiptesis de dos poblaciones


a) Calcular la un intervalo de confianza para cada una de las dos poblaciones al nivel de confianza del 95%. Comentar los resultados. Para calcular un intervalo de confianza debemos usar las opciones Stat > Basic Statistic > 1-Sample t, pues no tenemos informacin acerca de la varianza de la poblacin.

Variable Grupo1 Grupo2

N 15 10

Mean 6,733 7,325

StDev 2,229 1,807

SE Mean 0,576 0,571

( (

95,0 % CI 5,499; 7,968) 6,032; 8,618)

Si nos fijamos en los dos intervalos de confianza, estos se solapan. Esto implica que si estamos interesados en comparar las medias de ambas poblaciones, estas media pertenecen a intervalos con parte en comun, lo cual hace pensar que estas medias poblacionales, es decir, las medias del grupo1 y del grupo2 pueden ser iguales. En el siguiente apartado veremos si tras contrastar la hiptesis de igualdad de medias podemos concluir lo mismo. b) Calcular un intervalo de confianza para la diferencia de medias. Utilizando este intervalo contrastar la hiptesis de que la medias en los dos grupos no difieren.

Proyecto e-Math Financiado por la Secretara de Estado de Educacin y Universidades (MECD)

18

Contraste de hiptesis de dos poblaciones

Two sample T for Grupo1 vs Grupo2 N Mean Grupo1 15 Grupo2 10 StDev 6,73 7,33 SE Mean 2,23 1,81 0,58 0,57 P = 0,49 DF = 23

95% CI for mu Grupo1 - mu Grupo2: ( -2,34; 1,16) T-Test mu Grupo1 = mu Grupo2 (vs not =): T = -0,70 Both use Pooled StDev = 2,07

Two sample T for Grupo1 vs Grupo2 N Mean Grupo1 15 Grupo2 10 StDev 6,73 7,33 SE Mean 2,23 1,81 0,58 0,57 P = 0,47 DF = 21

95% CI for mu Grupo1 - mu Grupo2: ( -2,28; 1,09) T-Test mu Grupo1 = mu Grupo2 (vs not =): T = -0,73

Proyecto e-Math Financiado por la Secretara de Estado de Educacin y Universidades (MECD)

19

Contraste de hiptesis de dos poblaciones

c) Que error de equivocarnos, si concluimos que hay diferencias entre las poblaciones, deberamos estar dispuestos a asumir. Si observamos por ejemplo el caso en el cual consideramos las varianzas iguales en las dos poblaciones, el error de equivocarnos al rechazar la hiptesis de igualdad de medias es de 0,47. Este error es muy alto, por lo que debemos concluir que no podemos rechazar la hiptesis nula de igualdad de medias. d) Comentar y contrastar las hiptesis que hemos asumido para poder realizar el experimento de comparar las dos muestras. Las hiptesis que hemos utilizado para poder realizar el ejercicio son: Las dos muestran provienen de unas poblaciones normales. En el caso de suponer que las varianzas son iguales, estamos suponiendo que las dos distribuciones normales de las dos poblaciones tienen la misma varianza.

Para comprobar la primera hiptesis, la de la normalidad, podemos realizar un test de Normalidad , y ver si nuestros datos provienen de una distribucin normal. Para el caso de la primera muestra: Seleccionar Stat > Basic Statistic > Normality Test :

obteniendo el siguiente contraste:

Proyecto e-Math Financiado por la Secretara de Estado de Educacin y Universidades (MECD)

20

Contraste de hiptesis de dos poblaciones


Normal Probability Plot

,999 ,99 ,95

Probability

,80 ,50 ,20 ,05 ,01 ,001 2,2 3,2 4,2 5,2 6,2 7,2 8,2 9,2 10,2

Grupo1
Average: 6,73333 StDev: 2,22900 N: 15 Kolmogorov-Smirnov Normality Test D+: 0,090 D-: 0,115 D : 0,115 Approximate P-Value > 0.15

El p-valor del contraste es >0,15. Por lo tanto no podemos rechazar la hiptesis de que los datos provengan de una distribucin normal. Para la segunda muestra obtendramos los siguientes resultados:
Normal Probability Plot

,999 ,99 ,95

Probability

,80 ,50 ,20 ,05 ,01 ,001 5 6 7 8 9 10

Grupo2
Average: 7,325 StDev: 1,80682 N: 10 Kolmogorov-Smirnov Normality Test D+: 0,124 D-: 0,139 D : 0,139 Approximate P-Value > 0.15

Tambin obtenemos un valor superior a 0,15.

Proyecto e-Math Financiado por la Secretara de Estado de Educacin y Universidades (MECD)

21

Contraste de hiptesis de dos poblaciones


3. Contraste de diferencia de proporciones en dos muestras independientes De 2.000 empresas muestreadas aleatoriamente en el ao 2002, 58 tenan alguna anomala en sus cuentas auditadas en EE.UU. mientras que en 2000, de otra muestra de 2.500 empresas, 61 tenan algn error en la contabilizacin de sus cuentas. , la proporcin de empresas con algn error en sus cuentas auditadas en 2002, fue significativamente distinta que la proporcin de ellas en el ao 2000?

Para realizar el contraste, vamos a calcular un intervalo de confianza para la diferencia de proporciones de empresas con algn error en sus cuentas de los dos aos para poder comprobar si la diferencia entre los dos aos es significativa o no. Seleccionamos: Stat > Basic Statistics > 2 Proportions principal y la de opciones como sigue: y completamos la ventana

Proyecto e-Math Financiado por la Secretara de Estado de Educacin y Universidades (MECD)

22

Contraste de hiptesis de dos poblaciones

Sample 1 2

X 58 61

N 2000 2500

Sample p 0,029000 0,024400

Estimate for p(1) - p(2): 0,0046 95% CI for p(1) - p(2): (-0,00492175; 0,0141217) Test for p(1) - p(2) = 0 (vs not = 0): Z = 0,96 P-Value = 0,339

El intervalo de confianza para la diferencia de proporciones, a nivel del 95%, est entre 0,0049 y 0,0141. Esto parece apuntar a que el porcentaje de empresas que tiene alguna anomala en sus cuentas contables no es significativamente diferente en los dos aos. El estadstico de contraste es z = 0,96 cuyo p-valor es 0,339 que al ser menor que el nivel de significacin del 5%, el p-valor resulta coherente con la impresin anterior, por lo que no rechazaremos la hiptesis nula.

En un anuncio publicitario de discos duros para ordenador, el fabricante asegura que sus precios son ms econmicos y que el porcentaje de sus discos defectuosos es igual al de la competencia. Para contrastar esta ltima afirmacin hemos tomado dos muestras aleatorias, cada una de ellas compuesta por 150 unidades. Los resultados obtenidos se muestran en la tabla siguiente:

Es inmediato comprobar que se cumplen los supuestos para este caso, por lo que pasaremos a calcular un intervalo de confianza del 95% para la diferencia entre proporciones y a realizar el correspondiente test de hiptesis: Seleccionamos: Stat > Basic Statistics > 2 Proportions : Completamos la ventana principal y la de opciones como sigue:

Proyecto e-Math Financiado por la Secretara de Estado de Educacin y Universidades (MECD)

23

Contraste de hiptesis de dos poblaciones

El intervalo de confianza para la diferencia de proporciones, a nivel del 95%, tiene por extremos los valores positivos 0,003 y 0,117 (observar que no contiene el valor 0, aunque por muy poco). Esto parece apuntar a que el porcentaje de defectos en los discos del anunciante es significativamente superior al porcentaje de la competencia. Para un nivel de significacin del 0,05, el p-valor resulta coherente con la impresin anterior, por lo que resulta sensato rebatir la afirmacin del anunciante (si bien las cosas cambiaran si tomsemos = 0,01).

Proyecto e-Math Financiado por la Secretara de Estado de Educacin y Universidades (MECD)

24

Contraste de hiptesis de dos poblaciones

BIBLIOGRAFA
[1] [2] [3] [4] [5] [6]

___________________________________

D.A. Lind, R.D. Mason, W.G. Marchal (2001): Estadstica para Administracin y Economa. Ed. Irwin McGraw-Hill.F. Kvanli, A. Introduction to Business Statistics . South-Western R. Johnson (1996): Elementary Statistics. Ed. Duxbury Richard I. Levin & David S. Rubin (1996): Estadstica para Administradores. Ed. Prentice Hall. Cuadras, Carles M.: Problemas de probabilidades y estadstica Barcelona : EUB, 1995. Canavos, George C.:Probabilidad y estadstica : aplicaciones y mtodos. Madrid: McGrawHill, DL 1992.

ENLACES

___________________________________

http://www.unalmed.edu.co/~estadist/confinterval/intervalconf.htm : Definicin y applets que representan el concepto de Intervalo de confianza.

http://oak.cats.ohiou.edu/~wallacd1/sci.html : Caractersticas y ejemplos de los intervalos de


confianza para una nica muestra

http://oak.cats.ohiou.edu/~wallacd1/shyp.html : Caractersticas y ejemplos de contraste de


hiptesis para una poblacin http://e-stadistica.bio.ucm.es/mod_intervalos/intervalos_applet_ghost.html intervalos de confianza : Applets sobre

http://e-stadistica.bio.ucm.es/mod_contraste/contraste_applet.html : Applet sobre contraste de hiptesis para muestras independientes. http://halweb.uc3m.es/esp/Personal/personas/stefan/ESP/applet.htm interactivos de Estadstica bsica : Conjunto de applets

http://fltbw2.rug.ac.be/iloapp/Applets/Ap6b.html : Applet interactivo de constraste de hiptesis con dos muestras

Proyecto e-Math Financiado por la Secretara de Estado de Educacin y Universidades (MECD)

25

Modelos de probabilidad

MODELOS DE PROBABILIDAD
Autores: Angel Juan (ajuanp@uoc.edu), Mximo Sedano (msedanoh@uoc.edu) , Alicia Vila Jos Francisco Martnez (jmartinezbos@uoc.edu), Anna Lpez

(avilag@uoc.edu), (alopezrat@uoc.edu)

MAPA CONCEPTUAL

________________________

DISTRIBUCIN DE PROBABILIDAD VARIABLES ALEATORIAS MEDIA, VARIANZA Y DESV. ESTNDAR DE UNA DISTR. PROB

MODELOS DE PROBABILIDAD
V.A.DISCRETAS

LA DISTRIBUCIN BINOMIAL

V.A. CONTINUAS

LA DISTRIBUCIN DE POISON

LA DISTRIBUCIN NORMAL

CASOS PRCTICOS CON MINITAB

Proyecto e-Math Financiado por la Secretara de Estado de Educacin y Universidades (MECD)

Modelos de probabilidad

INTRODUCCIN

___________________

Este math-block pretende introducir al concepto de distribucin de probabilidad como el rango de sucesos susceptibles de ocurrir al realizar un determinado experimento (cun probable es que ocurra un determinado suceso perteneciente a un experimento concreto). As, veremos cmo aplicar esta idea a los tipos de distribucin ms utilizadas como son la Distribucin Binomial, la Distribucin de Poisson y la Distribucin Normal. Tambin veremos cmo utillizar estas distribuciones de probabilidad en casos prcticos resueltos con Minitab.

OBJETIVOS

________________________

Definir los trminos distribucin de probabilidad y variable aleatoria Distinguir entre distribuciones de probabilidad discretas y continuas Calcular la media, varianza y desviacin estndar de una distribucin de probabilidad Describir las caractersticas de la distribucin Binomial y entender su aplicacin en casos prcticos Describir las caractersticas de la distribucin de Poisson y entender su aplicacin en casos prcticos Describir las caractersticas de la distribucin normal y entender su aplicacin en casos prcticos Utilizar la distribucin normal para aproximar la distribucin de probabilidad Binomial

CONOCIMIENTOS PREVIOS

___________________________________

Sera conveniente tener presente el math-block Estadstica Descriptiva con Minitab para tener asimilados los conceptos bsicos referentes a los parmetros estadsticos fundamentales, as como el documento asociado al uso del Minitab.

Proyecto e-Math Financiado por la Secretara de Estado de Educacin y Universidades (MECD)

Modelos de probabilidad

CONCEPTOS FUNDAMENTALES
determinado experimento.

______________________________

Definicin de variable aleatoria (v.a.): Corresponde al valor resultante de un


Por ejemplo, si contamos el nmero de empleados ausentes en un determinado turno de trabajo, el resultado podra ser 0, 1, 2, ...., este nmero de ausencias es la variable aleatoria. Distinguiremos entre variables aleatorias discretas y continuas. Diremos que una variable aleatoria es discreta cuando slo puede tomar un nmero contable de valores. Estos valores no necesariamente han de ser enteros, pero s han de tener valores claramente definidos. Seran v.a. discretas, p.e., X1 = n de hermanos de cada uno de nuestros amigos, o X2 = nota, con una cifra decimal, obtenida en un examen por cada alumno de un aula. Por el contrario, una v.a. continua es aquella que puede tomar cualquier valor dentro de un intervalo real. Seran v.a. continuas, p.e., X3 = altura, en cm., de los jugadores de un equipo de baloncesto (1.9, 1.92, 1.923,...), o X4 = distancia entre dos ciudades.

Definicin de distribucin de probabilidad: Es aquella que permite calcular todos los resultados probables de ocurrir de un experimento determinado, as como la probabilidad de ocurrencias de estos resultados. [2]
Las caractersticas ms importantes a tener en cuenta en una distribucin de probabilidad son: La probabilidad de un resultado especfico est entre cero y uno. La suma de las probabilidades de todos los resultados mutuamente excluyentes es 1.

Definicin de funcin de distribucin de probabilidad: La funcin de probabilidad de una variable aleatoria es la probabilidad acumulada hasta un valor determinado de la variable. Dada una variable aleatoria X, diremos que F(a) es la funcin de distribucin tal que: F(a) = P(Xa)

La funcin de distribucin de probabilidad cumple 0 F(x) 1. En el caso de las variables discretas la funcin de probabilidad se asocia con la funcin de probabilidad, funcin que da la probabilidad de cada posible valor que toma la variable. En el caso de las continuas como estas pueden tomar infinitos valores en un intervalo su funcin de probabilidad viene definida como la probabilidad a intervalos de valores. De hecho, la probabilidad de que la variable tome un determinado valor es nula. Las variables aleatorias continuas se caracterizan por una funcin denominada funcin de densidad.

a cada valor xi de la variable su probabilidad, i.e., f(xi) = P(X=xi).

Definicin de funcin de probabilidad para una variable aleatoria discreta: Dada una variable aleatoria discreta X, diremos que f(xi) es la funcin de probabilidad que asocia

Proyecto e-Math Financiado por la Secretara de Estado de Educacin y Universidades (MECD)

Modelos de probabilidad De este modo: F(a) = P(Xa) es igual a la suma de todos los P(X=xi) tales que xi son menores que a.

Definicin de funcin de densidad para una variable aleatoria continua: Dada una variable aleatoria continua X la funcin de densidad f(x) asociada a una variable aleatoria continua X caracteriza la funcin de distribucin de probabilidad de X donde:

F (a) = P( X a) =

f ( x) dx

La media, la varianza y la desviacin estndar.


Como sabemos, la media nos da informacin acerca de la tendencia central de los datos y la varianza describe la dispersin de stos. A la media de la distribucin la denotaremos por , y a la desviacin estndar por . La media es el valor promedio ponderado en el que los valores posibles de la variable aleatoria se ponderan segn las probabilidades correspondientes de ocurrencia, tambin se denomina valor esperado E(X). Para una variable aleatoria discreta:

= E ( X ) = [xP( x)]

donde P(x) es la probabilidad de valores posibles de la variable aleatoria x. Es decir, se multiplica cada valor de x por la probabilidad de que ocurra, y luego se suman estos productos. Para una variable aleatoria continua:

= E[X ] =

f ( x) dx

La varianza describir la dispersin de la distribucin. Para una variable aleatoria discreta:

2 = [( x ) 2 P ( x)]
Para una variable aleatoria continua:

=
2

bviamente, la desviacin estndar la calcularemos al extraer la raz cuadrada de la varianza.

f ( x) dx

La distribucin Binomial.
Consideremos una variable aleatoria X que da el nmero de xitos que aparecen al repetir n veces de forma independiente un experimento en idnticas condiciones. En esta situacin diremos que X sigue una distribucin Binomial. Ejemplos: X= nmero de huevos defectuosos en un paquete de 12. Y= nmero de 2 al tirar 10 veces un dado. Las caractersticas principales de este modelo de distribucin son: 1. Repetir n pruebas independientes unas de otras.

Proyecto e-Math Financiado por la Secretara de Estado de Educacin y Universidades (MECD)

Modelos de probabilidad 2. Para cada una de las pruebas slo pueden darse dos resultados: xito o fracaso 3. La probabilidad de xito en cada prueba es de p. En tales condiciones, diremos que la v.a. X = n de xitos en las n pruebas sigue una distribucin Binomial de parmetros n y p, y lo escribiremos como X B(n,p) . Observamos que la v.a. X slo puede tomar los valores 0, 1, 2, 3, , n siendo por tanto una v.a. discreta. As pues, las funciones de probabilidad y de distribucin de una distribucin binomial son las siguientes:

donde

n x n x f ( x) = P ( X = x) = x p (1 p ) n n! x = x!(n x)! y F ( x) = P( X x) = P( X = i)
i =0 n

para x=0,1,2,3.n

De la misma manera, la media y la desviacin estndar de una distribucin binomial son:

= n* p ,

= n * p * (1 p )

La distribucin de Bernoulli es un caso particular de la binomial cuando n=1 . Veamos unos ejemplos que muestran cmo aplicar la distribucin Binomial: Ejemplos: 1. Una empresa industrial que fabrica componentes mecnicos para aviones dispone de dos distribuidores por Europa, uno situado en Francia y otro en Alemania. Ambos tienen el 20% de posibilidades de cerrar un pedido con un consorcio industrial de farbicacin de aviones. Si el distribuidor francs contacta con 5 consorcios: a) Cul es la probabilidad de que el distribuidor francs consiga a lo sumo 2 acuerdos de distribucin? Sea X=Nmero de acuerdos de distribucin del distribuidor francs a 5 consorcios p = probabilidad de xito = P(cerrar un acuerdo) = 0,2 n = nmero de clientes = 5 X sigue una distribucin Binomial, X B(5 , 0,2) Nuestro objetivo es calcular P(X < = 2). P(X<=2) = P(X=2)+P(X=1)+P(X=0)=0,94208

Proyecto e-Math Financiado por la Secretara de Estado de Educacin y Universidades (MECD)

Modelos de probabilidad

Por su parte,

P ( X = 0) =

5! 0.2 0 (1 0.2) 5 = 0.32768 0! (5 0)!


5! 0.2 1 (1 0.2) 4 = 0,4096 1! (5 1)!

P ( X = 1) =

P ( X = 2) =

5! 0.2 2 (1 0.2) 3 = 0.2048 2! (5 2)!

Por lo tanto la probabilidad de que el distribuidor francs cierre a lo sumo dos acuerdos es igual a 0,94208 b) Cul sera el nmero medio esperado de acuerdos que conseguira cerrar el distribuidor francs? Para calcular cual ser el nmero medio esperado de acuerdos de distribucin ms probable que cierre el distribuidor calculamos la media de una distribucin binomial que nos da el nmero medio de xitos, en este caso sera, n*p= 5*0,2=1. Por lo tanto el nmero medio esperado de acuerdos logrados por el distribuidor francs ser de 1. 2. El presidente de una compaa planea contactar con otras 18 compaas en busca de nuevos socios para su negocio. Sus analistas han estimado que la probabilidad de que una firma contactada al azar acepte incorporarse como socio es de 0,6. Cul es la probabilidad de que acabe reclutando 5 o ms socios de entre las 18 compaas contactadas? Cul es el nmero medio esperado de socios que se incorporarn al proyecto? Sabemos que X B(18, 0.6). Nos piden hallar P(X>=5). P(X>=5) = 1-P(X<5)=1- P(X=4)-P(X=3)-P(X=2)-P(X=1)-P(X=0)= 1-0,00127=0,9987 Ya que,

18! 0.6 0 (1 0.6) 18 = 0.0000000687 0! (18 0)! 18! 0.61 (1 0.6) 17 = 0.00000185 P ( X = 1) = 1! (18 1)! P ( X = 0) = P ( X = 2) = 18! 0.6 2 (1 0.6) 16 = 0.0000236 2! (18 2)! 18! 0.6 3 (1 0.6) 15 = 0.000189 3! (18 3)! 18! 0.6 4 (1 0.6) 14 = 0.00106 4! (18 4)!

P ( X = 3) =

P ( X = 4) =

Por tanto, P(X>=5) = 0.9987128, as pues la probabilidad de que se incorporen al proyecto ms de cinco socios es de 0,9987.

Proyecto e-Math Financiado por la Secretara de Estado de Educacin y Universidades (MECD)

Modelos de probabilidad Para calcular cual ser el nmero de socios medio esperado que se incorpore al proyecto calculamos la media de una distribucin Binomial que nos da el nmero medio de xitos, en este caso sera, n*p= 18*0,6=10,8 que redondeando sera 11. Por tanto, el nmero medio esperado de socios que se incorporen al proyecto ser de 11. Ejemplos con Minitab: 1. Supongamos que X es una variable aleatoria (v.a.) que sigue una distribucin binomial de parmetros n = 4 y p = 0,85. Veamos cmo podemos calcular la funcin de probabilidad de esta v.a.: En primer lugar, en la columna C1 colocaremos los posibles valores que esta v.a. puede tomar, i.e., 0, 1, 2, 3 y 4. Seleccionamos Calc > Probability Distributions > Binomial y completamos los campos como se indica en la imagen inferior:

Probability Density Function Binomial with n = 4 and p = 0,850000 x 0,00 1,00 2,00 3,00 4,00 P( X = x) 0,0005 0,0115 0,0975 0,3685 0,5220

Anlogamente, el siguiente ejemplo nos muestra cmo calcular la funcin de distribucin: 2. Supongamos que X sigue una distribucin Binomial de n=20 y cuya probabilidad de xito es 0.3333, es decir X B(20 , 0,3333).

Proyecto e-Math Financiado por la Secretara de Estado de Educacin y Universidades (MECD)

Modelos de probabilidad Queremos calcular la probabilidad de que X tome un valor menor o igual a 11, i.e., P(X<=11): Seleccionamos Calc > Probability Distributions > Binomial y completamos los campos como se indica en la imagen inferior:

El resultado es el siguiente: Cumulative Distribution Function


Binomial with n = 20 and p = 0,333300 x P( X <= x) 11,00 0,9870

Por tanto, P(X<=11)=0.9870 Veamos un ejemplo de cmo aplicar la funcin de distribucin inversa: 3. Sea X B(5,0,4). En esta ocasin, queremos saber cul ser el valor c de X tal que P(Xc) = 0,913 : Seleccionar Calc > Probability Distributions > Binomial y completamos los campos como se indica en la imagen inferior:

Proyecto e-Math Financiado por la Secretara de Estado de Educacin y Universidades (MECD)

Modelos de probabilidad

El output que obtenemos nos dice que c = 3 es el valor que deja a su izquierda el 91,3% de la distribucin de X .
Inverse Cumulative Distribution Function Binomial with n = 5 and p = 0,400000 x 3 P( X <= x) 0,9130 x 4 P( X <= x) 0,9898

Por ltimo, aplicaremos todo lo anterior a un caso real: 4. La compaa area Viajar ofrece, entre otros, 10 vuelos diarios de Barcelona a Madrid. Se ha estudiado, que la probabilidad de que alguno de ellos se retrase es de 0.25. Cul es la probabilidad de que hoy no haya ningn vuelo que se retrase? y la probabilidad de que no se retrasen ms de dos vuelos? Sea X = nmero de vuelos retrasados y sabemos que XB(10,0.25) Para calcular cul es la probabilidad de que no haya ningn vuelo que se retrase, seleccionamos Calc > Probability Distributions > Binomial. El resultado es el siguiente:
Probability Density Function Binomial with n = 10 and p = 0.250000 x 0.00 P( X = x) 0.0563

Por tanto, P(X=0) = 0.056, es decir, la probabilidad de que hoy no se retrase ninguno de los 10 vuelos es muy baja, aprox. 0.056 Ahora, para calcular la probabilidad de que no se retrasen ms de dos vuelos, es decir, P(X<=2), seleccionaremos Calc > Probability Distributions > Binomial, y activaremos la opcin de Cumulative Probability, obteniendo el siguiente resultado:

Proyecto e-Math Financiado por la Secretara de Estado de Educacin y Universidades (MECD)

Modelos de probabilidad
Cumulative Distribution Function Binomial with n = 10 and p = 0.250000 x 2.00 P( X <= x) 0.5256

Por tanto, la probabilidad de que menos de 2 vuelos se retrasen es de aproximadamente el 0.53.

La distribucin de Poisson
Consideremos X una variable que da el nmero de individuos que presentan una cierta caracterstica por unidad de tiempo, volumen, superficie, Entonces diremos que X sigue una distribucin de Poisson. Ejemplos: X= Nmero de coches que cruzan un cruce en una hora. Y= Nmero de enfermos de Sida por ao y por Comunidad Autnoma. La funcin de probabilidad de la distribucin de Poisson es:

P ( x) =

donde es el nmero medio de ocurrencias durante un intervalo especfico de tiempo, superficie, .. e es la constante exponencial y x es el nmero de ocurrencias (xitos). Observamos de la expresin de la funcin de probabilidad que el parmetro caracteriza las variables con distribucinde Poisson. Otra caracterstica de la Poisson es que su media es igual a su varianza y ambas son igual al parmetro :

x e x!

para x=0,1,2,3,.

= ,

Observamos adems que una variable con distribucin Poisson toma infinitos valores, 0,1, Ahora bien, las probabilidades van disminuyendo cada vez ms rpidamente cuando el valor es alto, hacindose prcticamente nulas a partir de un valor. Por esto muchas veces la distribucin de Poisson tambin se la llama distribucin de los sucesos raros o poco probables.

Aproximacin de la Binomial a la Poisson.


Una distribucin Binomial con una probabilidad de xito p muy pequea y n grande se aproxima a una distribucin de Poisson con = n*p. Algunas referencias utilizan esta aproximacin cuando n>30 y p>0.1 y/o np<5. Veamos un ejemplo que muestra cmo aplicar la distribucin de Poisson haciendo uso de Minitab: Ejemplo con Minitab: Siguiendo con el ejemplo anterior, supongamos que tomamos una muestra aleatoria de 1000 vuelos y observamos que se perdieron 240 maletas. Esto indica que el nmero medio de maletas perdidas por vuelo es 0.24. Si el nmero de maletas perdidas por vuelo sigue una distribucin de Poisson de media 0.24, cul es la probabilidad de no perder ninguna maleta? Sea X = nmero de maletas perdidas y sabemos que X Po(0.24) Proyecto e-Math Financiado por la Secretara de Estado de Educacin y Universidades (MECD) 10

Modelos de probabilidad Seleccionamos Calc > Probability Distributions > Poisson y obtenemos:
Probability Density Function Poisson with mu = 0.240000 x 0.00 P( X = x) 0.7866

Por tanto, se espera que aproximadamente el 79% de los vuelos no tengan ningn problema con la prdida de equipaje.

La distribucin normal
La distribucin normal es la distribucin de probabilidad continua ms importante. Multitud de variables aleatorias continuas siguen una distribucin normal o aproximadamente normal. Una de sus caractersticas ms importantes es que cualquier distribucin de probabilidad, tanto discreta como continua, se puede aproximar por una normal bajo ciertas condiciones. La distribucin de probabilidad normal y la curva normal que la representa, tienen las siguientes caractersticas: La curva normal tiene forma de campana y un solo pico en el centro de la distribucin. De esta manera, la media aritmtica, la mediana y la moda de la distribucin son iguales y se localizan en el pico. As, la mitad del rea bajo la curva se encuentra a la derecha de este punto central y la otra mitad est a la izquierda de dicho punto. La distribucin de probabilidad normal es simtrica alrededor de su media. La curva normal desciende suavemente en ambas direcciones a partir del valor central. Es asinttica, lo que quiere decir que la curva se acerca cada vez ms al eje X pero jams llega a tocarlo. Es decir, las colas de la curva se extienden de manera indefinida en ambas direcciones.

La curva normal es simtrica

colas

media=mediana=moda

Para indicar que una variable aleatoria (v.a.) sigue una distribucin normal de media y desviacin estndar usaremos la expresin: X N(,).

Proyecto e-Math Financiado por la Secretara de Estado de Educacin y Universidades (MECD)

11

Modelos de probabilidad La probabilidad de que una variable aleatoria (v.a.) X tome un valor determinado entre dos nmeros reales a y b coincide con el rea encerrada por la funcin f ( x ) = (funcin de densidad de probabilidad) entre los puntos a y b, es decir : P(aXb) =
b

1 x 2

f ( x)dx

Norm al(2,1)
0,4

Funcin de densidad (f.d.p.)

0,3

0,2

0,1

0,0 a 2 b

Valores de la v.a. X

Como hemos comentado anteriormente, observar que: - La distribucin normal es simtrica respecto de su media . - El rea total encerrada por f(x) vale 1, i.e.: - Al ser X v.a. continua, P(X=a) =
+

f ( x)dx = P( < X < +) = 1 .

f ( x)dx = 0 , aR P(Xa) = P(X<a) .

La distribucin normal estndar:


Se observ que no existe una sola distribucin de probabilidad normal, sino una familia de ellas. Como sabemos, cada una de las distribuciones puede tener una media () o una desviacin estndar distinta (). Por tanto, el nmero de distribuciones normales es ilimitado y sera imposible proporcionar una tabla de probabilidades para cada combinacin de y. Para resolver este problema, se utiliza un solo miembro de la familia de distribuciones normales, aquella cuya media es 0 y desviacin estndar 1 que es la que se conoce como distribucin estndar normal, de forma que todas las distribuciones normales pueden convertirse a la estndar, restando la media de cada observacin y dividiendo por la desviacin estndar. Primero, convertiremos la distribucin real en una distribucin normal estndar utilizando un valor llamado Z, o estadstico Z que ser la distancia entre un valor seleccionado, designado X, y la media , dividida por la desviacin estndar . Formalmente, si X N(,) , entonces la v.a. Z =

de media 0 y desviacin estndar 1, i.e.: Z N(0,1) , que es la distribucin llamada normal estndar o tipificada. De esta manera, un valor Z mide la distancia entre un valor especificado de X y la media aritmtica, en las unidades de la desviacin estndar. Al determinar el valor Z utilizando la

se distribuye segn una normal

Proyecto e-Math Financiado por la Secretara de Estado de Educacin y Universidades (MECD)

12

Modelos de probabilidad expresin anterior, es posible encontrar el rea de probabilidad bajo cualquier curva normal haciendo referencia a la distribucin normal estndar en las tablas correspondientes. As pues, para averiguar el rea encerrada bajo la curva utilizaremos la tabla que encontraremos al final de este apartado. Dicha tabla nos proporciona la probabilidad de que la v.a. normal estndar Z tome un valor situado a la izquierda de un nmero c, i.e.: P(Z<c). En otras palabras, esta tabla nos da el valor del rea encerrada por f(x) entre - y c. Distribucin muestral de la media de las muestras: Consistira en una distribucin de probabilidad de todas las medias posibles de las muestras de un tamao de muestra dado. As pues, dada una poblacin (a la cual representaremos por la v.a. X ), podemos extraer de la misma k muestras, cada una de ellas de tamao n. Para cada una de las k muestras podemos calcular un estadstico, p.e., la media de las n observaciones que la componen. As tendremos un total de k nuevos valores xi , i = 1,..., k . Podemos asociar estos valores a una nueva v.a. X , cuya distribucin llamaremos distribucin muestral. Una de las propiedades ms importantes es la siguiente: Teorema (Distribucin de las Medias Muestrales): Sea X una v.a. cualquiera de media y desviacin tpica , entonces: o Si consideramos todas las muestras aleatorias posibles, cada una de ellas de tamao n, se cumplir que

x =

x =

Adems, si X sigue una distribucin normal, X tambin ser normal.

Teorema Central del Lmite:


Sea X una v.a. cualquiera de media y desviacin tpica , entonces: Si el tamao muestral n es suficientemente grande (en la prctica suele valer n>30), la distribucin de las medias muestrales se aproxima a la de una normal, i.e.:

X N , n
La importancia del TCL radica en que sea cul sea la distribucin de la poblacin original (v.a. X), conforme el tamao de las muestras ( n ) aumenta, la distribucin de las medias se va aproximando a la de una normal (de la cual conocemos muchas propiedades). As, si la poblacin tiene una distribucin de probabilidad normal, entonces, para cualquier tamao de muestra la distribucin del muestreode la media tambin tendr una distribucin normal. Si la distribucin de la poblacin es simtrica (pero no normal), se ver que surge la forma normal como lo establece el TCL an con muestras de al menos 30 para observar las caractersticas de normalidad.

Aproximacin de la Binomial a la distribucin Normal. (una aplicacin del teorema Central del lmite)

Proyecto e-Math Financiado por la Secretara de Estado de Educacin y Universidades (MECD)

13

Modelos de probabilidad Si X B ( n, p ) y el n de pruebas n es muy grande (en la prctica es suficiente con verificar: n*p5 y n*(1-p)5 ), entonces podemos aproximar la distribucin binomial anterior a una normal, en concreto: ser tanto mejor cuanto mayor sea n. Hay que tener en cuenta que, antes de aplicar la distribucin normal, es necesario asegurarse de que la distribucin que queremos aproximar es, efectivamente, binomial. Para ello, hay que comprobar: Que un experimento slo puede tener dos resultados posibles y mutuamente excluyentes: un xito y un fracaso. La distribucin es consecuencia de contar el nmero de xitos de un nmero fijo de pruebas. Cada prueba es independiente. La probabilidad, p, permanece igual de una prueba a la siguiente.

X N n * p, n * p * (1 p ) . Esta aproximacin

En el caso de una v.a. discreta, tiene sentido preguntarse por la probabilidad de que sta tome un determinado valor. Sin embargo, si consideramos que la v.a. X es continua, entonces P(X=a) = 0, aR. Por este motivo tendremos que aplicar el llamado factor de correccin por continuidad que veremos a continuacin, es decir, en el caso anterior calcularemos P(a-0,5<X<a+0,5). Ejemplos: 1. El PER de una accin que cotiza en bolsa indica el nmero de veces que su precio es mayor que el beneficio por accin y este ratio es uno de los ms importantes que utilizan habitualmente los inversores. Supongamos que tenemos la poblacin de todos los PER que tiene una media de 10,5 y una desviacin estndar de 4,5. Cul es la probabilidad de que, en una muestra de 40 acciones, el PER medio sea menor que 9? Por el teorema del Lmite central, como n=40 y es mayor que 30 podemos afirmar que la distribucin muestral de la media de los PER se aproximar a una distribucin normal. X 9 10,5 TABLAS P X < 9 = P( X < 9) = P = P(Z < 2,11) 0,0174 4 , 5 n 40 Por lo tanto existe una probabilidad del 1,74% de que la media de los PER de la muestra sea menor que 9.

2. El Presidente de una multinacional de telecomunicaciones, est preocupado por el nmero de telfonos mviles producidos por su empresa que tienen algn defecto. En promedio, 110 telfonos al da son devueltos por este problema, con una desviacin estndar de 64. El presidente de esta empresa ha decidido que a menos que pueda estar un 80% seguro de que, en promedio, no se devolvern ms de 120 telfonos al da durante lo siguientes 48 das, ordenar una reorganizacin general del proceso productivo. se ordenar el reajuste decidido por el Presidente?

Proyecto e-Math Financiado por la Secretara de Estado de Educacin y Universidades (MECD)

14

Modelos de probabilidad Para que se ordene la reorganizacin del proceso productivo, la probabilidad d que la media de telfonos devueltos al da durante os prximos 48 das sea menor que 0,8. Entonces debemos calcular la probabilidad de que la media no se mayor que 120,

P ( X 120)
X 120 110 TABLAS P(X 120) = P( X 120) = P = P(Z 1,08) 0,8599 = 0,8599 64 48 n
Por lo tanto existe una probabilidad de 0,8599 de que no de devuelva en promedio ms de 120 telfonos al da durante los prximos 48 das, por lo que como esta probabilidad es mayor que 0,8, no habr reajuste del proceso productivo comentado por el Presidente. 3. El director de Recursos Humanos de una empresa, desea estudiar el nivel de precisin de las 70 secretaras de su compaa. Anteriormente, el nmero diario de errores de procesamiento de palabras cometido por cada secretaria haba sido aproximadamente normal con un promedio de 18 y una desviacin estndar de 4. El director de Recursos Humanos inspecciona actualmente a 15 secretarias elegidas aleatoriamente. Cul es la probabilidad de que el nmero promedio de errores por secretaria sea mayor de 20?

X 20 18 P(X > 20) = 1 P( X 20) = 1 P = 1 P(Z 1,94) 4 15 n TABLAS 1 0,9738 = 0,0262


Por lo tanto existe una probabilidad de 0,0262 de que el nmero medio de errores por secretaria sea mayor que 20. Ejemplo con minitab: Segn viene publicado en una prestigiosa revista de economa, el salario semanal medio de los profesores universitarios europeos es de 406,15 . Se estima adems que la desviacin estndar de dichos salarios es de 55,50 . Supongamos ahora que pretendemos tomar una muestra aleatoria de 100 profesores para estudiar sus salarios. Calcular las siguientes probabilidades referentes a la media de dicha muestra: 1. La probabilidad de que la media de la muestra sea menor de 400 . En primer lugar, observar lo siguiente: como n = 100 >> 30, por el Teorema Central del Lmite tendremos que la distribucin de las medias muestrales X se podr aproximar por una normal con media 406,15 y desviacin estndar 5,50. Hemos de hallar P ( X < 400) : Seleccionamos: Calc > Probability Distributions > Normal :

Proyecto e-Math Financiado por la Secretara de Estado de Educacin y Universidades (MECD)

15

Modelos de probabilidad

Cumulative Distribution Function Normal with mean = 406,150 and standard deviation = 5,55000 x 400,0000 P( X <= x) 0,1339

Por lo tanto existe una probabilidad del 13;39 % de que el salario medio se menor de 400. 2. La probabilidad de que la media de la muestra est entre 400 y 410 . Sabemos que P (400 < X < 410) = P ( X < 410) P ( X < 400) . La segunda de stas probabilidades ya la hemos calculado en el apartado anterior. Para calcular la primera se razona anlogamente, obteniendo que:
Cumulative Distribution Function Normal with mean = 406,150 and standard deviation = 5,55000 x 410,0000 P( X <= x) 0,7561

Por tanto, tendremos: P (400 < X < 410) = P ( X < 410) P ( X < 400) = 0,6222 3. La probabilidad de que la media de la muestra sea mayor de 415 . En este caso, P ( X > 415) = 1 P ( X < 415) . Hemos de calcular pues esta ltima probabilidad, lo cual haremos de forma anloga a los apartados anteriores. Obtendremos lo siguiente:
Cumulative Distribution Function

Proyecto e-Math Financiado por la Secretara de Estado de Educacin y Universidades (MECD)

16

Modelos de probabilidad
Normal with mean = 406,150 and standard deviation = 5,55000 x 415,0000 P( X <= x) 0,9446

Por consiguiente, P ( X > 415) = 1 P ( X < 415) = 0,0554 4. Hallar el valor del salario medio c tal que P ( X < c ) = 0,95 . Seleccionamos nuevamente: Calc > Probability Distributions > Normal , pero ahora elegiremos la opcin Inverse Cumulative Probability , con lo que obtendremos :
Inverse Cumulative Distribution Function Normal with mean = 406,150 and standard deviation = 5,55000 P( X <= x) 0,9500 x 415,2789

NOTA.- En la siguiente direccin: http://huizen.dds.nl/~berrie/ encontraris algunos vdeos que ilustran las distintas distribuciones que se han descrito en este apartado.

CASOS PRCTICOS CON SOFTWARE___________________________________


1) Una compaa de seguros tiene una cartera de 2.000 plizas que cubren la asistencia psicolgica en caso de accidente. La empresa estima que este siniestro tiene una probabilidad de ocurrencia del 2 por mil en un ao, y un coste medio de 100000 u.m. por siniestro. Calcular: a) La probabilidad de afrontar ms de 3 siniestros en el ao. Sea X=Nmero de siniestros Como el nmero de pruebas es muy grande y la probabilidad de xito es muy pequea, vemos que X sigue una distribucin de Poisson, donde =2000.2/1000, es decir, XPo(4) Para calcular la probabilidad de P(X>3), seleccionamos Calc > Probability Distributions > Poisson:
Cumulative Distribution Function Poisson with mu = 4.00000 x 3.00 P( X <= x) 0.4335

Por tanto, P(X>3) = 1 - P(X<3) = 1- 0.433 = 0.567 b) La reserva que ha guardado la compaa para los siniestros del ao, nos asegura que tiene una probabilidad del 99,2% de poder afrontar todos los siniestros que ocurran.

Proyecto e-Math Financiado por la Secretara de Estado de Educacin y Universidades (MECD)

17

Modelos de probabilidad En este caso, queremos calcular el nmero mximo de siniestros para poder cubrir los gastos que ellos suponen. Para ello, seleccionamos Calc > Probability Distributions > Poisson y rellenamos como sigue:
Inverse Cumulative Distribution Function Poisson with mu = 4.00000 x 9 P( X <= x) 0.9919 x 10 P( X <= x) 0.9972

Por tanto, la empresa habr dotado una reserva para afrontar un mximo de 9 siniestros, ya que, a un coste de 100.000 u.m. supondr 900.000 u.m.

2) En un estudio reciente se demostr que el 64% de catalanes, con estudios universitarios acabados, hacen uso de internet a diario en su trabajo. Si seleccionamos una muestra de 60 catalanes con estas caractersticas: a) Cul es la probabillidad de que 32 o ms sean usuarios de internet? Definimos X=Catalanes con estudios universitarios usuarios de internet. Observamos que X B(60,0.64) Como n*p= 60 * 0.64 = 38.40 >> 5, y n*p*(1-p) = 60 * 0.64 * 0.36 = 13.82 , podemos aproximar la distribucin binomial a una distribucin normal N(38.40, 3.72). Por tanto, seleccionamos Calc > Probability Distributions > Normal:
Cumulative Distribution Function Normal with mean = 38.4000 and standard deviation = 3.72000 x 32.0000 P( X <= x) 0.0427

P(X>=32) = 1 P(X<32) = 1 - 0.0427 = 0.9678 b) Y cul es la probabilidad de que ms de 32 y menos de 44 hagan uso de internet? Queremos calcular P(32<X<44) = P(X<44) P(X<32) = 0.9339 0.0427= 0.8912 Seleccionamos Calc > Probability Distributions > Normal:

Proyecto e-Math Financiado por la Secretara de Estado de Educacin y Universidades (MECD)

18

Modelos de probabilidad

Cumulative Distribution Function Normal with mean = 38.4000 and standard deviation = 3.72000 x 44.0000 P( X <= x) 0.9339

c) Si queremos conseguir que un porcentaje de un 90%, qu nmero de usuarios necesitaramos? Seleccionamos Calc > Probability Distributions > Normal:
Inverse Cumulative Distribution Function Normal with mean = 38.4000 and standard deviation = 3.72000 P( X <= x) 0.9000 x 43.1674

As, pues, hara falta unos 43 catalanes para llegar al porcentaje del 90%

3) Supongamos que en una poblacin, slo el 47% de los habitantes son favorables a las gestiones municipales realizadas por la alcalda. Se selecciona aleatoriamente una muestra de 100 personas y se les pasa un cuestionario, de manera independiente a cada una. a) Cul es la probabilidad de que, en la muestra, aparezcan exactamente 47 personas favorables al Ayuntamiento? Sea X=Nmero de personas favorables al Ayuntamiento Adems, X seguir una distribucin binomial con n=100 y cuya probabilidad de xito ser 0.47, es decir, X B(100,0.47) Para calcular P(X=47), seleccionaremos Calc > Probability Distribution > Binomial:

Proyecto e-Math Financiado por la Secretara de Estado de Educacin y Universidades (MECD)

19

Modelos de probabilidad

Y obtenemos.... Probability Density Function Binomial with n = 100 and p = 0.470000 x P( X = x) 47.00 0.0797 La probabilidad de que haya exactamente 47 personas que estn a favor del alcalde es 0.08, es decir, el 8%

b) Cul es la probabilidad de que entre 45 y 50 personas (incluidos estos valores), se muestren a favor de las gestiones del Ayuntamiento? Queremos calcular P(45<=X<=50), es decir, P(X<=50)-P(X<=45)

Para ello, seleccionamos Calc > Probability Distributions > Binomial, activando la opcin Cumulative Probability:

Proyecto e-Math Financiado por la Secretara de Estado de Educacin y Universidades (MECD)

20

Modelos de probabilidad

Cumulative Distribution Function Binomial with n = 100 and p = 0.470000 x P( X <= x) 45.00 0.3827 Razonamos anlogamente para P(X<=50), obteniendo: Cumulative Distribution Function Binomial with n = 100 and p = 0.470000 x P( X <= x) 50.00 0.7587 OJO!! Tambin tenemos P(X>=45)=1-P(X<45): Probability Density Function Binomial with n = 100 and p = 0.470000 x P( X = x) 45.00 0.0738 P(45<=X<=50) = P(X<=50) - P(X<45) = 0.7587 0.3827 + 0.0738 = 0.4498 As pues, la probabillidad de que entre 45 y 50 personas se muestren a favor de las gestiones del Ayuntamiento es aproximadamente de 0.45 que calcular el valor para P(X=45), ya que

c) Es probable que en la muestra, si est bien escogida, puedan salir una mayora de personas favorables al alcalde? Proyecto e-Math Financiado por la Secretara de Estado de Educacin y Universidades (MECD) 21

Modelos de probabilidad

Para calcular la probabilidad de que, en una muestra de 100 personas, la mayora est a favor del alcalde, calcularemos P(X>50). Para ello, seleccionamos Calc > Probability Distributions > Binomial, y activamos la opcin Cumulative Probability:

Cumulative Distribution Function Binomial with n = 100 and p = 0.470000 x P( X <= x) 50.00 0.7587

Por tanto, P(X>50) = 1 - P(X<=50) = 1 - 0.7587 = 0.2413 As pues, el porcentaje esperado de que la mayora de las personas de la muestra estn a favor del alcalde es el 24%. d) Si hacemos la prediccin a la muestra saldrn entre 45 y 50 personas favorables, cul es el riesgo de equivocarnos? Como hemos visto en el apartado b), existe una probabilidad de 0.45 de que entre 45 y 50 personas sean favorables al Ayuntamiento, por tanto, el riesgo de equivocarnos sera: 1 - P(45<=X<=50)= 0.55 e) Si el ayuntamiento pretende hacer una previsin a partir de la muestra diciendo: La mayora de votantes estarn a nuestro favor, qu riesgo tiene esta prediccin? Anlogamente, en el apartado c), hemos visto que existe una probabilidad de 0.24 de que la mayora de los encuestados estn a favor de las gestiones del ayuntamiento, por tanto, el riesgo de esta prediccin por parte del ayuntamiento seria 0.76

Proyecto e-Math Financiado por la Secretara de Estado de Educacin y Universidades (MECD)

22

Modelos de probabilidad f) Qu previsin podemos hacer para poder decir el nmero habitual de personas favorables a la gestin municipal que saldran en la muestra..., si queremos asumir un riesgo mximo de 0.2 ? Queremos calcular c, tal que, P(X<c)=0.2 Seleccionamos Calc > Probability Distributions > Binomial y activamos Inverse Cumulative Probability:

Inverse Cumulative Distribution Function Binomial with n = 100 and p = 0.470000 x 42 P( X <= x) 0.1838 x 43 P( X <= x) 0.2420

Por tanto, el nmero habitual de personas que aparecern en la muestra favorables a la gestin municipal es aproximadamente de 42.

Proyecto e-Math Financiado por la Secretara de Estado de Educacin y Universidades (MECD)

23

Modelos de probabilidad

BIBLIOGRAFA
[1]

_________________________________

__

F. Moya Anegn, J. Lpez Gijn, C. Garca Caro(1996): Tcnicas cuantitativas aplicadas a la biblioteconomia y documentacin. Ed. Sntesis. D. A. Lind, R.D. Mason, W. G. Marchal (2001): Estadstica para Administracin y Economa. Ed. Irwin McGraw-Hill. R. Johnson (1996): Elementary Statistics. Ed. Duxbury. E. Farber (1995): A guide to Minitab. Ed. McGraw-Hill.

[2] [3] [4]

ENLACES

_________________________________

http://www.unalmed.edu.co/~estadist/binomial/binomial.htm de la distribucin binomial.

: Descripcin y representacin

http://es.geocities.com/riotorto/tabl/tabl_binomial/tabl_binomial.htm distribucin binomial. http://huizen.dds.nl/~berrie/ : Vdeos de conceptos de estadstica

Descripcin

de

la

http://www.udc.es/dep/mate/recursos.html : Recursos de internet para la enseanza y aprendizaje de la estadstica.

Proyecto e-Math Financiado por la Secretara de Estado de Educacin y Universidades (MECD)

24

Ajuste de datos por una distrib. terica con Minitab

AJUSTE DE DATOS POR UNA DISTRIBUCIN TERICA CON MINITAB


Autor: ngel A. Juan (ajuanp@uoc.edu).

ESQUEMA DE CONTENIDOS

______________________________

Ajuste mediante una distribucin continua conocida (Minitab)

Introduccin a los tests Chi-Cuadrado

Ajuste de datos mediante una distribucin terica


Grficos de probabilidad Tests Chi-Cuadrado de bondad de ajuste (Minitab)

Tests de normalidad (Minitab)

INTRODUCCIN

___________________

En infinidad de ocasiones nos encontraremos con una serie de datos u observaciones que hemos obtenido al analizar una variable aleatoria de patrn desconocido. Esto ocurrir, por ejemplo, al registrar los tiempos transcurridos entre llamadas sucesivas a un call-center, al registrar los tiempos de fallo de un determinado dispositivo, al contabilizar el nmero de pginas web distintas que un internauta visita hasta llegar a una que le proporciona la informacin deseada, etc. En tales casos, resulta fundamental intentar identificar un patrn conocido (distribucin de probabilidad) que nos ayude a explicar el comportamiento de la variable aleatoria. Es lo que se conoce como ajuste de los datos mediante una distribucin terica conocida. Si se logra ajustar los datos por alguna de estas distribuciones, podremos usar las caractersticas de sta para realizar anlisis ms profundos (inferencia) sobre la poblacin de la cual proviene la muestra o conjunto de observaciones, o incluso para simular algn fenmeno cuyo comportamiento venga descrito por una o varias variables aleatorias (como los mencionados anteriormente).

Proyecto e-Math Financiado por la Secretara de Estado de Educacin y Universidades (MECD)

Ajuste de datos por una distrib. terica con Minitab

OBJETIVOS

________________________

Aprender, con ayuda de Minitab, a ajustar observaciones procedentes de una v.a. continua mediante alguna distribucin terica conocida.. Entender los experimentos multinomiales y los tests Chi-Cuadrado para contrastar la bondad del ajuste. Ser capaz de analizar, con ayuda de Minitab, la posible normalidad de un conjunto de datos.

CONOCIMIENTOS PREVIOS

___________________________________

Este math-block supone que el lector est familiarizado con el software estadstico Minitab, as como con conceptos bsicos de estadstica descriptiva e inferencial (distribuciones de probabilidad, contraste de hiptesis, etc.).

CONCEPTOS FUNDAMENTALES Y CASOS PRCTICOS CON SOFTWARE____




Introduccin al ajuste de datos mediante una distribucin terica


Cuando se dispone de un conjunto de observaciones, pertenecientes a una determinada variable aleatoria T de distribucin desconocida, lo primero que conviene hacer es tratar de identificar alguna distribucin terica por la cual se puedan ajustar bien dichas observaciones. En otras palabras, se tratara de comprobar si dichas observaciones se distribuyen segn un patrn conocido (segn una normal, una binomial, etc.), pues ello nos simplificara el anlisis descriptivo de los datos, as como la realizacin de inferencias sobre la poblacin. En muchas ocasiones ser posible identificar la distribucin que mejor se aproxima a las observaciones mediante el uso de grficos de probabilidad. Este tipo de grficos muestran la funcin de distribucin (f.d.) linealizada de una distribucin terica junto con una nube de puntos que representan estimaciones (no paramtricas) puntuales de la f.d. de T. Evidentemente, cuanto ms se aproxime la nube de puntos a la recta que aparece en el grfico, tanto mejor ser el ajuste. Si se lograse aproximar la distribucin de T mediante alguna distribucin terica conocida, sera posible usar esta ltima para representar grficamente estimaciones de la funcin de distribucin y/o de la funcin de densidad (f.d.p.) asociada a las observaciones. En tales casos, se habla de descripcin paramtrica de la variable T (porque hemos logrado identificar la distribucin y los parmetros asociados- que describen correctamente el comportamiento de la variable aleatoria analizada). En este captulo se har uso del programa estadstico Minitab para identificar y describir grficamente la distribucin que mejor se ajuste a un conjunto de observaciones que usaremos como ejemplo. Las posibles distribuciones de ajuste son: la normal, la log-normal (base e), la Weibull, la de valores extremos, la exponencial, la logstica y la log-logstica. .

Proyecto e-Math Financiado por la Secretara de Estado de Educacin y Universidades (MECD)

Ajuste de datos por una distrib. terica con Minitab




Grficos de probabilidad
Al representar grficamente las funciones de distribucin (f.d.) de las diferentes distribuciones tericas, se obtienen curvas muy similares, la mayora de las cuales resultan difciles de ser identificadas a simple vista. Es por ello que se utilizan los grficos de probabilidad, los cuales hacen uso de escalas especiales en los ejes, de manera que al representar la f.d. sta tenga forma lineal. El primer paso ser pues encontrar la transformacin adecuada para T y F(T) de modo que al representar T vs. F(T) se obtenga una funcin lineal. Ejemplo (linealizacin de una Weibull): La f.d. asociada a una distribucin Weibull de dos parmetros viene dada por la expresin: F(t) = 1 exp{-(t/)} con , > 0

Esta funcin puede ser linealizada (i.e., puesta de la forma: y = a + bx) como sigue: F(t) = 1 exp{-(t/)} ln(1-F(t)) = ln(exp{-(t/)}) ln(1-F(t)) = -(t/) ln(-ln(1-F(t))) = ln(t/) ln(ln(1-F(t)) ) = ln(t) - ln() Tomando ahora: y = ln(ln(1-F(t)) ) la f.d. puede rescribirse en forma lineal como: y = x - ln() A continuacin se representa grficamente la f.d. de una Weibull (con escala = 10 y forma = 4) y su versin linealizada: Escala (alpha) = Forma (beta) = t 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 F(t) 0,00 0,00 0,01 0,03 0,06 0,12 0,21 0,34 0,48 0,63 0,77 0,87 0,94 0,98 0,99 1,00 10 4 x = ln(t) 0,00 0,69 1,10 1,39 1,61 1,79 1,95 2,08 2,20 2,30 2,40 2,48 2,56 2,64 2,71 2,77 WEIBULL
-1 -1

x = ln(t)

y = ln(ln(1-F(t)) ) -9,2 -6,4 -4,8 -3,7 -2,8 -2,0 -1,4 -0,9 -0,4 0,0 0,4 0,7 1,0 1,3 1,6 1,9

-1

Proyecto e-Math Financiado por la Secretara de Estado de Educacin y Universidades (MECD)

Ajuste de datos por una distrib. terica con Minitab

f.d. Weibull, escala = 10 forma = 4


1,00 0,80

F(t)

0,60 0,40 0,20 0,00 0 5

10

15

f.d. Weibull linealizada, escala = 10 forma = 4 3,0


1,0 -1,0 -3,0 -5,0 -7,0 -9,0 0,00 0,50 1,00 x 1,50 2,00 2,50 3,00

Una vez conocidas las transformaciones que permiten linealizar la f.d. asociada a una distribucin, es posible construir una plantilla especial (con los ejes graduados de forma adecuada) sobre la cual representar una nube de puntos que contenga cada uno de los tiempos de fallo observados (eje x) junto con el valor (estimado) de la f.d. asociado a dicha observacin (eje y). Para cada punto (xj,yj), el valor xj vendr dado por la j-sima observacin tj (instante en que se ha producido el fallo j-simo). Ms complicado ser hallar el valor de la coordenada yj, la cual representar el valor estimado de F(tj). Es usual estimar dicho valor mediante los llamados rangos medianos, los cuales se pueden calcular, en el caso de la distribucin Weibull con observaciones completas (sin censura), mediante la ecuacin que se muestra a continuacin. F(tj) rango mediano j-simo = ( 1 + F(0,5; m,n) (n j + 1) / j ) donde: F(0,5; m,n) es la mediana de una F-Snedecor con m = 2(n j + 1) y n = 2j grados de libertad, j es el orden del fallo, y n es el tamao muestral. Como se ver en el apartado siguiente, los programas estadsticos actuales (como Minitab) son capaces de realizar los clculos anteriores, automatizando as el proceso de construccin de estos grficos de probabilidad. Cuando se tengan ya representados todos los puntos (x,y) asociados a las observaciones, se deber hallar la recta de regresin asociada, la cual corresponder a la f.d. de la distribucin elegida cuyos parmetros mejor se ajusten a las observaciones. Para ver si las observaciones pueden aproximarse bien por dicha distribucin, habr que analizar (grficamente o mediante el estadstico Anderson-Darling) si los puntos representados se encuentran suficientemente prximos a la recta, prestando especial atencin a los valores de los extremos.
-1

Proyecto e-Math Financiado por la Secretara de Estado de Educacin y Universidades (MECD)

Ajuste de datos por una distrib. terica con Minitab




Ajuste de datos pertenecientes a una v.a. continua con Minitab


Como hemos comentado, las ltimas versiones de Minitab incorporan una serie de opciones que permiten intentar ajustar un conjunto de observaciones mediante algunas de las principales distribuciones continuas. Si el proceso tiene xito (i.e.: si logramos ajustar razonablemente bien alguna de las distribuciones tericas a los datos), podremos suponer que los datos siguen un patrn caracterizado por una distribucin continua conocida, lo cual nos facilitar la obtencin de informacin adicional sobre el comportamiento de la variable aleatoria. Ejemplo: vamos a usar Minitab para realizar un experimento consistente en tres fases: Fase 1: generaremos un conjunto de 50 nmeros aleatorios procedentes de una distribucin exponencial con parmetro = 2 (media = 1/ = 0,5). Fase 2: completada la fase anterior, consideraremos los valores obtenidos como observaciones dadas (olvidando que proceden de una distribucin exponencial), e intentaremos buscar, con ayuda de Mintab, aquella distribucin concreta (con parmetros concretos) que mejor se ajuste a dichas observaciones. Fase 3: compararemos la f.d. de la distribucin verdadera la exponencial de parmetro con la que hemos obtenido en la fase 2 suponiendo desconocida la procedencia de los datos. Fase 1: Generamos las 50 observaciones (nmeros aleatorios provenientes de una exp(2)). A fin de obtener los mismos valores aleatorios, podemos utilizar una semilla inicial comn. En este caso, usaremos el valor 10 como semilla. Para indicarle a Minitab tal eleccin, usaremos la opcin Calc > Set Base:

Ahora, pasamos ya a la generacin de las 50 observaciones mediante la opcin Calc > Random Data > Exponential:

Proyecto e-Math Financiado por la Secretara de Estado de Educacin y Universidades (MECD)

Ajuste de datos por una distrib. terica con Minitab

El resultado ser algo similar al siguiente: A partir de ahora, consideraremos estos valores como observaciones obtenidas como resultado de una medicin (es decir, olvidaremos por un momento que conocemos la distribucin de la cual provienen).

Fase 2: Supongamos pues que disponemos de una serie de datos cuya procedencia nos es desconocida, y que deseamos encontrar o, al menos intentarlo- una distribucin continua que nos sirva para explicar el comportamiento de la v.a. de la cual proceden. Para ello, usaremos como primera aproximacin la opcin Stat > Reliability/Survival > Distribution ID Plot...:

Proyecto e-Math Financiado por la Secretara de Estado de Educacin y Universidades (MECD)

Ajuste de datos por una distrib. terica con Minitab

Como se aprecia en las grficas anteriores, en esta primera aproximacin comienza a quedar claro que, de las cuatro distribuciones usadas (normal, log-normal, exponencial y Weibull), las dos que mejor se ajustan a las observaciones son la exponencial y la Weibull los puntos se sitan muy cerca de la lnea y el comportamiento de los mismos no sigue un patrn curvilneo como en el caso de la normal y de la log-normal. Adems de las grficas, el output anterior tambin nos proporciona el estadstico de Anderson-Darling ajustado, el cual es un reflejo de cun lejos se encuentran los puntos respecto de la recta. Por tanto, cuanto menor sea el valor de dicho estadstico, tanto mejor ser la bondad del ajuste. De los valores de dicho estadstico, se desprende nuevamente que la Weibull (AD = 0,600) y la exponencial (AD = 0,608) proporcionan un mejor ajuste a las observaciones. Ahora podemos usar la opcin Stat > Reliability/Survival > Parametric Distribution Analysis... para afinar algo ms en nuestra eleccin. Como se observa en la siguiente imagen, es posible optar entre un amplio ramillete de distribuciones candidatas. En nuestro caso, optaremos por una Weibull y, posteriormente, repetiremos el proceso con una exponencial:

Proyecto e-Math Financiado por la Secretara de Estado de Educacin y Universidades (MECD)

Ajuste de datos por una distrib. terica con Minitab

Distribution Analysis: C1
Variable: C1 Count 50

Censoring Information Uncensored value

Estimation Method: Maximum Likelihood Distribution: Weibull Parameter Estimates Parameter Shape Scale Estimate 1,0035 0,56802 Standard Error 0,1124 0,08382 95,0% Normal CI Lower Upper 0,8057 1,2499 0,42536 0,75853

Log-Likelihood = -21,651 Goodness-of-Fit Anderson-Darling (adjusted) = 0,5999

Distribution Analysis: C1
Variable: C1 Count 50

Censoring Information Uncensored value

Estimation Method: Maximum Likelihood Distribution: Exponential Parameter Estimates Parameter Shape Scale Estimate 1,00000 0,56724 Standard Error 0,08022 95,0% Normal CI Lower Upper 0,42992 0,74842

Log-Likelihood = -21,652 Goodness-of-Fit Anderson-Darling (adjusted) = 0,6076

Como se puede apreciar por los outputs anteriores, y dada la gran similitud entre ambos estadsticos AD (0,599 para el ajuste por la Weibull y 0,6076 para el ajuste por la exponencial), las observaciones se podran ajustar bastante bien tanto por una Weibull con parmetros forma = 1,0035 y escala = 0,56802 como por una exponencial de media = 0,56724. Esto no es de extraar, ya que la exponencial no es ms que una Weibull con parmetro de forma = 1 y parmetro de escala igual a la media. Llegados a este punto, es importante percatarse de la precisin con que hemos sido capaces de ajustar los datos: las observaciones procedan de una exponencial con media 0,5. Pues bien, suponiendo desconocida esta informacin y partiendo de tan slo 50 observaciones, hemos logrado casi adivinar el verdadero modelo subyacente a los datos (lgicamente, es de esperar que si dispusisemos de ms observaciones, nuestro ajuste podra ser an mejor).

Proyecto e-Math Financiado por la Secretara de Estado de Educacin y Universidades (MECD)

Ajuste de datos por una distrib. terica con Minitab




Introduccin a los contrastes Chi-Cuadrado (2)


Una variable categrica es una variable que clasifica cada individuo de una poblacin en una de las varias clases -mutuamente excluyentes- en que sta se divide. Hay muchos problemas en los que los datos estn clasificados en categoras, mostrndose los resultados mediante distribuciones de frecuencias. Un ejemplo clsico sera la distribucin de frecuencias de las notas finales de cualquier asignatura (n de sobresalientes, n de notables, etc.). La distribucin Chi-cuadrado puede usarse para realizar contrastes de hiptesis en diferentes situaciones, siendo los principales contrastes los asociados a un experimento multinomial (que veremos en el siguiente apartado) y los asociados a una tabla de contingencia. Estos dos tipos de tests se usan para comparar resultados observados (O) con resultados esperados (E) a fin de determinar alguna de las siguientes propiedades: (1) La bondad del ajuste de las observaciones con respecto al modelo terico seleccionado para explicar su comportamiento (i.e.: contrastar si las frecuencias observadas son coherentes con las que cabra esperar habida cuenta de la distribucin terica que hayamos elegido para explicar el comportamiento de la variable aleatoria), (2) La independencia entre clases (i.e.: si los distintas categoras son o no independientes), y (3) La homogeneidad de clases (i.e.: si las distintas categoras presentan un comportamiento homogneo o si, por el contrario, hay claras diferencias entre ellas respecto a algn factor de inters).

Supongamos que tenemos un nmero k de clases en las cuales se han ido registrado un total de n observaciones (n ser, pues, el tamao muestral). Denotaremos las frecuencias observadas en cada clase por O1, O2, ..., O k . Se cumplir: O1 + O2 + ... + O k = n

Proyecto e-Math Financiado por la Secretara de Estado de Educacin y Universidades (MECD)

Ajuste de datos por una distrib. terica con Minitab

Lo que queremos es comparar las frecuencias observadas con las frecuencias esperadas (tericas), a las que denotaremos por E1, E2, ..., E k . Se verificar que: E1 + E2 + ... + E k = n FRECUENCIA OBSERVADA O1 O2 ... OK N FRECUENCIA ESPERADA E1 E2 ... EK N

CLASE 1 CLASE 2 ... CLASE K Total

Llegados a este punto, el problema es determinar si las frecuencias observadas estn o no en concordancia con las frecuencias esperadas (es decir, si el nmero de resultados observados en cada clase corresponde aproximadamente al nmero esperado). Para comprobarlo, haremos uso de un contraste de hiptesis usando la distribucin Chi-cuadrado: El estadstico de contraste ser 2 =

i =1

(Oi E i )2
Ei

Observar que este valor ser la suma de k nmeros no negativos. El numerador de cada trmino es la diferencia entre la frecuencia observada y la frecuencia esperada. Por tanto, cuanto ms cerca estn entre s ambos valores ms pequeo ser el numerador, y viceversa. El denominador permite relativizar el tamao del numerador. Las ideas anteriores sugieren que, cuanto menor sean el valor del estadstico 2 , ms coherentes sern las observaciones obtenidas con los valores esperados. Por el contrario, valores grandes de este estadstico indicarn falta de concordancia entre las observaciones y lo esperado. En este tipo de contraste se suele rechazar la hiptesis nula (los valores observados son coherentes con los esperados) cuando el estadstico es mayor que un determinado valor crtico. Notas: 1. El valor del estadstico 2 se podr aproximar por una distribucin Chi-cuadrado cuando el tamao muestral n sea grande (normalmente es suficiente con n > 30), y todas las frecuencias esperadas sean iguales o mayores a 5 (en ocasiones deberemos agrupar varias categoras a fin de que se cumpla este requisito). 2. Se supone que las observaciones son obtenidas mediante muestreo aleatorio a partir de una poblacin que previamente ha sido dividida en categoras.

Proyecto e-Math Financiado por la Secretara de Estado de Educacin y Universidades (MECD)

10

Ajuste de datos por una distrib. terica con Minitab




Test 2 de bondad de ajuste


Un experimento multinomial es la generalizacin de un experimento binomial: 1. Consiste en n pruebas idnticas e independientes. 2. Para cada prueba, hay un nmero k de resultados posibles. 3. Cada uno de los k posibles resultados tiene una probabilidad de ocurrencia pi asociada (p1 + p2 + ... + pk = 1), la cual permanece constante durante el desarrollo del experimento. 4. El experimento dar lugar a un conjunto de frecuencias observadas (O1, O2, ..., Ok) para cada resultado. Obviamente, O1 + O2 + ... + Ok = n. En ocasiones estaremos interesados en comparar los resultados obtenidos al realizar un experimento multinomial con los resultados esperados (tericos). Ello nos permitir saber si nuestro modelo terico se ajusta bien o no a las observaciones. Para ello, recurriremos a la distribucin Chi-cuadrado, la cual nos permitir realizar un contraste sobre la bondad del ajuste. Concretamente, usaremos el estadstico 2 =

i =1

(Oi E i )2
Ei

con k 1 grados de libertad.

Podemos calcular cada frecuencia esperada (terica) multiplicando el nmero total de pruebas n por la probabilidad de ocurrencia asociada, es decir: Ei = n * pi
2

i = 1, ..., k

Ejemplo (test bondad ajuste): Un artculo aparecido en El Mundo describa la experiencia llevada a cabo por un estudiante de Bachillerato, el cual haba lanzado en 3.590 ocasiones cinco monedas iguales al aire (lo que hace un total de 17.950 lanzamientos), obteniendo 464 ms caras que cruces. Es este resultado estadsticamente significativo? Podemos concluir que las monedas no eran simtricas? En la siguiente tabla se muestran los resultados registrados por el estudiante: Nmero de caras en los cinco lanzamientos 0 1 2 3 4 5 Total de lanzamientos de 5 monedas Frecuencia Observada 100 524 1.080 1.126 655 105 3.590

Si las monedas fuesen simtricas, la probabilidad de obtener cara en cada lanzamiento sera de 0,5. Por tanto, al lanzar cinco monedas simultneamente, el nmero de caras obtenidas, que denotaremos por X, seguira una distribucin binomial con n = 5 y p = 0,5. Esta ser nuestra hiptesis nula: H0 : X sigue una distribucin B(5;0.5) Bajo la hiptesis anterior, podemos calcular el valor esperado para la probabilidad de obtener 0 caras, 1 cara, 2 caras, etc.:

Proyecto e-Math Financiado por la Secretara de Estado de Educacin y Universidades (MECD)

11

Ajuste de datos por una distrib. terica con Minitab

Calc > Probability Distributions > Binomial :

Calc > Calculator:

Los valores observados y los esperados no parecen coincidir. Observar que, incluso en el caso de que nuestra hiptesis nula fuese cierta, ambos valores no seran exactamente iguales -ya que siempre habr cierto margen de variacin. La dificultad est en determinar si las diferencias entre ambos valores son o no significativas. Calculemos el estadstico 2 :

Proyecto e-Math Financiado por la Secretara de Estado de Educacin y Universidades (MECD)

12

Ajuste de datos por una distrib. terica con Minitab

Calc > Calculator :

Calc > Column Statistics :

Column Sum Sum of CHI-CUADRADO = 21,568

Calculemos finalmente el p-valor asociado a este estadstico. En este caso, como 2 2 trabajamos con un contraste unilateral, p-valor = P( > 21,568) = 1 - P( 21,568) donde 2 sigue una distribucin Chi-cuadrado con k 1 = 5 grados de libertad. Por tanto:

Proyecto e-Math Financiado por la Secretara de Estado de Educacin y Universidades (MECD)

13

Ajuste de datos por una distrib. terica con Minitab Calc > Probability Distributions > Chi-Square :

Cumulative Distribution Function Chi-Square with 5 DF x 21,5680 P( X <= x) 0,9994

As pues, p-valor = 1 0,9994 = 0,0006 < 0,05. Por tanto, podemos considerar que el pvalor es significativo (al menos para = 0,05), motivo por el cual rechazaremos la hiptesis nula, i.e.: las monedas no parecen ser simtricas (i.e.: no siguen una distribucin binomial con parmetro p = 0,5). Profundicemos un poco ms en nuestro anlisis: observar que, en la columna CHICUADRADO, aparece un valor (enorme) de 15,7732 asociado a la obtencin de 4 caras:

Este valor es un reflejo de que hay una discrepancia anormal entre los valores observados y los esperados para esta categora. Es posible que haya habido un error en los registros, contabilizndose algunos resultados de 4 cruces como resultados de 4 caras.

Proyecto e-Math Financiado por la Secretara de Estado de Educacin y Universidades (MECD)

14

Ajuste de datos por una distrib. terica con Minitab




Test de normalidad con Minitab


Muchas de las variables que nos podemos encontrar en la vida real siguen una distribucin normal o aproximadamente normal. sta es una de las razones por las cuales dicha distribucin es tan importante en estadstica. El hecho de que la normal sea una distribucin tan frecuente implica que en muchas ocasiones tendremos la sospecha infundada bien por el tipo de variable con que estemos trabajando, o bien por el anlisis visual del histograma de los datos- de que las observaciones obtenidas provienen de una distribucin normal. Si, en efecto, los datos siguiesen una distribucin normal, ello nos simplificara notablemente la realizacin de anlisis posteriores y de inferencia sobre la poblacin a partir de la cual hemos obtenido las observaciones (suponiendo que stas constituyen una muestra aleatoria de la misma). Minitab nos puede ayudar a contrastar si un determinado conjunto de observaciones se comporta o no segn una distribucin normal. Para ello, el programa proporciona una serie de tests de normalidad que complementan el anlisis grfico de las observaciones.

Ejemplo: En este ejemplo vamos a realizar un experimento consistente en dos fases: Fase 1: Generaremos 20 observaciones aleatorias procedentes de una distribucin binomial con parmetros n = 1.000 y p = 0,5. Fase 2: Completada la fase 1, olvidaremos la procedencia de los datos generados, y supondremos que han sido obtenidos al medir alguna variable cuya distribucin es desconocida, pero de la cual se sospecha que sigue un comportamiento aproximadamente normal. Nos interesar pues realizar un test para contrastar si la hiptesis anterior es sostenible desde un punto de vista estadstico (i.e.: si, en efecto, tiene sentido suponer que los datos se distribuyen segn una normal). Fase 1: A fin de obtener exactamente los mismos resultados que se muestran a continuacin, se recomienda usar una semilla que inicialice la generacin de nmeros aleatorios. Para ello usaremos la opcin Calc > Set Base...

Establecida la semilla, podemos generar los nmeros aleatorios usando la opcin Calc > Random Data > Binomial... :

Proyecto e-Math Financiado por la Secretara de Estado de Educacin y Universidades (MECD)

15

Ajuste de datos por una distrib. terica con Minitab

Obtendremos el siguiente listado de nmeros aleatorios:

Podemos representar los datos anteriores mediante un histograma para comprobar que, en efecto, la forma en que estos se distribuyen nos recuerda a la de la distribucin normal:

Fase 2: Ahora, usaremos el test de normalidad incorporado en Stat > Basic Statistics > Normality Test... para contrastar la hiptesis nula de que los datos anteriores siguen una distribucin normal:

Proyecto e-Math Financiado por la Secretara de Estado de Educacin y Universidades (MECD)

16

Ajuste de datos por una distrib. terica con Minitab

Como se aprecia en el grfico anterior, los puntos se acercan bastante a la recta lo cual es un claro indicio de que siguen una distribucin aproximadamente normal. Adems, el p-valor asociado al contraste de Anderson-Darling es p-value = 0,940 (mucho mayor que 0,05), por lo que estamos muy lejos de rechazar la hiptesis nula de que los datos se distribuyen de forma normal. Este experimento nos ha permitido, adems, comprobar empricamente un resultado terico de sumo inters: cuando una variable aleatoria se distribuye segn una binomial con parmetros n y p, bajo determinadas condiciones (n suficientemente grande y p cercano a 0,5) es posible aproximar el comportamiento de dicha variable mediante una distribucin normal de media np y varianza np (1-p).

Proyecto e-Math Financiado por la Secretara de Estado de Educacin y Universidades (MECD)

17

Ajuste de datos por una distrib. terica con Minitab

BIBLIOGRAFA
[1] [2] [3] [4]

______________________________________________

Ross, S. M. (2001): Simulation. Academic Press. ISBN 0125980531. Matloff, N.S. (1997): Probability Modeling and Computer Simulation. PWS Publishing Co. Yakowitz, R. (1994): Computational Probability and Simulation. Addison-Wesley Pub. Co. Thompson, J.R. (2000): Simulation: a modelers approach. John Wiley & Sons. ISBN: 0471251844. Rubinstein, R. (1998): Modern simulation and modeling John Wiley & Sons. ISBN: 0471170771.

[5]

ENLACES


___________________________________

http://www.itl.nist.gov/div898/handbook/index.htm Libro on-line Engineering Statistics Handbook (ver apartado goodness-of-fit) http://www.palisade.com/html/bestfit.html Pgina web de @Risk.xla dedicada al ajuste de datos http://isgwww.cs.uni-magdeburg.de/~graham/its_01/lectures/06-Inputmodeling-4.pdf PDF con diapositivas en las que se explica cmo ajustar observaciones mediante una distribucin de probabilidad conocida. http://www.cse.msu.edu/~cse808/note/lecture9.ppt PowerPoint en el que se explica cmo llevar a cabo el ajuste de datos. http://www.dal.ca/~jblake/ieng3432/Slides/6.1%20Input%20Analysis.ppt PowerPoint que explica la importancia de las distribuciones de probabilidad en la simulacin. http://www.informs-cs.org/wsc00papers/038.PDF Artculo de Averill M. Law en el que se comentan aspectos interesantes sobre el ajuste de datos mediante distribuciones tericas dentro del mbito de la simulacin.

Proyecto e-Math Financiado por la Secretara de Estado de Educacin y Universidades (MECD)

18

Anlisis de conglomerados

ANLISIS DE CONGLOMERADOS
Autor: Manuel Terrdez Gurrea (mterradez@uoc.edu).

ESQUEMA DE CONTENIDOS_______

________________________

Anlisis de conglomerados (cluster)

Interpretacin de dendogramas

INTRODUCCIN

___________________

El anlisis de conglomerados (cluster) es una tcnica multivariante que busca agrupar elementos (o variables) tratando de lograr la mxima homogeneidad en cada grupo y la mayor diferencias entre los grupos. Nos basaremos en los algoritmos jerrquicos acumulativos (forman grupos haciendo conglomerados cada vez ms grandes), aunque no son los nicos posibles. El dendograma es la representacin grfica que mejor ayuda a interpretar el resultado de un anlisis cluster. El anlisis de conglomerados se puede combinar con el Anlisis de Componentes Principales, ya que mediante ACP se puede homogeneizar los datos, lo cual permite realizar posteriormente un anlisis cluster sobre los componentes obtenidos.

OBJETIVOS

________________________

Entender por qu es importante agrupar elementos parecidos en bloques diferentes. Saber aplicar el anlisis de conglomerados, con ayuda de Minitab. Interpretar el dendograma resultante del anlisis.

Proyecto e-Math Financiado por la Secretara de Estado de Educacin y Universidades (MECD)

Anlisis de conglomerados

CONOCIMIENTOS PREVIOS

___________________________________

Aparte de estar iniciado en el uso del paquete estadstico Minitab, resulta muy conveniente haber ledo con profundidad los siguientes math-blocks: Estadstica descriptiva. Correlacin y regresin lineal mltiple.

CONCEPTOS FUNDAMENTALES
Medidas de disimilitud

______________________________

Partimos de una matriz de informacin que contiene las observaciones de todas las variables sobre los diferentes elementos considerados (ver Tabla 1), y calculamos las diferencias entre dichos elementos mediante alguna de las medidas de disimilitud habituales: la distancia euclidiana (

( X rj X sj ) 2 ), su cuadrado, la distancia de City-Block ( X rj X sj ),


j =1 j =1

la de Mahalanobis, la de Minkowski, la de Tchebychef, etc. Todas ellas proporcionan ordenaciones muy similares de las distancias en casi todos los casos. Tabla 1 X2 X12 X22 ... XK2

Elementos 1 2 ... K

X1 X11 X21 ... XK1

... ... ... ... ...

XJ X1J X2J ... XKJ

Algoritmos de clasificacin
Para clasificar los elementos en clusters utilizaremos algoritmos jerrquicos, que pueden ser acumulativos (se forman grupos haciendo clusters cada vez ms grandes) o disminutivos (partiendo de un solo grupo se separan los elementos en clusters cada vez ms pequeos). Entre los algoritmos jerrquicos acumulativos destacan los siguientes mtodos: Mtodo de las distancias mnimas: se busca la mayor semejanza entre los elementos o grupos ms cercanos. Mtodo de las distancias mximas: se calcula la mnima distancia entre los elementos ms alejados. Mtodo de las distancias medias: se calcula la media de las distancias entre elementos.

Proyecto e-Math Financiado por la Secretara de Estado de Educacin y Universidades (MECD)

Anlisis de conglomerados

Presentacin de los resultados


Para representar la estructura jerrquica de la formacin de los conglomerados se utiliza el dendograma, un grfico que tiene forma de rbol invertido. As, a partir de los K elementos observados podemos identificar desde 1 hasta K clusters, segn el nmero de grupo que queramos obtener, sin ms que realizar la segmentacin horizontal adecuada. Es recomendable trabajar con datos estandarizados, para eliminar el efecto de la escala de medida, y as poder aplicar el anlisis sobre variables que presentan similares valores medios y desviaciones estndar, lo cual facilita la interpretacin.

Proyecto e-Math Financiado por la Secretara de Estado de Educacin y Universidades (MECD)

Anlisis de conglomerados

CASOS PRCTICOS CON SOFTWARE___________________________________


Calificaciones escolares
Vamos a utilizar los datos del archivo asignaturas.mtw, que recogen las calificaciones de los 15 alumnos de una clase en diversas asignaturas Stat Multivariate Cluster Observations...

Tal y como podemos apreciar en los grficos siguientes, solicitaremos el anlisis con las variables estandarizadas, as como el dendograma (representado en funcin de las distancias).

Proyecto e-Math Financiado por la Secretara de Estado de Educacin y Universidades (MECD)

Anlisis de conglomerados

Proyecto e-Math Financiado por la Secretara de Estado de Educacin y Universidades (MECD)

Anlisis de conglomerados

La salida que ofrece Minitab es la siguiente:


Hierarchical Cluster Analysis of Observations
Standardized Variables, Euclidean Distance, Single Linkage Amalgamation Steps Step Number of Similarity clusters level 1 14 88,47 2 13 87,54 3 12 82,03 4 11 80,93 5 10 77,12 6 9 75,35 7 8 75,34 8 7 72,74 9 6 71,89 10 5 71,85 11 4 64,00 12 3 63,87 13 2 59,97 14 1 59,21 Distance level 0,871 0,941 1,357 1,441 1,728 1,862 1,862 2,059 2,123 2,126 2,720 2,729 3,024 3,081 Clusters New Number of obs. joined cluster in new cluster 10 13 10 2 1 15 1 2 4 10 4 3 1 3 1 3 1 7 1 4 1 2 1 5 6 8 6 2 1 6 1 7 1 4 1 10 1 9 1 11 1 11 1 12 1 14 1 13 1 12 1 14 1 5 1 15

Aqu se nos muestra el proceso de creacin de cada cluster, pero no entraremos a analizarlo con detalle, ya que excede el nivel de esta asignatura. Donde s nos detendremos es en la interpretacin del dendograma:

Distance
3,08

2,05

1,03

0,00 1 15 3 7 2 6 8 4 10 13 9 11 14 12 5

Observations

En el dendograma queda reflejada la formacin de los conglomerados, as como las distancias entre ellos. Se puede comprobar, por ejemplo, que la observacin ms distante al resto es la del alumno nmero 5, ya que es la ltima (mayor distancia) en incorporarse al cluster final, seguida de la 12 y la 14. Por el contrario, las observaciones ms cercanas entre s son la 10 y la 13, que forman el primer grupo (distancia ms prxima a 0), y la 1 y la 15, que forman el segundo.

Proyecto e-Math Financiado por la Secretara de Estado de Educacin y Universidades (MECD)

Anlisis de conglomerados El dendograma tambin nos sirve para saber la composicin de cada cluster en cada paso: por ejemplo, si quisiramos hacer una divisin en 5 conglomerados bastara con trazar la lnea azul y comprobaramos que las observaciones 5, 11, 12 y 14 quedaran aisladas (formando cada una de ellas un cluster de tamao 1), y el resto de observaciones formaran otro grupo. Sin embargo, si deseramos conocer la divisin en 8 conglomerados trazaramos la lnea roja, y obtendramos la siguiente distribucin: CLUSTER 1 2 3 4 5 6 7 8 OBSERVACIONES 1, 2, 3, 7, 15 6, 8 4, 10, 13 9 11 14 12 5

Proyecto e-Math Financiado por la Secretara de Estado de Educacin y Universidades (MECD)

Anlisis de conglomerados

Divisin en distritos de una ciudad


Procedemos anlogamente con el archivo entidades.mtw, que recoge datos relativos a los distritos de la ciudad de Valencia (Fuente: Anuario Estadstico de Valencia 1999). Las variables son las siguientes: NOMBRE (Nombre abreviado del distrito), SUPERFICIE (Superficie del distrito en m2), HABITANTES (Nmero de habitantes), TURISMOS (Nmero de turismos), VIVIENDAS (Nmero de viviendas), A E Industriales (Nmero de actividades econmicas industriales), ENTIDADES BANCARIAS y TIPO (1: Centro, 2: Pericentro, 3: Periferia). Obtenemos el dendograma que aparece ms abajo, y nos interesa responder a las siguientes preguntas: a) Cules son las dos observaciones ms similares entre s? b) Cules son las dos observaciones ms distintas al resto? c) Si realizamos una divisin en 4 grupos, qu observaciones contendra cada grupo? Y si la divisin fuera en 7 grupos? d) Qu se podra decir sobre la homogeneidad de los datos?

Distance
3,62

2,41

1,21

0,00
1 4 14 2 3 11 5 12 7 8 9 15 13 16 10 6 17 18 19

Observations

a) Las observaciones ms similares entre s son las que menor distancia presentan: en este caso, la 5 y la 12. b) La observacin ms distinta al resto es claramente la 19, ya que es la ltima que se incorpora al grupo, siendo su distancia a l la mayor; la siguiente es la 1. c) Realizando 4 conglomerados (lnea azul), uno de ellos contendra a la observacin 19, otro a la 1, otro a la 17 y la 18, y el resto de observaciones (2-16) formaran un grupo. Con 7 grupos (lnea roja), seis de ellos seran individuales (observaciones 1, 6, 10, 17, 18, 19) y todas las dems observaciones formaran el grupo restante.

d) Podemos considerar que en general los datos son bastante homogneos, ya que la mayora de
observaciones quedan a una distancia inferior a 2 del resto; sin embargo, hay algunas que se alejan mucho de las dems, como es el caso de la 1 y la 19.

Proyecto e-Math Financiado por la Secretara de Estado de Educacin y Universidades (MECD)

Anlisis de conglomerados

BIBLIOGRAFA
[1] [2] [3]

______________________________________________

Bar, J. y Alemany, R. (2000): Estadstica II. Ed. Fundaci per a la Universitat Oberta de Catalunya. Barcelona. Pea Snchez de Rivera, D. (1987): Estadstica. Modelos y Mtodos. Volumen 2. Alianza Editorial. Madrid. ISBN: 84-206-8110-5 Johnson, R. R. (1996): Elementary statistics. Belmont, etc. : Duxbury, cop

[4] Martn-Guzmn, P. (1991): Curso bsico de estadstica econmica. AC, DL. Madrid. ISBN: 84-7288-142-3

ENLACES
http://www.5campus.org/leccion/cluster

___________________________________

Leccin sobre Anlisis Cluster (Universidad de Zaragoza) www.ual.es/~freche/practicas/practica7/practica7.html Prctica sobre Anlisis Cluster (Universidad de Almera) http://home-3.tiscali.nl/~xp117079/mtad/ Modelos y tcnicas de anlisis de datos (Universidad de Vigo)

Proyecto e-Math Financiado por la Secretara de Estado de Educacin y Universidades (MECD)

Anlisis de componentes principales

ANLISIS DE COMPONENTES PRINCIPALES


Autor: Manuel Terrdez Gurrea (mterradez@uoc.edu).

ESQUEMA DE CONTENIDOS

________________________

Anlisis de componentes principales

Modelo factorial

Obtencin

Interpretacin

INTRODUCCIN

___________________

El Anlisis de Componentes Principales (ACP) es una tcnica estadstica de sntesis de la informacin, o reduccin de la dimensin (nmero de variables). Es decir, ante un banco de datos con muchas variables, el objetivo ser reducirlas a un menor nmero perdiendo la menor cantidad de informacin posible. Los nuevos componentes principales o factores sern una combinacin lineal de las variables originales, y adems sern independientes entre s. Un aspecto clave en ACP es la interpretacin de los factores, ya que sta no viene dada a priori, sino que ser deducida tras observar la relacin de los factores con las variables iniciales (habr, pues, que estudiar tanto el signo como la magnitud de las correlaciones). Esto no siempre es fcil, y ser de vital importancia el conocimiento que el experto tenga sobre la materia de investigacin.

Proyecto e-Math Financiado por la Secretara de Estado de Educacin y Universidades (MECD)

Anlisis de componentes principales

OBJETIVOS

________________________

Entender por qu es importante reducir la dimensin en un problema estadstico. Saber aplicar el anlisis de componentes principales, con ayuda de Minitab. Conocer pautas para elegir el modelo ms adecuado para nuestro problema. Interpretar los factores del modelo obtenido.

CONOCIMIENTOS PREVIOS

___________________________________

Aparte de estar iniciado en el uso del paquete estadstico Minitab, resulta muy conveniente haber ledo con profundidad los siguientes math-blocks: Estadstica descriptiva. Correlacin y regresin lineal mltiple.

CONCEPTOS FUNDAMENTALES

______________________________

Fases de un anlisis de componentes principales


Anlisis de la matriz de correlaciones Un anlisis de componentes principales tiene sentido si existen altas correlaciones entre las variables, ya que esto es indicativo de que existe informacin redundante y, por tanto, pocos factores explicarn gran parte de la variabilidad total. Seleccin de los factores La eleccin de los factores se realiza de tal forma que el primero recoja la mayor proporcin posible de la variabilidad original; el segundo factor debe recoger la mxima variabilidad posible no recogida por el primero, y as sucesivamente. Del total de factores se elegirn aqullos que recojan el porcentaje de variabilidad que se considere suficiente. A stos se les denominar componentes principales. Anlisis de la matriz factorial Una vez seleccionados los componentes principales, se representan en forma de matriz. Cada elemento de sta representa los coeficientes factoriales de las variables (las correlaciones entre las variables y los componentes principales). La matriz tendr tantas columnas como componentes principales y tantas filas como variables.

Proyecto e-Math Financiado por la Secretara de Estado de Educacin y Universidades (MECD)

Anlisis de componentes principales Interpretacin de los factores Para que un factor sea fcilmente interpretable debe tener las siguientes caractersticas, que son difciles de conseguir: Los coeficientes factoriales deben ser prximos a 1. Una variable debe tener coeficientes elevados slo con un factor. No deben existir factores con coeficientes similares.

Clculo de las puntuaciones factoriales Son las puntuaciones que tienen los componentes principales para cada caso, que nos permitirn su representacin grfica. Se calculan mediante la expresin: X ij = ai1 Z 1 j + ... + aik Z kj =

a
s =1

is

Z sk

Los a son los coeficientes y los Z son los valores estandarizados que tienen las variables en cada uno de los sujetos de la muestra.

Proyecto e-Math Financiado por la Secretara de Estado de Educacin y Universidades (MECD)

Anlisis de componentes principales

CASOS PRCTICOS CON SOFTWARE___________________________________


Calificaciones escolares
Vamos a utilizar los datos del archivo asignaturas.mtw, que recogen las calificaciones de los 15 alumnos de una clase en diversas asignaturas. Stat Multivariate Principal Components...

Proyecto e-Math Financiado por la Secretara de Estado de Educacin y Universidades (MECD)

Anlisis de componentes principales La salida que nos ofrece Minitab es la siguiente:

Principal Component Analysis


Eigenanalysis of the Correlation Matrix Eigenvalue Proportion Cumulative Eigenvalue Proportion Cumulative Variable LENGUA MATEMTI FSICA INGLS FILOSOF HISTORIA QUMICA GIMNASIA Variable LENGUA MATEMTI FSICA INGLS FILOSOF HISTORIA QUMICA GIMNASIA 3,7104 0,464 0,464 0,0317 0,004 0,998 PC1 0,500 -0,113 -0,052 0,499 0,450 0,493 -0,073 0,187 PC7 -0,372 -0,247 0,696 0,115 -0,087 0,318 -0,436 -0,066 2,8608 0,358 0,821 0,0139 0,002 1,000 PC2 0,085 0,555 0,575 0,037 0,122 0,064 0,574 -0,069 PC8 0,589 0,075 0,126 -0,651 -0,232 0,300 -0,239 -0,084 PC3 -0,028 0,133 0,076 -0,005 -0,303 -0,011 -0,021 0,940 PC4 -0,235 -0,254 0,059 -0,550 0,702 0,027 0,135 0,250 PC5 0,434 -0,245 0,386 0,102 0,145 -0,736 -0,163 0,052 PC6 0,112 -0,686 0,093 0,001 -0,340 0,140 0,611 -0,002 0,9535 0,119 0,941 0,2156 0,027 0,968 0,1513 0,019 0,986 0,0628 0,008 0,994

En primer lugar nos aparecen los valores propios (eigenvalue) de cada componente principal, y justo debajo la proporcin de varianza explicada (proportion) por cada una de ellos y la varianza explicada acumulada (cumulative). Los datos de varianza explicada son muy importantes para saber cuntos componentes principales vamos a utilizar en nuestro anlisis. No hay una regla definida sobre el nmero que se debe utilizar, con lo cual deberemos decidir en funcin del nmero de variables iniciales (hay que recordar que se trata de reducirlas en la medida de lo posible) y de la proporcin de varianza explicada acumulada. En este caso, parece razonable quedarse con los 3 primeros componentes principales, ya que con ellos se explica el 94,1% de la varianza, y teniendo en cuenta que aadiendo uno ms slo ganamos un 2,7%, y quitando uno perdemos un 12%. Finalmente, nos aparecen las correlaciones de cada componente principal con cada variable: esto nos ayudar a interpretar las variables. En este caso, vemos que PC1 tiene la mayor correlacin positiva con las asignaturas LENGUA, INGLS, HISTORIA y FILOSOFA, mientras que tiene correlacin negativa con MATEMTICAS y casi nula con el resto de asignaturas. Por tanto, es claro que estamos hablando de la facilidad para las asignaturas de Letras. En cuanto a PC2, ocurre justo al contrario, ya que tiene correlacin positiva con FSICA, QUMICA y MATEMTICAS, y cercana a 0 con el resto de asignaturas. Evidentemente, se est refiriendo a la facilidad en las asignaturas de Ciencias. Por ltimo, PC3 tiene una correlacin positiva muy alta (casi 1) con GIMNASIA, con lo cual habra que interpretarla como la facilidad en dicha asignatura, bastante independiente del resto.

Proyecto e-Math Financiado por la Secretara de Estado de Educacin y Universidades (MECD)

Anlisis de componentes principales Tambin obtenemos el grfico en dos dimensiones de PC1 y PC2, donde podemos ver la variabilidad de las observaciones, y si existe alguna que ofrezca un valor extraamente alto o bajo en cada eje.

Score Plot of LENGUA-GIMNASIA


4 3

Second Component

2 1 0 -1 -2 -3 -3 -2 -1 0 1 2

First Component

Proyecto e-Math Financiado por la Secretara de Estado de Educacin y Universidades (MECD)

Anlisis de componentes principales

Barmetro empresarial
Procedemos de forma anloga con el archivo merco.mtw, que contiene los datos del Barmetro Merco, publicados por CincoDas en marzo de 2001, y que consiste en una clasificacin de las 50 empresas con ms prestigio, en funcin de su puntuacin en las siguientes variables: REF: Resultados econmico-financieros. CPS: Calidad producto/servicio. CCCL: Cultura corporativa y calidad laboral. ERSC: tica y responsabilidad social corporativa. DGPI: Dimensin global y presencia internacional. IDI: Investigacin, desarrollo e innovacin. Stat Multivariate Principal components...

Principal Component Analysis


Eigenanalysis of the Correlation Matrix 45 cases used Eigenvalue Proportion Cumulative Variable REF CPS CCCL ERSC DGPI IDI 4 cases contain missing values 1,3205 0,220 0,579 PC2 0,743 0,066 -0,187 -0,101 0,629 0,056 1,1834 0,197 0,776 PC3 0,296 0,855 0,038 0,107 -0,405 -0,068 0,7683 0,128 0,904 PC4 0,250 -0,215 0,439 0,216 -0,036 -0,807 0,4062 0,068 0,972 PC5 0,538 -0,464 -0,063 0,123 -0,614 0,316 0,1695 0,028 1,000 PC6 0,093 0,021 0,654 -0,725 -0,050 0,187

2,1520 0,359 0,359 PC1 -0,015 0,053 0,582 0,626 0,245 0,454

A la vista de la salida del Minitab, resultara difcil decantarse por reducir la dimensin a la mitad, alcanzando un 77,6% de varianza explicada (con los 3 primeros Componentes Principales) o llegar al 90,4% de varianza con un componente principal ms. Veamos el grfico en dos dimensiones de PC1 y PC2:

Proyecto e-Math Financiado por la Secretara de Estado de Educacin y Universidades (MECD)

Anlisis de componentes principales

Score Plot of REF-IDI


2 1

Second Component

0 -1 -2 -3 -4 -4 -3 -2 -1 0 1 2 3

First Component

En cuanto a la interpretacin de los componentes, observamos que PC1 tiene la mayor correlacin positiva con las variables ERSC y CCCL, con lo cual sus valores positivos podran asimilarse con aquellas compaas que destacan por sus valores intangibles (cultura de empresa, tica profesional, etc.) PC2 tiene una correlacin positiva muy alta con la variable REF y tambin destacable con DGPI, con lo cual, a diferencia del caso anterior, parece indicar que valores positivos de este componente los obtendran las empresas con mejores datos objetivos (buena salud financiera, gran dimensin). Por su parte, PC3 tiene una correlacin positiva muy alta con CPS, y correlacin negativa con DGPI, y por tanto lo podramos asociar con aquellas compaas ms "cercanas" al usuario, que destacan ms por la calidad del servicio que por su presencia internacional. Por ltimo, PC4 tiene una correlacin negativa muy alta con IDI, y de ah que pudiramos asociar sus valores positivos con las empresas de corte ms tradicional, que no destacan principalmente por la investigacin y la innovacin. En cuanto al grfico en dos dimensiones de PC1 y PC2, observamos que hay gran dispersin en el primer componente, mientras que en el segundo la mayora de observaciones se sitan en los valores centrales, aunque hay algunos datos que destacan por sus valores distintos (especialmente los negativos), y que son los que cabra estudiar ms a fondo.

Proyecto e-Math Financiado por la Secretara de Estado de Educacin y Universidades (MECD)

Anlisis de componentes principales

Clientes bancarios
En el archivo clientes bancarios.mtw aparecen los datos de las oficinas de una entidad bancaria. Las variables son las siguientes: TIPO (tipo de oficina: Sucursal o Delegacin), PROMEDIO (promedio de transacciones por cliente), CLIENTES (incremento/decremento de clientes respecto al ejercicio anterior), TRANSACCIONES (incremento/decremento de transacciones respecto al ejercicio anterior) y VOLUMEN (volumen de clientes), y se desea estudiar con detalle la variable CLIENTES, para detectar su relacin con el resto de variables. Stat Multivariate Principal components...

Principal Component Analysis


Eigenanalysis of the Correlation Matrix Eigenvalue Proportion Cumulative Variable PROMEDIO CLIENTES TRANSACC VOLUMEN 1,9481 0,487 0,487 PC1 0,021 -0,714 -0,647 0,268 1,0577 0,264 0,751 PC2 -0,477 -0,043 0,363 0,799 0,9826 0,246 0,997 PC3 0,878 0,004 0,204 0,432 0,0115 0,003 1,000 PC4 -0,013 0,699 -0,639 0,321

A la vista de la salida que ofrece Minitab, podemos afirmar que los resultados que ofrece el ACP en este caso no son demasiado buenos, ya que tan slo logramos reducir la dimensin en una variable si optamos por el modelo con 3 componentes (99,7% de varianza explicada), que parece el ms lgico ya que con 2 slo explicaramos el 75% de la varianza. En cuanto a la interpretacin de los componentes, observamos que PC1 tiene alta correlacin negativa con las variables CLIENTES y TRANSACCIONES, con lo cual sus valores positivos podran asimilarse a aquellas oficinas que durante el ejercicio han disminuido su nmero de clientes y transacciones respecto al ejercicio anterior. PC2 tiene la mayor correlacin (positiva) con la variable VOLUMEN, mientras que es tambin reseable su correlacin negativa con PROMEDIO. Esto parece indicar que valores positivos de este componente los obtendran las oficinas con una gran cartera de clientes, no necesariamente muy activos. Por ltimo, PC3 tiene una correlacin positiva y muy alta con la variable PROMEDIO, y por tanto lo podramos asociar con oficinas cuyos cientes son muy activos, ya que realizan un gran nmero de transacciones. En cuanto al grfico en dos dimensiones de PC1 y PC2, observamos que la gran mayora de las observaciones se acumulan en los valores centrales de ambos componentes, aunque hay algunos datos que destacan por sus valores distintos, y que son los que cabra estudiar ms a fondo.

Proyecto e-Math Financiado por la Secretara de Estado de Educacin y Universidades (MECD)

Anlisis de componentes principales

Score Plot of PROMEDIO-VOLUMEN


5 4

Second Component

3 2 1 0 -1 -2 -3 -5 0 5 10

First Component

Proyecto e-Math Financiado por la Secretara de Estado de Educacin y Universidades (MECD)

10

Anlisis de componentes principales

BIBLIOGRAFA
[1] [2] [3] [4]

______________________________________________

Bar, J. y Alemany, R. (2000): Estadstica II. Ed. Fundaci per a la Universitat Oberta de Catalunya. Barcelona. Pea Snchez de Rivera, D. (1987): Estadstica. Modelos y Mtodos. Volumen 2. Alianza Editorial. Madrid. ISBN: 84-206-8110-5 Johnson, R. R. (1996): Elementary statistics. Belmont, etc. : Duxbury, cop Martn-Guzmn, P. (1991): Curso bsico de estadstica econmica. AC, DL. Madrid. ISBN: 84-7288-142-3

ENLACES
http://www.5campus.org/leccion/anamul

___________________________________

Leccin sobre Anlisis Multivariante (Universidad de Zaragoza) http://www.uniovi.es/UniOvi/Apartados/Departamento/Psicologia/metodos/tutor.1/fac3.html Artculo "ANLISIS FACTORIAL vs COMPONENTES PRINCIPALES" de la Universidad de Oviedo http://www.inegi.gob.mx/difusion/espanol/niveles/jly/nivbien/componentes.html Seleccin de variables a travs de la tcnica de Componentes Principales

Proyecto e-Math Financiado por la Secretara de Estado de Educacin y Universidades (MECD)

11

Series Temporales

SERIES TEMPORALES
Autores: Manuel Terrdez (mterradez@uoc.edu), ngel A. Juan (ajuanp@uoc.edu)

ESQUEMA DE CONTENIDOS__

________________________

Medias mviles

Series Temporales

Anlisis de la serie

Anlisis de la tendencia Mtodo de descomposicin

Autocorrelacin
Modelo combinado

INTRODUCCIN

___________________

Una serie temporal es un conjunto de observaciones ordenadas en el tiempo, que pueden representar la evolucin de una variable (econmica, fsica, etc.) a lo largo de l. El objetivo del anlisis de una serie temporal es el conocimiento de su patrn de comportamiento, para as prever su evolucin futura, suponiendo que las condiciones no variarn. Dado que no se trata de fenmenos deterministas, sino sujetos a una aleatoriedad, el estudio del comportamiento pasado ayuda a inferir la estructura que permita predecir su comportamiento futuro, pero es necesaria una gran cautela en la previsin debido a la inestabilidad del modelo. La particular forma de la informacin disponible de una serie cronolgica (se dispone de datos en periodos regulares de tiempo) hace que las tcnicas habituales de inferencia estadstica no sean vlidas para estos casos, ya que nos encontramos ante n muestras de tamao 1 procedentes de otras tantas poblaciones de caractersticas y distribucin desconocidas. Proyecto e-Math Financiado por la Secretara de Estado de Educacin y Universidades (MECD)

Series Temporales

OBJETIVOS

________________________

Entender la estructura especial de la informacin en una serie temporal. Comprender qu est sucediendo con los datos (patrn de comportamiento). Predecir valores futuros.

CONOCIMIENTOS PREVIOS

___________________________________

Aparte de estar iniciado en el uso del paquete estadstico Minitab, resulta muy conveniente haber ledo con profundidad los siguientes math-blocks: Estadstica descriptiva. Anlisis de regresin y correlacin lineal.

CONCEPTOS FUNDAMENTALES

______________________________

Consideraciones previas al anlisis


Normalmente, la mejor forma de comenzar a analizar los datos de una serie temporal es representar las observaciones vs. el tiempo a fin de detectar tendencias, patrones estacionarios, y outliers. Si la variabilidad de la serie cambia con el tiempo, es conveniente aplicar una transformacin a los datos que estabilice la varianza. Se suele utilizar una transformacin logartmica o, en ocasiones, considerar el cambio porcentual de cada observacin a la siguiente (en lugar de las propias observaciones). Para estudiar dicha variabilidad, podemos hacer (con ayuda de un programa estadstico, por ejemplo Minitab) lo siguiente: 1. 2. 3. Colocar las observaciones en la columna 1 Colocar en la columna 2 las observaciones desplazadas en un lugar (lag = 1) Calcular en la columna 3 la diferencia entre los datos de ambas columnas

Los pasos 2 y 3 se pueden hacer con Minitab mediante las opciones Stat > Time Series > Lag , y Calc > Calculator, o bien directamente con la opcin Stat > Time Series > Differences, como se muestra a continuacin:

Proyecto e-Math Financiado por la Secretara de Estado de Educacin y Universidades (MECD)

Series Temporales

Representando ahora la columna de las diferencias podemos saber si la varianza permanece aproximadamente constante.

Proyecto e-Math Financiado por la Secretara de Estado de Educacin y Universidades (MECD)

Series Temporales

200 100 0 -100 -200 -300 Index 10 20 30 40

En el ejemplo anterior, se observa que la varianza permanece aproximadamente constante (con excepcin de los dos outliers), por lo que no parece necesario aplicar ninguna transformacin a los datos. Es frecuente que nos interese comparar el valor observado en un instante temporal determinado con el valor observado en algn instante anterior. As, podramos estar interesados en comparar los datos de la columna OBSERV con los de la columna LAG = 1 (los mismos datos pero desplazados en una unidad temporal). Esta comparacin nos puede permitir determinar el coeficiente de correlacin entre ambos conjuntos de datos, lo cual ser til a la hora de realizar predicciones. Para determinar dichas correlaciones haremos uso de la funcin de autocorrelacin y de la funcin de autocorrelacin parcial. En el anlisis de las series temporales se considera que las observaciones contienen: (a) un patrn sistemtico, y (b) un componente de error aleatorio al que llamaremos ruido. La mayora de las tcnicas que veremos tendrn como objetivo filtrar dicho ruido.

DIFER

Proyecto e-Math Financiado por la Secretara de Estado de Educacin y Universidades (MECD)

Series Temporales

Anlisis de la tendencia
El anlisis de la tendencia es un mtodo que consiste en ajustar un modelo de tendencia general a una serie temporal con el fin de realizar predicciones. Se suele utilizar cuando la serie no contiene componente estacionario alguno. Los datos deben estar todos en la misma columna. Minitab permite elegir entre cuatro modelos diferentes: lineal, cuadrtico, exponencial, y curva en forma de S. En el caso de elegir este ltimo, es necesario eliminar de la columna todas las casillas que no contengan datos vlidos (missing data). El programa ofrece tres medidas para estimar la bondad del ajuste: t ) / yt (y t y n

MAPE =

100

(y t 0)

MAD =

t yt y n t) (y t y n
2

MSD =

y En las expresiones anteriores, y t representa la observacin, t representa el valor pronosticado, y n representa el nmero de predicciones a realizar. Para las tres medidas, cuanto menor sea su valor, mejor ser el ajuste del modelo.

Descomposicin
El mtodo de descomposicin permite, dada una serie temporal, separarla en sus respectivos componentes: por un lado nos proporcionar la tendencia lineal y, por otro, su estacionalidad. Usaremos el mtodo de descomposicin cuando: (a) (b) deseemos realizar predicciones y la serie tenga un componente estacional, o queramos examinar la naturaleza de los componentes de la serie.

El componente estacional de la serie puede tener, con respecto a la tendencia, un carcter aditivo o un carcter multiplicativo. Usaremos un modelo multiplicativo cuando la variacin del patrn estacional aumente al desplazarnos hacia la derecha en el grfico. Si, por el contrario, la variacin del patrn estacional permanece constante, usaremos un modelo aditivo.

Proyecto e-Math Financiado por la Secretara de Estado de Educacin y Universidades (MECD)

Anlisis mltiple de datos

Modelo multiplicativo: Modelo aditivo:

y t = Tendencia Estacionalidad + Error y t = Tendencia + Estacionalidad + Error

Generalmente, realizaremos la descomposicin en un solo paso a partir de las observaciones colocadas en una nica columna. Sin embargo, cuando las observaciones muestren una tendencia no lineal, suele ser conveniente realizar una descomposicin de los residuos del modelo de tendencia previamente calculado. Esta alternativa suele mejorar el ajuste del modelo al combinar la informacin del anlisis de tendencia con la informacin de la descomposicin.

Modelo combinado Cuando las observaciones muestren una tendencia no lineal, suele ser conveniente
realizar una descomposicin de los residuos del modelo de tendencia previamente calculado (anlisis combinado). Esta alternativa suele mejorar el ajuste del modelo al combinar la informacin del anlisis de tendencia con la informacin de la descomposicin.

Medias mviles
El mtodo de las medias mviles es un mtodo dinmico que consiste en promediar observaciones consecutivas de una serie para suavizar el patrn que siguen los datos y realizar predicciones a corto plazo. Este procedimiento suele emplearse cuando las observaciones no muestran patrones de tendencia o estacionarios, si bien es posible emplearlo tambin con series que tengan componentes estacionarios o de tendencia. Para calcular la media mvil se promedian grupos de observaciones consecutivas. Supongamos, por ejemplo, que una serie comienza con los nmeros 4, 5, 8, 9, 10, , y que usamos una longitud de 3 para calcular la media mvil. Entonces, los dos primeros valores de la media mvil sern desconocidos, mientras que el tercero ser el promedio entre las observaciones 4, 5, y 8. Por su parte, el cuarto valor ser el promedio entre 5, 8, y 9, etc. Si la serie no tiene componente estacionario, suele ser habitual tomar medias mviles de poca longitud para suavizar la serie, si bien dicha longitud depende del nivel de ruido (error) que contenga la serie: si tomamos una media mvil de longitud grande estaremos eliminando mucho ruido, pero el patrn resultante tambin ser menos sensible a cambios en las series. Si la serie contiene un patrn estacionario se suele usar el perodo como longitud para la media mvil.

Proyecto e-Math Financiado por la Secretara de Estado de Educacin y Universidades (MECD)

Anlisis mltiple de datos

Autocorrelacin y autocorrelacin parcial


A la hora de realizar pronsticos, sera muy til detectar la existencia, en las observaciones, de algn patrn que nos indicase cmo varan los datos de un instante temporal al siguiente. Por ejemplo, podra ocurrir que un valor por debajo de la media en el instante t propiciara obtener un valor alto en el instante t+1 (o viceversa). La funcin de autocorrelacin nos puede ayudar a identificar tales patrones. La idea es calcular el coeficiente de correlacin entre el conjunto de observaciones y el conjunto de observaciones desplazadas en n instantes temporales (lag = n). Lgicamente, estaremos interesados en detectar niveles altos de autocorrelacin. Pero no debemos olvidar que los coeficientes de autocorrelacin son dependientes entre s. Por ejemplo: si la primera columna (observaciones) est fuertemente correlacionada con la segunda (lag = 1), y sta a su vez con la tercera (lag = 2), entonces la primera estar tambin correlacionada con la tercera. Por este motivo, suele ser interesante calcular tambin la funcin de autocorrelacin parcial, en la cual ya se eliminan las dependencias con columnas intermedias. En cierto sentido, podramos decir que la autocorrelacin parcial proporciona una visin ms clara de las dependencias entre las observaciones.

Proyecto e-Math Financiado por la Secretara de Estado de Educacin y Universidades (MECD)

Series Temporales

CASOS PRCTICOS CON SOFTWARE___________________________________


Nmero de empleados de una empresa
Durante los ltimos 60 meses, hemos ido registrando el nmero de empleados de una gran empresa (fichero Empleados.mtw). Deseamos ahora hacer una prediccin, sobre la evolucin de este indicador, en los prximos 12 meses. Dado que se observa en los datos un patrn curvilneo, usaremos un modelo cuadrtico para ajustar las observaciones. Adems, tambin se observa un componente estacionario, por lo que guardaremos los residuos a fin de realizar, ms adelante, una descomposicin de los mismos y poder as mejorar nuestro modelo. Anlisis de la tendencia Seleccionamos Stat > Time Series > Trend Analisis :

Completamos la ventana Trend Analisis y la de Storage como se muestra a continuacin:

Proyecto e-Math Financiado por la Secretara de Estado de Educacin y Universidades (MECD)

Series Temporales

Trend Analysis
Data Length NMissing Empleados 60,0000 0

Fitted Trend Equation Yt = 320,762 + 0,509373*t Accuracy Measures MAPE: MAD: MSD: Row 1 2 3 4 ... Period 61 62 63 64 ... 1,70760 5,95655 59,1305 FORE1 391,818 393,649 395,502 397,376 ... + 1,07E-02*t**2

Proyecto e-Math Financiado por la Secretara de Estado de Educacin y Universidades (MECD)

Series Temporales

Trend Analysis for Empleados


Quadratic Trend Model Yt = 320,762 + 0,509373*t + 1,07E-02*t**2 420
Actual Fits Forecasts Actual Fits Forecasts

Empleados

370

320 0 10 20 30 40 50 60 70

MAPE: MAD: MSD:

1,7076 5,9566 59,1305

Time

El grfico anterior muestra las observaciones (Actual), la curva de tendencia que se ajusta a las mismas (Fits), y los valores pronosticados (Forecasts). Las observaciones presentan una tendencia creciente, con un claro componente estacionario. La curva obtenida parece ajustarse bastante bien a la tendencia de las observaciones, pero el patrn estacionario no est siendo considerado en este modelo.

Anlisis de descomposicin Seleccionamos Stat > Time Series > Decomposition y completamos las ventanas como se indica (elegiremos un modelo aditivo):

Proyecto e-Math Financiado por la Secretara de Estado de Educacin y Universidades (MECD)

10

Series Temporales

El output del programa nos ofrece informacin textual y grfica. Observar que, con este modelo, obtenemos un valor de 20,30 para el MSD: Time Series Decomposition
Data Length NMissing Empleados 60,0000 0

Trend Line Equation Yt = 313,989 + 1,16485*t Seasonal Indices Period 1 2 3 4 5 6 7 8 9 10 11 12 Index -8,48264 -13,3368 -11,4410 -5,81597 0,559028 3,55903 1,76736 3,47569 3,26736 5,39236 8,49653 12,5590

Accuracy of Model MAPE: MAD: MSD: Forecasts Row 1 2 3 4 5 6 7 8 9 10 11 12 Period 61 62 63 64 65 66 67 68 69 70 71 72 Forecast 376,562 372,873 375,933 382,723 390,263 394,428 393,801 396,674 397,631 400,921 405,190 410,417 0,8797 2,9550 20,2982

Proyecto e-Math Financiado por la Secretara de Estado de Educacin y Universidades (MECD)

11

Series Temporales

Decomposition Fit for Empleados

Actual

400

Predicted Forecast Actual Predicted Forecast

Empleados

350

300 0 10 20 30 40 50 60 70

MAPE: MAD: MSD:

0,8797 2,9550 20,2982

Time
En las siguientes imgenes se muestran, por separado, la serie original de observaciones, los datos una vez eliminada la tendencia, los datos una vez extrado el patrn estacional, y los datos una vez extrados el patrn estacional y la tendencia:

Component Analysis for Empleados


Original Data
400 390 380 370 360 350 340 330 320 310 0 10 20 30 40 50 60 10 0 -10 -20 0 10 20 30 40 50 60

Detrended Data

Seasonally Adjusted Data


390 380 370 360 350 340 330 320 0 10 20 30 40 50 60 15 10 5 0 -5 -10

Seasonally Adj. and Detrended Data

10

20

30

40

50

60

Proyecto e-Math Financiado por la Secretara de Estado de Educacin y Universidades (MECD)

12

Series Temporales Finalmente, en el ltimo conjunto de grficos se muestra un anlisis estacional: grfico de ndices estacionales, grfico de variacin porcentual por estaciones, grfico de boxplots referidos a observaciones agrupadas por perodos estacionarios, y grfico de boxplots de los residuos agrupados por perodos estacionarios.

Seasonal Analysis for Empleados


Seasonal Indices
10 400 390 380 370 360 350 340 330 320 310 1 2 3 4 5 6 7 8 9 10 11 12 1 2 3 4 5 6 7 8 9 10 11 12

Original Data, by Seasonal Period

-10

Percent Variation, by Seasonal Period


15 15 10 5 0 -5 0 1 2 3 4 5 6 7 8 9 10 11 12 -10

Residuals, by Seasonal Period

10

9 10 11 12

Anlisis combinado (tendencia+descomposicin) Usaremos los residuos obtenidos en el anlisis de la tendencia (guardados en la columna RESI1) para combinarlo con el mtodo de descomposicin: Seleccionamos Stat > ventanas como se indica:

Time Series > Decomposition y completamos las

Proyecto e-Math Financiado por la Secretara de Estado de Educacin y Universidades (MECD)

13

Series Temporales A continuacin se muestra el output generado por el programa: Time Series Decomposition
Data Length NMissing RESI1 60,0000 0

Seasonal Indices Period 1 2 3 4 5 6 7 8 9 10 11 12 Index -8,48264 -13,3368 -11,4410 -5,81597 0,559028 3,55903 1,76736 3,47569 3,26736 5,39236 8,49653 12,5590

Accuracy of Model MAPE: MAD: MSD: Forecasts Row 1 2 3 4 5 6 7 8 9 10 11 12 Period 61 62 63 64 65 66 67 68 69 70 71 72 FORE2 -8,4826 -13,3368 -11,4410 -5,8160 0,5590 3,5590 1,7674 3,4757 3,2674 5,3924 8,4965 12,5590 881,582 2,802 11,899

El grfico siguiente nos proporciona la serie de residuos original (Actual), la lnea de tendencia asociada (horizontal, ya que son los residuos), los valores estimados (Predicted), y los pronosticados (Forecasts):

Proyecto e-Math Financiado por la Secretara de Estado de Educacin y Universidades (MECD)

14

Series Temporales

Decomposition Fit for RESI1

Actual Predicted

10

Forecast Actual Predicted Forecast

RESI1

-10
MAPE: MAD: MSD: 881,582 2,802 11,899

-20 0 10 20 30 40 50 60 70

Time
En las siguientes imgenes se muestran, por separado, la serie original de observaciones (residuos), los datos una vez eliminada la tendencia (en este caso queda igual, por ser la tendencia horizontal), los datos una vez extrado el patrn estacional, y los datos una vez extrados el patrn estacional y la tendencia:

Component Analysis for RESI1


Original Data
10 0 -10 -20 0 10 20 30 40 50 60 10 0 -10 -20 0 10 20 30 40 50 60

Detrended Data

Seas onally Adjus ted Data


10 5 0 -5 0 10 20 30 40 50 60 10 5 0 -5

Seas onally Adj. and Detrended Data

10

20

30

40

50

60

Proyecto e-Math Financiado por la Secretara de Estado de Educacin y Universidades (MECD)

15

Series Temporales En el primero de los grficos (Decomposition FIT) se observa que los residuos obtenidos en el anlisis de tendencia (ver ejemplo anterior) se ajustan bastante bien por el modelo generado usando el mtodo de descomposicin. Si acaso, vemos que el valor estimado en el primero de los ciclos es considerablemente menor que el valor real, mientras que ocurre todo lo contrario en el ltimo de los ciclos. Esto tambin se puede apreciar claramente en el grfico de nombre Seasonally Adj. And Detrended Data.

Finalmente, en el ltimo conjunto de grficos se muestra un anlisis estacional: grfico de ndices estacionales, grfico de variacin porcentual por estaciones, grfico de boxplots referidos a observaciones (residuos) agrupadas por perodos estacionarios, y grfico de boxplots de los residuos (de las observaciones) agrupados por perodos estacionarios.

Seasonal Analysis for RESI1


Seasonal Indices
10 10 0 -10 -10 -20 1 2 3 4 5 6 7 8 9 10 11 12 1 2 3 4 5 6 7 8 9 10 11 12

Original Data, by Seasonal Period

Percent Variation, by Seasonal Period


10 10 5 0 -5 0 1 2 3 4 5 6 7 8 9 10 11 12

Residuals, by Seasonal Period

9 10 11 12

Proyecto e-Math Financiado por la Secretara de Estado de Educacin y Universidades (MECD)

16

Series Temporales

Veamos ahora cmo podemos calcular los valores estimados (Predicted) y los pronosticados (Forecasted):

Seleccionamos Calc > Calculator .

Guardaremos los nuevos valores estimados, obtenidos como suma (por ser un modelo aditivo) de:

(a) los valores estimados provenientes del anlisis de la tendencia (FITS1), y

(b) los provenientes de la descomposicin de los residuos (FITS2)


Completaremos, pues, la ventana como se muestra a continuacin:

Ahora haremos lo mismo con los valores pronosticados:

Proyecto e-Math Financiado por la Secretara de Estado de Educacin y Universidades (MECD)

17

Series Temporales

Comprobemos cmo quedan todos los datos anteriores en un grfico de series temporales. Usaremos la opcin Graph > Time Series Plot :

Proyecto e-Math Financiado por la Secretara de Estado de Educacin y Universidades (MECD)

18

Series Temporales

400 Empleados

350

300 Index 2 12 22 32 42 52 62 72

En el grfico anterior, los crculos representan las observaciones, los smbolos + representan las estimaciones. Los pronsticos se representan con otro smbolo. Calculemos ahora el valor del MSD. Haremos uso para ello de la frmula y de la opcin Calc

> Calculator :

Proyecto e-Math Financiado por la Secretara de Estado de Educacin y Universidades (MECD)

19

Series Temporales

Como se observa en la siguiente pantalla, el valor del MSD que se obtiene con este mtodo combinado es de 11,90:

Podemos comparar la bondad del ajuste de los diferentes modelos usando el MSD obtenido. El valor del MSD para el modelo de tendencia cuadrtica era de 59,13. Los modelos de descomposicin aditiva y multiplicativa con tendencia lineal daran un MSD de 20,30 y 18,54 respectivamente. El valor del MSD para la combinacin de tendencia cuadrtica y descomposicin de residuos es de 11,90, lo que indica que este mtodo combinado es el que proporciona un mejor ajuste. Probablemente sea tambin interesante calcular el valor MSD para el modelo multiplicativo.

Proyecto e-Math Financiado por la Secretara de Estado de Educacin y Universidades (MECD)

20

Series Temporales

Evolucin de la temperatura de un ro
En el archivo Rio.mtw se ha registrado (en la variable Temp) la temperatura del agua de un ro en las ltimas 90 horas. En primer lugar, a fin de determinar si la temperatura en una hora concreta est correlacionada con la temperatura registrada una hora antes, dos horas antes, etc., calcularemos la funcin de autocorrelacin con lags = 24 Posteriormente realizaremos con Minitab un anlisis de la tendencia y un anlisis de descomposicin (no combinado) de la serie temporal que origina la variable Temp. Por otra parte, usando medias mviles de longitud 4, intentaremos predecir la temperatura de las prximas 12 horas Estudio de la autocorrelacin y la autocorrelacin parcial

Stat > Time Series > Autocorrelation :

Observar en el grfico siguiente que la funcin de correlacin tiene una forma senosuidal, lo cual sugiere que las temperaturas de horas cercanas estarn positivamente correlacionadas (de hecho, el valor obtenido para la correlacin entre la columna de las observaciones y la columna desplazada en una unidad es de 0,95), mientras que temperaturas separadas por 12 horas estarn negativamente correlacionadas (-0,70 en este ejemplo). Notar tambin la existencia de un componente estacionario de perodo 24 horas.

Proyecto e-Math Financiado por la Secretara de Estado de Educacin y Universidades (MECD)

21

Series Temporales

Autocorrelation Function for Temp


1,0 0,8 0,6 0,4 0,2 0,0 -0,2 -0,4 -0,6 -0,8 -1,0

Autocorrelation

12

22

Lag Corr

LBQ

Lag Corr

LBQ

Lag Corr

LBQ

Lag Corr

LBQ

1 0,95 9,25 88,34 2 0,84 4,87 157,57 3 0,67 3,21 203,14 4 0,48 2,06 226,19 5 0,26 1,08 233,18 6 0,04 0,16 233,34 7 -0,17 -0,70 236,44

8 -0,36 -1,44 249,83 9 -0,50 -2,00 277,09 10 -0,61 -2,33 317,54 11 -0,67 -2,43 367,27 12 -0,70 -2,37 420,99 13 -0,68 -2,19 472,74 14 -0,62 -1,91 516,86

15 -0,53 -1,57 549,45 16 -0,41 -1,18 569,00 17 -0,26 -0,75 577,17 18 -0,10 -0,27 578,29 19 0,08 0,21 578,99 20 0,24 0,69 586,23 21 0,39 1,11 605,55

22 0,52 1,45 640,21 23 0,62 1,68 688,98 24 0,66 1,75 745,79

Al analizar grficos como el anterior, no debemos olvidar que los coeficientes de autocorrelacin son dependientes entre s. Por ejemplo: si la primera columna (observaciones) est fuertemente correlacionada con la segunda (lag = 1), y esta a su vez con la tercera (lag = 2), entonces la primera estar tambin correlacionada con la tercera. Por este motivo, suele ser interesante calcular tambin la funcin de autocorrelacin parcial, en la cual ya se eliminan las dependencias con columnas intermedias. En cierto sentido, podramos decir que la autocorrelacin parcial proporciona una visin ms clara de las dependencias entre las .

Stat > Time Series > Partial Autocorrelation :

Proyecto e-Math Financiado por la Secretara de Estado de Educacin y Universidades (MECD)

22

Series Temporales

Partial Autocorrelation Function for Temp


Partial Autocorrelation
1,0 0,8 0,6 0,4 0,2 0,0 -0,2 -0,4 -0,6 -0,8 -1,0

12

22

Lag PAC 1 0,95 2 -0,66 3 -0,29 4 -0,23 5 -0,09 6 -0,16 7 -0,01

T 9,25 -6,44 -2,80 -2,28 -0,84 -1,60 -0,11

Lag PAC 8 0,02

T 0,24 -0,77 -0,30 -0,77 -1,36 -0,70 0,35

Lag PAC 15 16 17 18 19 21 0,04 0,10 0,07 0,16 0,01 0,02

T 0,40 0,95 0,72 1,56 0,06 -0,16 0,19

Lag PAC 22 0,14 23 -0,10 24 -0,13

T 1,36 -0,93 -1,25

9 -0,08 10 -0,03 11 -0,08 12 -0,14 13 -0,07 14 0,04

20 -0,02

Anlisis de la tendencia Dado que se observa en los datos un patrn lineal, usaremos un modelo lineal para ajustar las observaciones. Adems, tambin se observa un claro componente estacionario, por lo que guardaremos los residuos a fin de realizar, ms adelante, una descomposicin de los mismos y poder as mejorar nuestro modelo. Seleccionamos Stat > Time Series > Trend Analisis

Proyecto e-Math Financiado por la Secretara de Estado de Educacin y Universidades (MECD)

23

Series Temporales

La salida que ofrece Minitab es la siguiente: Trend Analysis


Data Length NMissing Temp 95,0000 0

Fitted Trend Equation Yt = 42,6710 - 2,11E-02*t Accuracy Measures MAPE: MAD: MSD: Row 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 Period 96 97 98 99 100 101 102 103 104 105 106 107 108 109 110 111 112 113 114 115 116 117 118 119 6,13991 2,51294 8,26801 FORE1 40,6501 40,6291 40,6080 40,5869 40,5659 40,5448 40,5238 40,5027 40,4817 40,4606 40,4396 40,4185 40,3975 40,3764 40,3554 40,3343 40,3133 40,2922 40,2712 40,2501 40,2291 40,2080 40,1870 40,1659

Observar que las medidas de bondad del ajuste (MAPE, MAD y MSD) mantienen unos valores bastante buenos (pequeos). El siguiente grfico muestra las observaciones (Actual), la curva de tendencia que se ajusta a las mismas (Fits), y los valores pronosticados (Forecasts). Las observaciones presentan una tendencia decreciente, con un claro componente estacionario. La recta obtenida no ajusta mal la tendencia de las observaciones, pero el patrn estacionario no est siendo considerado en este modelo.

Proyecto e-Math Financiado por la Secretara de Estado de Educacin y Universidades (MECD)

24

Series Temporales

Trend Analysis for Temp


Linear Trend Model Yt = 42,6710 - 2,11E-02*t 45
Actual Fits Forecasts Actual Fits Forecasts

Temp

40

35 0 50 Pasamos a realizar el anlisis de descomposicin. 100

MAPE: MAD: MSD:

6,13991 2,51294 8,26801

Time

Anlisis de descomposicin Utilizamos un modelo aditivo, al no observarse que la variacin del patrn estacional crezca con el tiempo. Seleccionamos Stat > Time Series > Decomposition

La salida que ofrece Minitab es la siguiente:

Proyecto e-Math Financiado por la Secretara de Estado de Educacin y Universidades (MECD)

25

Series Temporales Time Series Decomposition


Data Length NMissing Temp 95,0000 0

Trend Line Equation Yt = 42,6710 - 2,11E-02*t Seasonal Indices Period 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 Index 0,919957 1,60121 1,94391 2,41391 2,91829 3,09621 2,99412 3,15204 3,16475 3,07621 2,61058 0,905998 -1,14609 -1,59484 -2,81734 -3,60754 -4,40838 -4,77692 -4,44046 -3,22254 -1,92629 -0,73692 -0,10129 -0,01859

Accuracy of Model MAPE: MAD: MSD: Forecasts Row 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 Period 96 97 98 99 100 101 102 103 104 105 106 107 108 109 110 111 112 113 114 115 116 117 118 119 Forecast 40,6315 41,5490 42,2092 42,5309 42,9798 43,4631 43,6200 43,4969 43,6337 43,6254 43,5158 43,0291 41,3035 39,2304 38,7606 37,5170 36,7057 35,8839 35,4943 35,8097 37,0065 38,2817 39,4501 40,0646 2,03073 0,83542 1,13924

Proyecto e-Math Financiado por la Secretara de Estado de Educacin y Universidades (MECD)

26

Series Temporales

Notar que todas las medidas de bondad del ajuste (MAPE, MAD y MSD) son menores que en el caso anterior, lo cual indica que este modelo se ajusta mejor a la serie. Esto tambin se ve claramente en el primero de los grficos siguientes, donde se observa que ahora el componente estacional s se est teniendo en cuenta. En el segundo bloque de imgenes se muestran, por separado, la serie original de observaciones, los datos una vez eliminada la tendencia, los datos una vez extrado el patrn estacional, y los datos una vez extrados el patrn estacional y la tendencia Finalmente, en el ltimo conjunto de grficos se muestra un anlisis estacional: grfico de ndices estacionales, grfico de variacin porcentual por estaciones, grfico de boxplots referidos a observaciones agrupadas por perodos estacionarios, y grfico de boxplots de los residuos agrupados por perodos estacionarios.

Proyecto e-Math Financiado por la Secretara de Estado de Educacin y Universidades (MECD)

27

Series Temporales

Decomposition Fit for Temp

Actual

45

Predicted Forecast Actual Predicted Forecast

Temp

40

35 0 50 100

MAPE: MAD: MSD:

2,03073 0,83542 1,13924

Time

Component Analysis for Temp


Original Data
45 5

Detrended Data

40

35 0 10 20 30 40 50 60 70 80 90 100

-5 0 10 20 30 40 50 60 70 80 90 100

Seasonally Adjusted Data


44 43 42 41 40 39 38 37 0 10 20 30 40 50 60 70 80 90 100 2 1 0 -1 -2 -3

Seasonally Adj. and Detrended Data

10 20 30 40 50 60 70 80 90 100

Proyecto e-Math Financiado por la Secretara de Estado de Educacin y Universidades (MECD)

28

Series Temporales

Seasonal Analysis for Temp


Seasonal Indices
3 2 1 0 -1 -2 -3 -4 -5 2 4 6 8 10 12 14 16 18 20 22 24 45

Original Data, by Seasonal Period

40

35 2 4 6 8 10 12 14 16 18 20 22 24

Percent Variation, by Seasonal Period


7 6 5 4 3 2 1 0 2 4 6 8 10 12 14 16 18 20 22 24 2 1 0 -1 -2 -3 2

Residuals, by Seasonal Period

8 10 12 14 16 18 20 22 24

A pesar de que una transformacin de la variable suele tener efectos positivos en el anlisis, en este caso no parece que sea necesario a la vista del grfico de residuos, ya que presentan un comportamiento errtico alrededor del 0, sin ningn patrn claro.

Medias mviles Utilizamos un modelo aditivo, al no observarse que la variacin del patrn estacional crezca con el tiempo. Seleccionamos Stat > Time Series > Moving Average

Proyecto e-Math Financiado por la Secretara de Estado de Educacin y Universidades (MECD)

29

Series Temporales

Moving average
Data Length NMissing Temp 95,0000 0

Moving Average Length: 4 Accuracy Measures MAPE: 3,78930 MAD: 1,54115 MSD: 3,28697 Row 1 2 3 4 5 6 7 8 9 10 11 12 Period 96 97 98 99 100 101 102 103 104 105 106 107 Forecast 36,37 36,37 36,37 36,37 36,37 36,37 36,37 36,37 36,37 36,37 36,37 36,37 Lower 32,8165 32,8165 32,8165 32,8165 32,8165 32,8165 32,8165 32,8165 32,8165 32,8165 32,8165 32,8165 Upper 39,9235 39,9235 39,9235 39,9235 39,9235 39,9235 39,9235 39,9235 39,9235 39,9235 39,9235 39,9235

La prediccin que nos ofrece el anlisis es que la temperatura en las prximas 12 horas estar entre 32,82 y 39,92; siendo el valor medio 36,37. En el siguiente grfico se muestran las observaciones (Actual), los valores estimados (Predicted), y los valores pronosticados (Forecast). Observar que el patrn de los valores estimados est ligeramente desplazado a la derecha con respecto al patrn de las observaciones (ello se debe a que el valor estimado en el instante t es el valor de la media mvil en t-1).

45

Actual Predicted Forecast Actual Predicted

Temp

40

Forecast

Moving Average Length: 4 3,78930 1,54115 3,28697

35

MAPE: MAD: MSD:

50

100

Time

Proyecto e-Math Financiado por la Secretara de Estado de Educacin y Universidades (MECD)

30

Series Temporales

BIBLIOGRAFA
[1] [2] [3] [4] [5] [5] [7]

______________________________________________

Bar, J. y Alemany, R. (2000): Estadstica II. Ed. Fundaci per a la Universitat Oberta de Catalunya. Barcelona. Pea Snchez de Rivera, D. (1987): Estadstica. Modelos y Mtodos. Volumen 2. Alianza Editorial. Madrid. ISBN: 84-206-8110-5 Johnson, R. R. (1996): Elementary statistics. Belmont, etc. : Duxbury, cop Kvanli, A. (????): Introduction to Business Statistics. South-Western. Martn-Guzmn, P. (1991): Curso bsico de estadstica econmica. AC, DL. Madrid. ISBN: 84-7288-142-3 Uriel, E. (????): Anlisis de datos. ???. Valencia. ISBN: -???? Pepi, M. (2001): Series Temporales. Edicions UPC. Barcelona. ISBN: 84-8301-526-9

ENLACES

___________________________________

http://perso.wanadoo.es/bledatobias/series.html Curso "Anlisis, Regresin y Prediccin de Series Temporales Epidemiolgicas" http://www.ii.uam.es/~asuarez/docencia/doctorado/TS2001.html Curso de doctorado de la Universidad Autnoma de Madrid: "Series Temporales"

Proyecto e-Math Financiado por la Secretara de Estado de Educacin y Universidades (MECD)

31

Estadstica no Paramtrica

ESTADSTICA NO PARAMTRICA: PRUEBA CHI-CUADRADO 2


Autores: Juan Francisco Monge Ivars (jmonje@uoc.edu), ngel A. Juan Prez (ajuanp@uoc.edu)

ESQUEMA DE CONTENIDOS

________________________

Estadstica no Paramtrica

Prueba CHI-CUADRADO

UNA VARIABLE

DOS VARIABLES

Prueba de Bondad del Ajuste

Prueba de Homogeneidad

Prueba de Independencia

Proyecto e-Math Financiado por la Secretara de Estado de Educacin y Universidades (MECD)

Estadstica no Paramtrica

OBJETIVOS

________________________

El objetivo de este e-block es el estudio de varias cuestiones en relacin con v.a. cualitativas cuantitativas cuyos datos estn recogidos en forma de tabla de frecuencias. El denominador comn a todas ellas es que su tratamiento estadstico est basado en la misma distribucin terica: la distribucin 2 (chi-cuadrado ji-cuadrado). En esencia se van a abordar tres tipos de problemas: a) Prueba de Bondad de Ajuste, consiste en determinar si los datos de cierta muestra corresponden a cierta distribucin poblacional. En este caso es necesario que los valores de la variable en la muestra y sobre la cual queremos realizar la inferencia est dividida en clases de ocurrencia, o equivalentemente, sea cual sea la variable de estudio, deberemos categorizar los datos asignado sus valores a diferentes clases o grupos. b) Prueba de Homogeneidad de varias muestras cualitativas, consiste en comprobar si varias muestras de una carcter cualitativo proceden de la misma poblacin (por ejemplo: estas tres muestras de alumnos provienen de poblaciones con igual distribucin de aprobados?. Es necesario que las dos variables medibles estn representadas mediante categoras con las cuales construiremos una tabla de contingencia. c) Prueba de Independencia, consistente en comprobar si dos caractersticas cualitativas estn relacionadas entre s (por ejemplo: el color de ojos est relacionado con el color de los cabellos?). Aunque conceptualmente difiere del anterior, operativamente proporciona los mismos resultados. Este tipo de contrastes se aplica cuando deseamos comparar una variable en dos situaciones o poblaciones diferentes, i.e., deseamos estudiar si existen diferencias en las dos poblaciones respecto a la variable de estudio.

CONOCIMIENTOS PREVIOS

________________________

Este math-block supone ciertos conocimientos bsicos de estadstica (inferencia y probabilidad), as como conocimientos bsicos del software estadstico MINITAB.

CONCEPTOS FUNDAMENTALES

________________________

Muestra: Parte de una poblacin que se toma cuando es imposible acceder a toda ella. La eleccin de la muestra se hace con la intencin de, a partir de la informacin que ella proporciona, extender sus resultados a toda la poblacin a la que representa. Muestra aleatoria: (Muestra elegida al azar) Aquella muestra tomada de la poblacin en la que todo individuo tiene la misma probabilidad de resultar elegido para ella, y esto con independencia entre individuos. Funcin de Distribucin: Funcin que hace corresponder a cada uno de los valores de una variable aleatoria la probabilidad de que tal variable aleatoria tome un valor igual o inferior al dado. Funcin de Probabilidad: Funcin que hace corresponder a cada uno de los valores de la variable aleatoria discreta su probabilidad. Contraste de hiptesis: Conjunto de reglas tendentes a decidir cul de dos hiptesis la nula la alternativa- debe aceptarse en base al resultado obtenido en una muestra. Es de dos colas cuando la alternativa es la negacin de la nula. De una cola en caso contrario.

Proyecto e-Math Financiado por la Secretara de Estado de Educacin y Universidades (MECD)

Estadstica no Paramtrica Variable aleatoria: Toda funcin que toma diversos valores numricos, dependiente de los resultados de un fenmeno aleatorio, con distintas probabilidades. Variable aleatoria discreta. Las variables aleatorias discretas son aquellas que presentan un nmero finito de valores, constituyen una sucesin numerable. Variable aleatoria continua. Las variables aleatorias continuas pueden tomar un nmero infinito de valores en un intervalo determinado. Variable categrica. Una variable categrica es una variable que clasifica cada individuo de una poblacin en una de las varias clases mutuamente excluyentes en que sta se divide. Variable numrica. Corresponde a los datos expresados en una escala continua numrica.

Proyecto e-Math Financiado por la Secretara de Estado de Educacin y Universidades (MECD)

Estadstica no Paramtrica

PRUEBA DE BONDAD DE AJUSTE


INTRODUCCIN ___________________

Estamos interesados en determinar si los datos disponibles de una muestra aleatoria simple de tamao n corresponden a cierta distribucin terica. El primer paso a realizar consiste en descomponer el recorrido de la distribucin terica en un nmero finito de subconjuntos: A1, A2, ..., Ak. Despus, clasificar las observaciones muestrales, segn el subconjunto a que pertenezcan. Y, por ltimo, comparar las frecuencias observadas de cada Ai con las probabilidades que les corresponderan con la distribucin terica a contrastar.

OBJETIVOS

___________________

Comprender la importancia de este mtodo para medir si los datos resultantes de una muestra provienen de una distribucin terica. Metodologa til para validar las hiptesis sobre la distribucin terica en la poblacin que se realiza en la estadstica paramtrica, i.e., contrastes de hiptesis, intervalos de confianza, regresin lineal, etc.

CONOCIMIENTOS PREVIOS

___________________

Se debe poseer unos conocimientos mnimos de Inferencia Estadstica, i.e., Estadstica Descriptiva, Intervalos de Confianza y Contrastes de Hiptesis. Es preciso conocer el manejo de algn paquete estadstico y recomendable algunas nociones del paquete MINITAB.

BONDAD DEL AJUSTE (I)

___________________

Supongamos que tenemos un nmero k de clases en las cuales se han ido registrado un total de n observaciones (n ser pues el tamao muestral). Denotaremos las frecuencias observadas en cada clase por O1, O2, ..., O k (Oi es el nmero de valores en la clase Ai). Se cumplir: O1 + O2 + ... + O k = n Lo que queremos es comparar las frecuencias observadas con las frecuencias esperadas (tericas), a las que denotaremos por E1, E2, ..., E k . Se cumplir: E1 + E2 + ... + E k = n

CLASE 1 CLASE 2 ... CLASE K

FRECUENCIA OBSERVADA O1 O2 ... OK

FRECUENCIA ESPERADA E1 E2 ... EK

Total

Se tratar ahora de decidir si las frecuencias observadas estn o no en concordancia con las frecuencias esperadas (es decir, si el nmero de resultados observados en cada clase corresponde Proyecto e-Math Financiado por la Secretara de Estado de Educacin y Universidades (MECD) 4

Estadstica no Paramtrica aproximadamente al nmero esperado). Para comprobarlo, haremos uso de un contraste de hiptesis usando la distribucin Chi-cuadrado: El estadstico de contraste ser 2 =

i=1

(O i E i )2
Ei

Observar que este valor ser la suma de k nmeros no negativos. El numerador de cada trmino es la diferencia entre la frecuencia observada y la frecuencia esperada. Por tanto, cuanto ms cerca estn entre s ambos valores ms pequeo ser el numerador, y viceversa. El denominador permite relativizar el tamao del numerador. Las ideas anteriores sugieren que, cuanto menor sean el valor del estadstico 2 , ms coherentes sern las observaciones obtenidas con los valores esperados. Por el contrario, valores grandes de este estadstico indicarn falta de concordancia entre las observaciones y lo esperado. En este tipo de contraste se suele rechazar la hiptesis nula (los valores observados son coherentes con los esperados) cuando el estadstico es mayor que un determinado valor crtico. Notas: (1) El valor del estadstico 2 se podr aproximar por una distribucin Chi-cuadrado cuando el tamao muestral n sea grande (n > 30), y todas las frecuencias esperadas sean iguales o mayores a 5 (en ocasiones deberemos agrupar varias categoras a fin de que se cumpla este requisito). (2) Las observaciones son obtenidas mediante muestreo aleatorio a partir de una poblacin particionada en categoras.

BONDAD DEL AJUSTE (II)

___________________

Un experimento multinomial es la generalizacin de un experimento binomial: 1. Consiste en n pruebas idnticas e independientes. 2. Para cada prueba, hay un nmero k de resultados posibles. 3. Cada uno de los k posibles resultados tiene una probabilidad de ocurrencia pi asociada (p1 + p2 + ... + pk = 1), la cual permanece constante durante el desarrollo del experimento. 4. El experimento dar lugar a un conjunto de frecuencias observadas (O1, O2, ..., Ok) para cada resultado. Obviamente, O1 + O2 + ... + Ok = n. En ocasiones estaremos interesados en comparar los resultados obtenidos al realizar un experimento multinomial con los resultados esperados (tericos). Ello nos permitir saber si nuestro modelo terico se ajusta bien o no a las observaciones. Para ello, recurriremos a la distribucin Chi-cuadrado, la cual nos permitir realizar un contraste sobre la bondad del ajuste. Concretamente, usaremos el estadstico 2 =

i=1

(O i E i )2
Ei

con k 1 grados de libertad.

Podemos calcular cada frecuencia esperada (terica) multiplicando el nmero total de pruebas n por la probabilidad de ocurrencia asociada, es decir: Ei = n * pi i = 1, ..., k

Proyecto e-Math Financiado por la Secretara de Estado de Educacin y Universidades (MECD)

Estadstica no Paramtrica

CASOS PRCTICOS__________________________________________________
EJEMPLO: En cierta mquina Expendedora de Refrescos existen 4 canales que expiden el mismo tipo de bebida. Estamos interesados en averiguar si la eleccin de cualquiera de estos canales se hace de forma aleatoria o por el contrario existe algn tipo de preferencia en la seleccin de alguno de ellos por los consumidores. La siguiente tabla muestra el nmero de bebidas vendidas en cada uno de los 4 canales durante una semana. Contrastar la hiptesis de que los canales son seleccionados al azar a un nivel de significacin del 5%. Canal 1 2 3 4 SOLUCIN: Para realizar el contraste de Bondad de Ajuste debemos calcular las frecuencias esperadas de cada suceso bajo la hiptesis de uniformidad entre los valores. Si la seleccin del canal fuera aleatoria, todos los canales tendran la misma probabilidad de seleccin y por lo tanto la frecuencia esperada de bebidas vendidas en cada uno de ellos debera ser aproximadamente la misma. Como se han vendido en total 70 refrescos, la frecuencia esperada en cada canal es Ei = n * pi = 70* = 17.5 i = 1, ..., k Nmero de bebidas consumidas mediante este expendedor 13 22 18 17

El estadstico del contraste sera:

2 =

(13 17.5) 2 (22 17.5) 2 (18 17.5) 2 (17 17.5) 2 + + + = 2.3428 17.5 17.5 17.5 17.5

Este valor debemos compararlo con el valor crtico de la distribucin libertad. Este valor es:

con (4-1)=3 grados de

0.95

(3) = 7.81

Puesto que el valor del estadstico (2.34) es menor que el valor crtico, no podemos rechazar la hiptesis de que los datos se ajustan a una distribucin uniforme. Es decir, que los canales son seleccionados aleatoriamente entre los consumidores.

EJEMPLO: Estamos interesados en comprobar la perfeccin de un dado cbico (un dado normal de 6 caras). Para esto realizamos 100 lanzamientos del dado anotando los puntos obtenidos en cada lanzamiento. A la vista de los resultados obtenidos, podemos concluir que el dado no es perfecto?. Nivel de significacin (5%)

Puntuacin en el dado 1 2

Nmero de veces que se obtiene la puntuacin. 14 22 6

Proyecto e-Math Financiado por la Secretara de Estado de Educacin y Universidades (MECD)

Estadstica no Paramtrica 3 4 5 6 18 17 20 9

SOLUCIN: Si el dado estuviera equilibrado, en el resultado de lanzarlo sucesivamente se deberan obtener aproximadamente el mismo nmero de veces cada una de las caras del dado. En este ejercicio debemos contrastar si la distribucin del dado es una distribucin uniforme, con probabilidad de obtener cada una de las caras igual a 1/6. Podemos calcular de una forma muy sencilla el nmero esperado de resultados obtenidos en cada clase multiplicando la probabilidad de obtener cada una de las caras (p = 1/6) por el nmero de lanzamientos (n = 100).

Podemos observa que los valores observados y esperados no parecen coincidir, por lo tanto, a priori parece haber evidencias de irregularidades en el dado. Calculemos el estadstico Calculator de MINITAB.

con ayuda del

Proyecto e-Math Financiado por la Secretara de Estado de Educacin y Universidades (MECD)

Estadstica no Paramtrica Calc > Calculator

Proyecto e-Math Financiado por la Secretara de Estado de Educacin y Universidades (MECD)

Estadstica no Paramtrica Calc > Column Statistics

Con el resultado:

Column Sum Sum of CHI-CUADRADO = 6,4675


Calculemos finalmente el p-valor asociado a este estadstico. En este caso, como trabajamos con un contraste unilateral, p-valor= P( >6,4675) = 1- P( < 6,4675) donde Chi-cuadrado con k-1=5 grados de libertad. Por tanto:
2 2

2 sigue

una distribucin

Proyecto e-Math Financiado por la Secretara de Estado de Educacin y Universidades (MECD)

Estadstica no Paramtrica

Calc > Probability Distributions > Chi-square

Cumulative Distribution Function


Chi-Square with 5 DF x 6,4675 P( X <= x) 0,7367

As pues, p-valor = 1 0,7367 = 0, 2633 . Por tanto, podemos considerar que el p-valor no es significativo. Concluiremos, a pesar de las evidencias que haban en un principio, que no hay evidencias para rechazar que el dato fuera correcto, i.e., no podemos rechazar la distribucin uniforme para los posibles resultados del dado.

Proyecto e-Math Financiado por la Secretara de Estado de Educacin y Universidades (MECD)

10

Estadstica no Paramtrica

PRUEBA DE HOMOGENEIDAD
INTRODUCCIN ___________________

Estamos interesados en determinar si los datos correspondientes a dos o ms muestras aleatorias provienen de la misma poblacin. Nuevamente el conjunto de posibles valores de las observaciones se divide en k conjuntos disjuntos: A1, A2, ..., Ak.; clasificando en ellos las observaciones de cada muestra. Si nij representa el nmero de observaciones de la muestra i que pertenecen al conjunto Aj , los datos pueden tabularse en lo que se denomina una tabla de contingencia. Muestra 1 2 ... A1 A2 ... Ak. Total

n11 n21 n m1 n.1

n12 n 22 nm 2 n.2

n1k n2 k n mk n.k

n1.
n 2.

m
Total

n m. n

La hiptesis de que las m poblaciones son homogneas, se traduce en que cada conjunto Aj debe tener una probabilidad terica pj, desconocida, pero que no varia de la poblacin i a la poblacin i. Esto debe verificarse para todas las categoras, i.e., las categoras deben ser homogneas en las diversas muestras.

OBJETIVOS

___________________

Comprender la importancia de este mtodo para medir si dos muestras aleatorias provienen de la misma poblacin. Notar que en la estadstica no paramtrica, como es este contraste, no se realizan contrastes sobre parmetros de la poblacin (contraste de igualdad de medias),i.e., se realizan contrastes sobre la poblacin origen. Metodologa muy til para comparar diversas muestras y extraer conclusiones sobre la igualdad en las distribuciones poblacionales de cada una de ellas.

CONOCIMIENTOS PREVIOS

___________________

Se debe poseer unos conocimientos mnimos de Inferencia Estadstica, i.e., Estadstica Descriptiva, Intervalos de Confianza y Contrastes de Hiptesis. Es preciso conocer el manejo de algn paquete estadstico y recomendable algunas nociones del paquete MINITAB.

Proyecto e-Math Financiado por la Secretara de Estado de Educacin y Universidades (MECD)

11

Estadstica no Paramtrica

CONCEPTOS FUNDAMENTALES

___________________

Del mismo modo que la Prueba de Bondad de Ajuste, en este caso debemos comparar las frecuencias observadas en cada una de las muestras y para cada categora con las frecuencias bajo el supuesto de homogeneidad en las poblaciones. En este caso las frecuencias observadas corresponde al nmero de individuos de la muestra i en la clase j, i.e., nij. El estadstico de contraste ser

=
i =1

j =1

(n

ij

eij ) eij

Donde eij es la frecuencia esperada bajo el supuesto de homogeneidad, que puede representarse como ni pj , es decir, el nmero de individuos en la muestra i por la probabilidad de que ocurra la caracterstica j en la poblacin. Para el clculo de las probabilidades de pertenecer un individuo a cada una de las categoras podemos utilizar:

pi = n. j / n
Por lo tanto : eij = ni . n. j / n Observar que este valor ser la suma de n*k nmeros no negativos. El numerador de cada trmino es la diferencia entre la frecuencia observada y la frecuencia esperada. Por tanto, cuanto ms cerca estn entre s ambos valores ms pequeo ser el numerador, y viceversa. El denominador permite relativizar el tamao del numerador. Las ideas anteriores sugieren que, cuanto menor sean el valor del estadstico 2 , ms coherentes sern las observaciones obtenidas con los valores esperados. Por el contrario, valores grandes de este estadstico indicarn falta de concordancia entre las observaciones y lo esperado. En este tipo de contraste se suele rechazar la hiptesis nula (los valores observados son coherentes con los esperados) cuando el estadstico es mayor que un determinado valor crtico. Notas: (3) El valor del estadstico 2 se podr aproximar por una distribucin Chi-cuadrado cuando el tamao muestral n sea grande (n > 30), y todas las frecuencias esperadas sean iguales o mayores a 5 (en ocasiones deberemos agrupar varias categoras a fin de que se cumpla este requisito). (4) Las observaciones son obtenidas mediante muestreo aleatorio en cada muestra a partir de una poblacin particionada en categoras.

Concretamente, usaremos el estadstico 2 =

i=1

(O i E i )2
Ei

con (n-1)(k 1) grados de libertad.

Proyecto e-Math Financiado por la Secretara de Estado de Educacin y Universidades (MECD)

12

Estadstica no Paramtrica

CASOS PRCTICOS
EJEMPLO :

___________________

Estamos interesados en estudiar la fiabilidad de cierto componente informtico con relacin al distribuidor que nos lo suministra. Para realizar esto, tomamos una muestra de 100 componentes de cada uno de los 3 distribuidores que nos sirven el producto comprobando el nmero de defectuosos en cada lote. La siguiente tabla muestra el nmero de defectuosos en para cada uno de los distribuidores. Componentes Defectuosos 16 24 9 49 SOLUCIN: Debemos realizar un contraste de homogeneidad para concluir si entre los distribuidores existen diferencias de fiabilidad referente al mismo componente. Componentes Defectuosos 16 (16.33) 24 (16.33) 9 (16.33) 49 Componentes correctos 94 (83.66) 76 (83.66) 81 (83.66) 251 Componentes correctos 94 76 81 251

Distribuidor 1 Distribuidor 2 Distribuidor 3

100 100 100 300

Distribuidor 1 Distribuidor 2 Distribuidor 3

100 100 100 300

Las frecuencias esperadas bajo homogeneidad son las representadas entre parntesis. El estadstico del contraste ser:

(16 16.33) 2 (24 16.33) 2 (9 16.33) 2 = + + + 16.33 16.33 16.33 (94 83.66) 2 (76 83.66) 2 (81 83.66) 2 + + + = 8.9632 83.66 83.66 83.66
2

Este valor del estadstico Ji-cuadrado es mayor que el valor para el nivel de significacin del 5%, por lo tanto debemos concluir que no existe homogeneidad y por lo tanto que hay diferencias entre los tres distribuidores.

2 0.05 (2) = 5.99

Proyecto e-Math Financiado por la Secretara de Estado de Educacin y Universidades (MECD)

13

Estadstica no Paramtrica EJEMPLO: Estamos interesados en estudiar la relacin entre cierta enfermedad y la adiccin al tabaco. Para realizar esto seleccionamos una muestra de 150 individuos, 100 individuos no fumadores y 50 fumadores. La siguiente tabla muestra las frecuencias de enfermedad en cada grupo (Completar la tabla). Padecen la Enfermedad 12 25 37 No Padecen la enfermedad 88 25 113

Fumadores No Fumadores

100 50 150

Realizar un contraste de homogeneidad y obtener las conclusiones sobre la relacin entre las variables. SOLUCIN: Para considerar este contraste como un contraste de Homogeneidad suponemos que las personas fumadoras y las personas no fumadoras constituyen dos poblaciones diferenciadas. Un estudio similar consistira en considerar a los fumadores y no fumadores como una caracterstica de una poblacin y por lo tanto este ejemplo podra plantearse como un contraste de independencia, ver PRUEBA DE INDEPENDENCIA. En este ejemplo queremos contrastar la hiptesis de que las proporciones de enfermos en ambas poblaciones ( Fumadores y No Fumadores) es la misma. La representacin de la tabla de contingencia en Minitab debe ser la misma que la anterior:

Proyecto e-Math Financiado por la Secretara de Estado de Educacin y Universidades (MECD)

14

Estadstica no Paramtrica Minitab realiza los clculos por nosotros: Stat > Tables > Chi-square Test:

Expected counts are printed below observed counts 1 2 Total Chi-Sq = Padecen No Padece 12 88 24,67 75,33 25 12,33 37 25 37,67 113 Total 100 50 150

6,505 + 2,130 + 13,009 + 4,260 = 25,903 DF = 1, P-Value = 0,000

En los resultados aparecen las frecuencias esperadas bajo el supuesto de homogeneidad. Con un p-valor de 0,000 hay suficiente evidencia en contra de que la hiptesis nula sea cierta. Por tanto, la rechazaramos, i.e.; parece evidente que los fumadores tienen una mayor propensin a padecer la enfermedad.

Proyecto e-Math Financiado por la Secretara de Estado de Educacin y Universidades (MECD)

15

Estadstica no Paramtrica

PRUEBA DE INDEPENDENCIA
INTRODUCCIN ___________________

Estamos interesados en determinar si dos cualidades o variables referidas a individuos de una poblacin estn relacionadas. Se diferencia de los contrastes anteriores en que en este caso estamos interesados en ver la relacin existente entre dos variables de una misma poblacin, no queremos contrastar la distribucin terica de una variable (prueba de bondad de ajuste) ni en comparar la distribucin de una nica variable en dos poblaciones (prueba de homogeneidad).

OBJETIVOS

___________________

Comprender la importancia de este mtodo para medir relaciones entre variables si realizar supuesto adicionales sobre las distribuciones de estas. Alternativa muy potente para medir relaciones entre variables categricas, donde no es posible aplicar los mtodos clsicos de Inferencia Estadstica como la Regresin Lineal. Tambin es aplicable a variables cuantitativas si no se verifican los supuestos necesarios a satisfacer por otras tcnicas estadsticas. Identificar las diferencias conceptuales entre el test de homogeneidad y el Test de Independencia.

CONOCIMIENTOS PREVIOS

___________________

Se debe poseer unos conocimientos mnimos de Inferencia Estadstica, i.e., Estadstica Descriptiva, Intervalos de Confianza y Contrastes de Hiptesis. Es preciso conocer el manejo de algn paquete estadstico y recomendable algunas nociones del paquete MINITAB.

PRUEBA DE INDEPENDENCIA

___________________

Supongamos que de n elementos de una poblacin se han observado dos caractersticas X e Y, obtenindose una muestra aleatoria simple bidimensional (X1,Y1),(X2,Y2),...,(Xn,Yn). Sobre la base de dichas observaciones se desea contrastar si las caractersticas poblacionales X e Y son independientes o no. Para ello se dividir el conjunto de posibles valores de X en k conjuntos disjuntos A1,A2,...,Ak; mientras que el conjunto de posibles valores Y ser descompuesto en r conjuntos disjuntos: B1,B2,...,Br. Al clasificar os elementos de la muestra, aparecer un cierto nmero de ellos, nij , en cada una de las k r clases as constituidas, dando lugar a una tabla de contingencia de la forma:

A1 B1 B2 ... Br Total n11 n 21 n r1 n.1

A2 n12 n 22 nr 2 n.2

...

Ak. n1k n2 k n rk n.k

Total n1.
n 2.

nr . n

Proyecto e-Math Financiado por la Secretara de Estado de Educacin y Universidades (MECD)

16

Estadstica no Paramtrica

Al

igual
r

que

2 =
i =1

j =1

(n

para
ij

eij ) eij

el

Test

de

homogeneidad,

el

estadstico

del

contraste

ser

con (k-1)(r-1) grados de libertad.

Donde: eij = ni . n. j / n

EJEMPLO: Para estudiar la dependencia entre la prctica de algn deporte y la depresin, se seleccion una muestra aleatoria simple de 100 jvenes, con los siguientes resultados:

Sin depresin Deportista No deportista 38 31

Con depresin 9 22

Determinar si existe independencia entre la actividad del sujeto y su estado de nimo. Nivel de significacin (5%) SOLUCIN: Debemos primero calcular las frecuencias esperadas bajo el supuesto de independencia. La tabla de frecuencias esperadas sera: Sin Con depresin depresin Deportista No deportista 32.43 36.57 69 Calculamos ahora el estadstico del contraste: 14.57 16.43 31 47 53 100

2 =

(38 32.43) 2 (9 14.57) 2 (31 36.57) 2 (22 16.43) 2 + + + = 5.82 32.43 14.57 36.57 16.43

Este valor debemos compararlo con el percentil de la distribucin libertad.

con (2-1)(2-1)=1 grado de

0.95

(1) = 3.84 .

Por lo tanto como el valor del estadstico es superior al valor crtico, concluimos que debemos rechazar la hiptesis de independencia y por lo tanto asumir que existe relacin entre la depresin e los hbitos deportistas del individuo.

Proyecto e-Math Financiado por la Secretara de Estado de Educacin y Universidades (MECD)

17

Estadstica no Paramtrica EJEMPLO: Un estudio que se realiz con 81 personas referente a la relacin entre la cantidad de violencia vista en la televisin y la edad del televidente produjo los siguientes resultados.

16-34 Poca violencia Mucha Violencia 8 18

34-55 12 15

55 ms 21 7

Indican los datos que ver violencia en la televisin depende de la edad del televidente, a un nivel de significacin del 5%? SOLUCIN: Debemos realizar un test de independencia para ver si existe relacin entre la violencia vista en televisin con el grupo de edad al que pertenece el individuo. Dado que el test de Independencia, no difiere del test de Homogeneidad a nivel operacional, el desarrollo es anlogo al ejercicio de Minitab de la seccin anterior. Introducimos los valores de la tabla de contingencia del siguiente modo:

Proyecto e-Math Financiado por la Secretara de Estado de Educacin y Universidades (MECD)

18

Estadstica no Paramtrica Stat > Tables > Chi-Square Test:

Chi-Square Test
Expected counts are printed below observed counts 1 2 Total Chi-Sq = 16-34 8 13,16 18 12,84 26 34-55 55 ms 12 21 13,67 14,17 15 13,33 27 7 13,83 28 Total 41 40 81

2,024 + 0,203 + 2,074 + 0,208 + DF = 2, P-Value = 0,004

3,289 + 3,371 = 11,169

El valor del estadstico del contraste es 11,169. El p-valor asociado a este valor es 0,004. Por lo tanto a un nivel de significacin del 0.005 deberemos rechazar la hiptesis nula de independencia, y por lo tanto concluir que existe diferencias entre el tipo de televisin consumida y la edad del televidente.

Proyecto e-Math Financiado por la Secretara de Estado de Educacin y Universidades (MECD)

19

Estadstica no Paramtrica

BIBLIOGRAFA
[1] [2] [3] [4] [5]

______________________________________________

Bar, J. y Alemany, R. (2000): Estadstica II. Ed. Fundaci per a la Universitat Oberta de Catalunya. Barcelona. Pea Snchez de Rivera, D. (1987): Estadstica. Modelos y Mtodos. Volumen 2. Alianza Editorial. Madrid. ISBN: 84-206-8110-5 Johnson, R. R. (1996): Elementary statistics. Belmont, etc. : Duxbury, cop R. Vlez y A. Garca: Matemticas. UNED. Clculo de Probabilidades y Estadstica Matemtica. Ciencias

A. Martn Andrs y J. de D. Luna del Castillo: 50 10 horas de Bioestadstica Ediciones Norma.

Proyecto e-Math Financiado por la Secretara de Estado de Educacin y Universidades (MECD)

20

Anlisis de la varianza (ANOVA)

ANLISIS DE LA VARIANZA (ANOVA)


Autores: Manuel Terrdez (mterradez@uoc.edu), ngel A. Juan (ajuanp@uoc.edu)

ESQUEMA DE CONTENIDOS

________________________

Anlisis de la varianza (ANOVA)


ANOVA simple (One-way)

ANOVA doble (Two-ways)

Modelo sin interaccin Modelo aditivo (sin interaccin)

INTRODUCCIN

___________________

Usaremos el anlisis de la varianza (ANOVA) para contrastar la hiptesis nula de que las medias de distintas poblaciones coinciden. Por ejemplo, en el caso de 5 poblaciones, el contraste a realizar sera: HO : 1 = 2 = ... = 5 vs. HA : no todas las medias poblacionales son iguales

En math-block EST-I16 se estudia cmo se utiliza la distribucin t-Student (o la Normal) para contrastar la hiptesis nula de que dos medias poblacionales coinciden. Usando esta tcnica, podramos realizar los siguientes 10 tests para contrastar la hiptesis nula anterior: H01: 1 = 2 H02: 2 = 3 H03: 3 = 4 H04: 4 = 5 H05: 1 = 3 H06: 2 = 4 H07: 3 = 5 H08: 1 = 4 H09: 2 = 5 H010: 1 = 5

En este caso, rechazar cualquiera de las 10 hiptesis nulas implicara rechazar la hiptesis nula inicial de que las cinco medias coinciden. Por el contrario, si no rechazsemos ninguna de las 10 hiptesis, tampoco rechazaramos la hiptesis inicial. El problema de este mtodo es doble: (1) por un lado, se requiere de un mayor esfuerzo computacional, y (2) por otro, al hacer un mayor nmero de contrastes aumenta el error de tipo I (la probabilidad de rechazar la hiptesis nula siendo sta cierta). El uso de las tcnicas ANOVA nos permiten eludir ambos problemas.

Proyecto e-Math Financiado por la Secretara de Estado de Educacin y Universidades (MECD)

Anlisis de la varianza (ANOVA)

OBJETIVOS

________________________

Entender qu es y por qu es importante un contraste de hiptesis. Saber distinguir en qu situaciones es til realizar un anlisis de la varianza. Conocer pautas para elegir el modelo ms adecuado para nuestro problema. Saber aplicar el ANOVA, con ayuda de Minitab. Interpretar los distintos valores que aparecen en una tabla ANOVA. Dar respuesta al problema del contraste de hiptesis planteado.

CONOCIMIENTOS PREVIOS

___________________________________

Aparte de estar iniciado en el uso del paquete estadstico Minitab, resulta muy conveniente haber ledo con profundidad los siguientes math-blocks: Estadstica descriptiva. Intervalos de confianza y contraste de hiptesis para 1 poblacin. Intervalos de confianza y contraste de hiptesis sobre 2 poblaciones. Muestreo en poblaciones finitas.

CONCEPTOS FUNDAMENTALES

______________________________

Anlisis simple de la varianza (One-Way ANOVA)


El objetivo principal de muchos experimentos consiste en determinar el efecto que sobre alguna variable dependiente Y tienen distintos niveles de algn factor X (variable independiente y discreta). El factor puede ser la temperatura, la empresa que ha producido el bien, el da de la semana, etc. Esencialmente, el diseo para el anlisis simple de la varianza consistir en obtener muestras aleatorias e independientes del valor de Y asociado a cada uno de los distintos niveles del factor X1, X2,..., Xn . Entonces podremos determinar si los diferentes niveles del factor tienen un efecto significativo sobre el valor de la variable dependiente. El funcionamiento de la tcnica ANOVA simple es, a grandes rasgos, el siguiente: a fin de comparar las medias de Y asociadas a los distintos niveles del factor (X1, X2,..., Xn), compararemos una medida de la variacin entre diferentes niveles (MS-factor) con una medida de la variacin dentro de cada nivel (MS-error). Si el MS-factor es significativamente mayor que el MS-error, concluiremos que las medias asociadas a diferentes niveles del factor son distintas. Esto significa que el factor influye significativamente sobre la variable dependiente Y. Si, por el contrario, el MS-factor no es significativamente mayor que el MS-error, no rechazaremos la hiptesis nula de que todas las medias, asociadas a diferentes niveles del factor, coinciden.

Proyecto e-Math Financiado por la Secretara de Estado de Educacin y Universidades (MECD)

Anlisis de la varianza (ANOVA) Supuestos De forma similar a lo que ocurre con la regresin lineal, aqu tambin hay un modelo para los datos. El modelo asociado al i-simo nivel del factor X ser: Y = i + donde: Los errores estn normalmente distribuidos con media 0 Los errores son independientes Los errores tienen varianza constante 2

Para verificar estos supuestos suele ser til realizar un grfico que muestre la distribucin de las observaciones por niveles: si en el grfico se aprecian diferencias entre niveles por lo que a la variacin de las observaciones se refiere, es muy probable que tengamos un problema con el supuesto de varianza constante; si aparecen outliers, puede que no se cumpla el supuesto de normalidad; por otra parte, si el tiempo fuese un factor importante a la hora de registrar observaciones, podra ocurrir que observaciones consecutivas estuviesen correlacionadas, con lo que no se cumplira el supuesto de independencia.

Anlisis doble de la varianza (Two-Way ANOVA)


Usaremos el anlisis doble de la varianza para estudiar los posibles efectos causados por diferentes niveles de dos factores sobre la variable dependiente. As, por ejemplo, en agricultura estaremos interesados en estudiar qu efectos tendrn, sobre el crecimiento de las patatas, variaciones en los niveles de potasio y nitrgeno de la tierra; en medicina, estaremos interesados en estudiar los efectos, sobre el dolor de cabeza, del medicamento y de la dosis empleados; en educacin, buscaremos conocer qu efectos, sobre el tiempo necesario para adquirir unos conocimientos, tendrn los factores nivel de estudios y sexo; en una campaa de marketing, estaremos interesados en conocer los efectos del presupuesto y del medio usado (televisin, revistas, ...) sobre las ventas; etc. Usaremos ANOVA doble para contrastar, para cada uno de los dos factores, la hiptesis nula de que el resultado de la variable dependiente (crecimiento de patatas, intensidad del dolor de cabeza, tiempo en adquirir conocimientos, ventas, etc.) no depende del factor. Modelo aditivo (sin interaccin) El modelo aditivo supone que la variacin total en los datos puede ser expresada como suma de variaciones procedentes de fuentes diversas: (Variacin total en los datos) = (Variacin debida al primer factor) + (Variacin debida al segundo factor) + (Variacin debida al error aleatorio) En el modelo anterior, si la variacin debida al primer factor fuese mucho mayor que la variacin debida al error aleatorio, dispondramos de evidencia estadstica contra la hiptesis nula de que los distintos niveles del primer factor tienen el mismo efecto sobre la variable dependiente; de forma similar, si la variacin debida al segundo factor fuese mucho mayor que la variacin debida al error aleatorio, deberamos rechazar la hiptesis nula de que la variable dependiente no depende de los diversos niveles del segundo factor.

Proyecto e-Math Financiado por la Secretara de Estado de Educacin y Universidades (MECD)

Anlisis de la varianza (ANOVA) Modelo con interaccin Un aspecto al que debemos prestar especial atencin es el nivel de interaccin entre ambos factores; es decir, el efecto que cada uno de los factores tiene sobre el otro. As, por ejemplo, en la campaa de marketing citada anteriormente, el incremento en las ventas debido a un aumento del presupuesto podra ser el mismo independientemente del medio usado, o bien podra variar dependiendo del medio usado. En este ltimo caso deberamos estudiar tambin la interaccin entre los factores presupuesto y medio. Para ello usaremos los llamados modelos con interaccin. Este modelo supone que la variacin total de los datos puede descomponerse de la siguiente forma: (Variacin total en los datos) = (Variacin debida al primer factor) + (Variacin debida al segundo factor) + (Variacin debida a la interaccin entre factores) + (Variacin debida al error aleatorio)

CASOS PRCTICOS CON SOFTWARE___________________________________


Inflamabilidad de pijamas
La inflamabilidad de los pijamas para nios ha sido un tema de preocupacin constante durante las ltimas dcadas. Hoy en da, hay toda una serie de controles de seguridad que garantizan que las telas con que se fabrican los pijamas no sean fcilmente inflamables. Tras seleccionar un determinado fabricante de pijamas y 5 laboratorios diferentes, hemos enviado a cada laboratorio 11 prendas de dicho fabricante. La idea es que en cada laboratorio se les aplique un test de inflamabilidad. Los resultados (expresados en un determinado ndice de inflamabilidad) se muestran a continuacin:

Proyecto e-Math Financiado por la Secretara de Estado de Educacin y Universidades (MECD)

Anlisis de la varianza (ANOVA) Nuestro objetivo ser determinar si las medias obtenidas por cada laboratorio son aproximadamente iguales (es decir, pretendemos saber si hay o no diferencias significativas entre los laboratorios a la hora de determinar la capacidad de inflamacin de una determinada prenda). Stat Anova One-way (Unstacked)...

Le pediremos al programa que nos aplique la tcnica ANOVA simple y, adems, que nos represente un diagrama de puntos y un boxplot de los datos.

En las dos siguientes grficas, podemos observar la variacin dentro de cada grupo (laboratorio) y la variacin entre diferentes grupos (laboratorios). La pregunta que habra que responder es: resulta la variacin entre diferentes grupos significativamente mayor que la variacin existente dentro de los grupos? Notar que el laboratorio 4 parece tener ndices mayoritariamente bajos, mientras que los grupos 2 y 5 presentan ndices bastante mayores.

Dotplots of LAB 1 - LAB 5


(group means are indicated by lines)

4,0

3,5

3,0

2,5 LAB 1 LAB 2 LAB 3 LAB 4 LAB 5

Proyecto e-Math Financiado por la Secretara de Estado de Educacin y Universidades (MECD)

Anlisis de la varianza (ANOVA) Boxplots of LAB 1 - LAB 5


(means are indicated by solid circles) 4,5

3,5

2,5 LAB 1 LAB 2 LAB 3 LAB 4 LAB 5

En el cuadro siguiente se presenta el output numrico del programa. La primera parte del mismo es la llamada tabla ANOVA. Entre otros datos importantes (como los MS-factor y MSerror, el valor del estadstico de contraste F = (MS-factor)/(MS-error), los grados de libertad, etc.), sta nos proporciona el p-valor del contraste anterior. En este caso, el p-valor = 0,003 y, por tanto, rechazaremos la hiptesis nula de que todas las medias son iguales. A partir del grfico que proporciona los intervalos de confianza (a un nivel del 95%) para la media, parece obvio que, al menos, las medias procedentes de los laboratorios 4 (3,000) y 5 (3,6455) son significativamente diferentes:

One-way Analysis of Variance


Analysis of Variance Source DF SS Factor 4 2,987 Error 50 8,233 Total 54 11,219 Level LAB 1 LAB 2 LAB 3 LAB 4 LAB 5 N 11 11 11 11 11 Mean 3,3364 3,6000 3,3000 3,0000 3,6455 0,4058 MS 0,747 0,165 F 4,53 P 0,003

StDev 0,4523 0,4604 0,3715 0,2864 0,4321

Pooled StDev =

Individual 95% CIs For Mean Based on Pooled StDev --+---------+---------+---------+---(------*------) (------*------) (------*------) (------*------) (------*------) --+---------+---------+---------+---2,80 3,15 3,50 3,85

Proyecto e-Math Financiado por la Secretara de Estado de Educacin y Universidades (MECD)

Anlisis de la varianza (ANOVA)

Conduccin de vehculos
A continuacin se muestran los datos obtenidos en un experimento en el que se comprobaron las habilidades de dos grupos de conductores, los inexpertos y los expertos. Doce conductores de cada grupo tomaron parte en el experimento. Se usaron tres tipos de carreteras: autopista, nacional y comarcal. Mediante un proceso aleatorio, se asignaron a cada tipo de carretera cuatro conductores expertos y cuatro inexpertos. Cada conductor estuvo al volante durante 2 kilmetros, en los cuales se registraron los siguientes errores de conduccin cometidos: Row CONDUCTOR 1 Inexperto 2 Inexperto 3 Inexperto 4 Inexperto 5 Experto 6 Experto 7 Experto 8 Experto 9 Inexperto 10 Inexperto 11 Inexperto 12 Inexperto 13 Experto 14 Experto 15 Experto 16 Experto 17 Inexperto 18 Inexperto 19 Inexperto 20 Inexperto 21 Experto 22 Experto 23 Experto 24 Experto TIPO CARRETERA Autopista Autopista Autopista Autopista Autopista Autopista Autopista Autopista Nacional Nacional Nacional Nacional Nacional Nacional Nacional Nacional Comarcal Comarcal Comarcal Comarcal Comarcal Comarcal Comarcal Comarcal ERRORES 4 18 8 10 6 4 13 7 23 15 21 13 2 6 8 12 16 27 23 14 20 15 8 17

Plantearemos un ANOVA doble para contrastar, para cada uno de los dos factores, la hiptesis nula de que el nmero de errores de conduccin cometidos no depende del factor; utilizaremos el modelo aditivo. Stat Anova Balanced Anova...

Proyecto e-Math Financiado por la Secretara de Estado de Educacin y Universidades (MECD)

Anlisis de la varianza (ANOVA) Analysis of Variance (Balanced Designs)


Factor CONDUCTO TIPO CAR Type Levels Values fixed 2 Experto Inexperto fixed 3 Autopista Comarcal

Nacional

Analysis of Variance for ERRORES Source CONDUCTO TIPO CAR Error Total DF 1 2 20 23 SS 228,17 308,33 533,33 1069,83 MS 228,17 154,17 26,67 F 8,56 5,78 P 0,008 0,010

En el output anterior, cabe destacar los p-valores asociados a cada factor. En este caso, ambos son bastante pequeos (y, por tanto, significativos), por lo que deberemos rechazar las hiptesis nulas asociadas a cada factor; es decir, los datos demuestran que tanto el tipo de carretera como la experiencia del conductor son factores que influyen decisivamente en el nmero de errores de conduccin cometidos.

Calidad en pastelera
Se ha llevado a cabo un experimento para determinar los efectos de dos ingredientes, harina y azcar (factores), sobre la calidad final de un pastel. Hay cuatro niveles para la cantidad empleada de harina (0%, 10%, 20% y 30%), y dos niveles para la cantidad empleada de azcar (1 = con azcar, y 0 = sin azcar). Para cada una de las 8 posibles combinaciones, se elaboraron 3 pasteles. Cada uno de los 24 pasteles fue calificado por el mismo experto con una nota entre 3 (flojo) y 6 (excelente). A continuacin se muestran los resultados: Row 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 HARINA 0 0 0 0 0 0 10 10 10 10 10 10 20 20 20 20 20 20 30 30 30 30 30 30 AZCAR 0 0 0 1 1 1 0 0 0 1 1 1 0 0 0 1 1 1 0 0 0 1 1 1 CALIF. 4,4 4,5 4,3 3,3 3,2 3,1 4,6 4,5 4,8 3,8 3,7 3,6 4,5 4,8 4,8 5,0 5,3 4,8 4,6 4,7 5,1 5,4 5,6 5,3

Proyecto e-Math Financiado por la Secretara de Estado de Educacin y Universidades (MECD)

Anlisis de la varianza (ANOVA)

En primer lugar, mostraremos en forma tabular las medias asociadas a cada una de las 8 combinaciones posibles. Ello nos permitir saber si hay o no interaccin entre ambos factores:

Stat

Tables

Cross Tabulation...

Tabulated Statistics
Rows: HARINA 0 0 10 20 30 All 4,4000 4,6333 4,7000 4,8000 4,6333 Columns: AZCAR 1 3,2000 3,7000 5,0333 5,4333 4,3417 All 3,8000 4,1667 4,8667 5,1167 4,4875

Cell Contents -CALIF.:Mean

Analicemos el efecto promedio de cada factor: La calidad de los pasteles parece incrementarse conforme lo hace el nivel de harina empleado: los seis pasteles elaborados para el nivel 0% tienen una calidad media de 3,8; los seis elaborados para el nivel 10% muestran una calidad media de 4,2; los elaborados para el nivel 20% tienen una calidad media de 4,9; y los elaborados para el nivel 30% muestran una calidad media de 5,1. Por lo que se refiere al azcar, no parece haber mucha diferencia entre los valores promedio obtenidos: la calidad media para los 12 pasteles elaborados sin azcar (4,6) es slo ligeramente superior a la cantidad media de los otros 12 (4,3).

Proyecto e-Math Financiado por la Secretara de Estado de Educacin y Universidades (MECD)

Anlisis de la varianza (ANOVA) En el siguiente grfico se muestra la evolucin de la calidad media en funcin de la cantidad de harina empleada (descompuesto por niveles del factor azcar. Graph Plot...

5,5 5,0

0 1

Calidad Media

4,5 4,0 3,5 3,0 0 10 20 30

Harina_

Segn se aprecia, el uso del azcar incrementa la calidad media de los pasteles cuando estamos en los niveles superiores de harina (20% y 30%), mientras que ocurre todo lo contrario para niveles bajos de harina (0% y 10%). Por tanto, que el azcar mejore o no la calidad del pastel depender del nivel de harina que ste contenga. Esto significa que ambos factores interactan. En general, si los factores no interactuasen las lneas del grfico anterior seran (aproximadamente) paralelas. Aplicaremos ahora la tcnica ANOVA usando un modelo con interaccin. Stat ANOVA Balanced Anova

Proyecto e-Math Financiado por la Secretara de Estado de Educacin y Universidades (MECD)

10

Anlisis de la varianza (ANOVA)

Analysis of Variance (Balanced Designs)


Factor HARINA AZCAR Type Levels Values fixed 4 0 fixed 2 0 10 1 20 30

Analysis of Variance for CALIF. Source HARINA AZCAR HARINA*AZCAR Error Total DF 3 1 3 16 23 SS 6,6912 0,5104 3,7246 0,4800 11,4063 MS 2,2304 0,5104 1,2415 0,0300 F 74,35 17,01 41,38 P 0,000 0,001 0,000

Analicemos los resultados de los tres contrastes (H01: el factor harina no influye sobre la calidad del pastel, H02: el factor azcar no influye sobre la calidad del pastel, H03: no hay interaccin entre ambos factores): Lo primero es comprobar si existe interaccin, puesto que en tal caso deberemos interpretar con cautela los resultados de los otros tests. En este caso p-valor = 0,000. Por tanto, hay fuertes evidencias de la existencia de interaccin entre ambos factores. Obtenemos tambin p-valores significativos en los otros dos contrastes; es decir, tanto el nivel de harina como el nivel de azcar son determinantes para la calidad esperada de un pastel. Notar que la calidad media de un pastel sin azcar (4,6333) es mayor que la calidad media de un pastel con azcar (4,3417). Esto es consistente con el resultado de nuestro test. Sin embargo, segn hemos observado anteriormente, el uso del azcar tiende a aumentar la calidad media para niveles altos de harina, y viceversa. En general, siempre que haya interaccin entre los factores convendr hacer un anlisis detallado que vaya ms all del pvalor obtenido en el contraste.

Proyecto e-Math Financiado por la Secretara de Estado de Educacin y Universidades (MECD)

11

Anlisis de la varianza (ANOVA)

Educacin universitaria en la UE
En la siguiente tabla se muestran los ratios (%) de educacin universitaria por pases de la Unin Europea (no se dispone de los datos de Luxemburgo), distribuidos por sexo y grupos de edad. (Fuente: Informe "Retrato de los europeos", Eurostat, Ao 2002).
18-21 aos H BLGICA DINAMARCA ALEMANIA GRECIA ESPAA FRANCIA IRLANDA ITALIA HOLANDA AUSTRIA PORTUGAL FINLANDIA SUECIA REINO UNIDO 36 7 7 57 28 30 30 12 24 11 22 19 13 26 M 47 10 15 63 40 40 38 17 30 18 30 26 19 31 H 21 23 20 9 26 22 12 19 25 20 17 37 25 11 22-24 aos M 20 33 20 8 30 25 12 27 22 20 23 42 30 12 H 6 17 15 3 10 5 4 12 8 14 8 21 14 6 25-28 aos M 5 21 11 3 9 7 5 14 6 12 10 22 16 7

En primer lugar, vamos a determinar si existen diferencias significativas de educacin universitaria entre los dos sexos (sin tener en cuenta la edad), para lo cual utilizaremos un modelo ANOVA simple. Para ello, introducimos los datos en Minitab, en distintas columnas (ver archivo universitarios.mtw) Stat Anova One-way ...

Tomamos como variable respuesta % y como factor SEXO, y solicitamos los grficos de cajas (tambin valen los diagramas de puntos). El output del Minitab es el siguiente: One-way Analysis of Variance
Analysis of Variance for % Source DF SS SEXO 1 247 Error 82 11711 Total 83 11958 MS 247 143 F 1,73 P 0,192

Individual 95% CIs For Mean Level H M N 42 42 Mean 17,90 21,33 11,95 StDev 10,68 13,10 Based on Pooled StDev ---+---------+---------+---------+--(------------*-----------) (-----------*-----------) ---+---------+---------+---------+--15,0 18,0 21,0 24,0

Pooled StDev =

Mientras que el grfico resultantes es:

Proyecto e-Math Financiado por la Secretara de Estado de Educacin y Universidades (MECD)

12

Anlisis de la varianza (ANOVA)

Boxplots of % by SEXO
(means are indicated by solid circles)

60 50 40

30 20 10 0

SEXO

En los grficos se aprecia que las diferencias entre los dos sexos son mnimas, tanto en las medias como en la variabilidad (en ambos casos mayor en las mujeres), y por tanto no parecen significativas. En la salida numrica se puede comprobar que el p-valor es 0,192, con lo cual no rechazaramos la hiptesis nula para cualquier nivel de significacin razonable (por ejemplo, =0,05). De hecho, los intervalos de confianza tienen bastantes valores comunes. Por tanto, concluiramos que no existen diferencias estadsticamente significativas entre los sexos en cuanto a los ratios de educacin universitaria en los pases europeos. Supongamos que ahora queremos tener en cuenta tambin los grupos de edad, para determinar si hay diferencias en los ratios de educacin universitaria entre los grupos de edad y/o el sexo. Para ello, utilizaremos el modelo doble con interaccin. En este caso tenemos un modelo con dos factores (sexo y edad) e interaccin, siendo la variable respuesta, obviamente, %. En la variable edad, los grupos de edad se han numerado: 1 (18-21 aos), 2 (22-24 aos), 3 (25-28 aos). Antes de realizar el ANOVA vamos a presentar los datos de forma tabular para ver si obtenemos alguna conclusin previa. Stat Tables Cross Tabulation...

Tabulated Statistics
Rows: EDAD H 1 2 3 All 23,000 20,500 10,214 17,905 Columns: SEXO M 30,286 23,143 10,571 21,333 All 26,643 21,821 10,393 19,619

Cell Contents -%:Mean

Se puede observar que, a medida que aumenta la edad, los ratios decrecen sensiblemente en los dos sexos, y adems las diferencias entre los sexos son menores (siempre a favor de las mujeres). Pasamos a realizar el ANOVA doble.

Proyecto e-Math Financiado por la Secretara de Estado de Educacin y Universidades (MECD)

13

Anlisis de la varianza (ANOVA) Stat Anova Two-way ...

Two-way Analysis of Variance


Analysis of Variance for % Source DF SS EDAD 2 3900,6 SEXO 1 246,9 Interaction 2 174,5 Error 78 7635,9 Total 83 11957,8 MS 1950,3 246,9 87,3 97,9 F 19,92 2,52 0,89 P 0,000 0,116 0,414

EDAD 1 2 3

Mean 26,6 21,8 10,4

Individual 95% CI ---------+---------+---------+---------+-(-----*------) (-----*------) (-----*------) ---------+---------+---------+---------+-12,0 18,0 24,0 30,0 Individual 95% CI -+---------+---------+---------+---------+ (------------*-----------) (-----------*-----------) -+---------+---------+---------+---------+ 15,0 17,5 20,0 22,5 25,0

SEXO H M

Mean 17,9 21,3

Basndonos en la salida anterior, podemos afirmar que no existe interaccin entre los dos factores (p-valor=0,414). As mismo, obtenemos un p-valor prcticamente nulo (0,000) para el factor edad, lo cual nos indica que existen diferencias significativas entre los tres grupos, tal y como habamos detectado en la tabla cruzada. Esto tambin se puede comprobar observando los intervalos de confianza, ya que si bien entre los grupos 1 y 2 comparten muchos valores, ninguno de ellos tiene interseccin con el intervalo del grupo 3. Por otra parte, al igual que en el modelo de un factor, no existen evidencias de que el sexo influya en los ratios de educacin, ya que el p-valor es 0,116>0,05.

Rapidez en la impresin
Estamos interesados en comparar la rapidez de dos modelos de impresoras (0 y 1). Para realizar el experimento, medimos el tiempo de impresin (en segundos) de los dos modelos sobre una serie de plantillas estndar. Los resultados del experimento se muestran en el archivo impresoras.mtw. Los datos han sido obtenidos despus de medir el tiempo de impresin (recogido en la variable puntuacin) de las dos mquinas sobre una muestra de 80 plantillas de iguales caractersticas, es decir, plantillas con similar dificultad de impresin. Queremos determinar si existen diferencias significativas entre los dos tipos de impresoras. Stat Anova One-way ...

Lgicamente, tomamos como variable respuesta puntuacin, y como factor impresora. Solicitamos los diagramas de puntos y los grficos de cajas. El output del Minitab es el siguiente: One-way Analysis of Variance
Analysis of Variance for Puntuaci Source DF SS MS Impresor 1 732,0 732,0 Error 78 7259,9 93,1 Total 79 7992,0 F 7,87 P 0,006

Individual 95% CIs For Mean Based on Pooled StDev

Proyecto e-Math Financiado por la Secretara de Estado de Educacin y Universidades (MECD)

14

Anlisis de la varianza (ANOVA)


Level 0 1 N 40 40 Mean 28,750 22,700 9,648 StDev 10,081 9,194 ----+---------+---------+---------+-(--------*--------) (--------*--------) ----+---------+---------+---------+-21,0 24,5 28,0 31,5

Pooled StDev =

Mientras que los grficos resultantes son:

Proyecto e-Math Financiado por la Secretara de Estado de Educacin y Universidades (MECD)

15

Anlisis de la varianza (ANOVA) En los grficos se aprecia que existen diferencias (el modelo 0 ofrece puntuaciones ms altas) entre los modelos de impresora, aunque resulta difcil saber si son o no significativas. En la salida numrica se puede comprobar que el p-valor es 0,006, con lo cual rechazaramos la hiptesis nula al nivel de significacin habitual (=0,05). De hecho, los intervalos de confianza son prcticamente disjuntos. Por tanto, concluiramos que existen diferencias significativas entre las impresoras Supongamos que ahora queremos tener en cuenta tambin en el experimento la calidad del papel utilizado, ya que consideramos que puede influir en la rapidez de impresin. Buscamos, pues, determinar si hay diferencias entre los tipos de impresoras y/o entre las calidades en el papel utilizado, y si existe relacin entre el tipo de impresora y el tipo de papel utilizado. Consideraremos un modelo doble (factores: impresora y papel) con interaccin, siendo la variable respuesta, obviamente, puntuacin. Como en otras ocasiones, antes de realizar el ANOVA vamos a presentar los datos de forma tabular para ver si obtenemos alguna conclusin previa: Stat Tables Cross Tabulation...

Tabulated Statistics
Rows: Impresor 0 0 1 All 30,450 19,350 24,900 Columns: Papel 1 27,050 26,050 26,550 All 28,750 22,700 25,725

Cell Contents -Puntuaci:Mean

Se observa que las impresoras del modelo 0 siempre ofrecen valores mayores que las del modelo 1, pero la diferencia es mucho ms acusada con papel de tipo 0 que con papel de tipo 1. Esto nos hace intuir que existe interaccin entre ambos factores. Pasamos a realizar el ANOVA doble: Stat ANOVA Two-way

Two-way Analysis of Variance


Analysis of Variance for Puntuaci Source DF SS MS Impresor 1 732,0 732,0 Papel 1 54,4 54,4 Interaction 1 510,1 510,1 Error 76 6695,4 88,1 Total 79 7991,9 Impresor 0 1 Mean 28,8 22,7 F 8,31 0,62 5,79 P 0,005 0,434 0,019

Individual 95% CI -----+---------+---------+---------+-----(---------*---------) (---------*---------) -----+---------+---------+---------+-----21,0 24,0 27,0 30,0 Individual 95% CI -+---------+---------+---------+---------+ (--------------*-------------) (--------------*--------------) -+---------+---------+---------+---------+ 22,0 24,0 26,0 28,0 30,0

Papel 0 1

Mean 24,9 26,6

Proyecto e-Math Financiado por la Secretara de Estado de Educacin y Universidades (MECD)

16

Anlisis de la varianza (ANOVA) Basndonos en la salida anterior, podemos afirmar que existe interaccin entre los dos factores (p-valor=0,019). As mismo, obtenemos un p-valor muy pequeo (0,005) para el factor impresora, lo cual nos indica que existen diferencias significativas entre ambos modelos de impresoras (intervalos de confianza disjuntos). Por otra parte, no existen evidencias de que el tipo de papel influya en la rapidez de la impresin, ya que el p-valor es 0,434>0,05. Adems, los intervalos de confianza tienen una interseccin de longitud muy amplia. No obstante, el hecho de que exista interaccin entre ambos factores nos impide realizar las afirmaciones anteriores con total rotundidad, ya que sera necesario un anlisis ms detallado de los datos.

Proyecto e-Math Financiado por la Secretara de Estado de Educacin y Universidades (MECD)

17

Anlisis de la varianza (ANOVA)

BIBLIOGRAFA
[1] [2] [3] [4] [5] [6]

_________________________________________________________

Bar, J. y Alemany, R. (2000): Estadstica II. Ed. Fundaci per a la Universitat Oberta de Catalunya. Barcelona. Pea Snchez de Rivera, D. (1987): Estadstica. Modelos y Mtodos. Volumen 2. Alianza Editorial. Madrid. ISBN: 84-206-8110-5 Johnson, R. R. (1996): Elementary statistics. Belmont, etc. : Duxbury, cop Martn-Guzmn, P. (1991): Curso bsico de estadstica econmica. AC, DL. Madrid. ISBN: 84-7288-142-3 Wonnacott, Thomas H. (1997): "Introduccin a la estadstica". Limusa, Mxico. Moore, David S. (1998): "Estadstica aplicada bsica". Antoni Bosch, Barcelona.

ENLACES

___________________________________

http://www.uv.es/~lejarza/anova/anova.html Leccin de ANOVA en HTML (Universitat de Valncia) http://e-stadistica.bio.ucm.es/cont_mod_1.html - Anova Aula Virtual de Bioestadstica (Universidad Complutense de Madrid) http://www.ruf.rice.edu/~lane/stat_sim/ Applets de Java http://www.kuleuven.ac.be/ucs/java/version2.0/Content_Anova.htm Applets de Java

Proyecto e-Math Financiado por la Secretara de Estado de Educacin y Universidades (MECD)

18

Vous aimerez peut-être aussi