Vous êtes sur la page 1sur 13

Distribucin beta Teora

En esta frmula K es una constante que usamos para convertir estas alturas de la curva en una funcin de densidad. Puesto que la suma de todas las probabilidades debe ser uno, habra que dividir cada altura por la suma (integral) para todos los valores de p. En la prctica no tenemos que preocuparnos de la frmula de clculo para usar la distribucin Beta, ya que podemos usar las tablas de la distribucin o bien programas estadsticos para calcularlas. Una ventaja de la distribucin Beta es que puede tomar formas muy diferentes, dependiendo de los valores a y b, por lo que es sencillo encontrar una distribucin beta que exprese nuestras creencias sobre las probabilidades inicial de la proporcin. Algunos ejemplos de grficas de la distribucin Beta se presentan en la figura 3.2 Figura 3.2. Forma de la distribucin Beta para distintos valores de a y b

Las funciones de densidad beta vienen definidas por dos nmeros, a y b y la llamamosB(a,b). La funcin de densidad en la distribucin beta toma la forma siguiente:

La distribucin uniforme podra ser razonable para representar la situacin en que no tenemos ninguna informacin previa sobre la proporcin. Pero en muchos casos, este supuesto es poco razonable, por ejemplo:

Proporcin de varones entre todos los recin nacidos en un mes en un cierto hospital. Sabemos que lo ms probable es que esta proporcin est alrededor de 0,51, aunque podra

variar ms o menos alrededor de este nmero, sobre todo si el nmero de nios que nace es pequeo. Proporcin de ancianos con enfermedad de Alzheimer entre los residentes en un centro de mayores.

En los casos en que no es razonable pensar que todos los valores son equiprobables, una buena solucin es usar la distribucin Beta. Dada una distribucin de probabilidad inicial B(a, b), si al hacer un nuevo experimento observamos e xitos y f fracasos, la distribucin de probabilidad final sera una nueva distribucin Beta B (a + e, b + f). En resumen, una vez seleccionada la funcin de densidad inicial, es fcil actualizarla con los datos. Bastara con sumar los xitos a a y sumar los fracasos a b al realizar el experimento. ELECCIN DE LA DISTRIBUCIN INICIAL Y CLCULO DE LA DISTRIBUCIN FINAL Para encontrar una funcin que se ajuste a la distribucin de probabilidad inicial hay que tener en cuenta que: Para a= b= 1 obtenemos la distribucin uniforme (distribucin no informativa) donde todos los valores de p tienen la misma probabilidad Podemos interpretar a como el nmero de xitos y b el nmero de fracasos al hacer un experimento a+b veces e interpretar B(a,b) como una generalizacin de la distribucin binomial. Pero mientras en la distribucin binomial p era fijo y a y b eran variables ya que nos interesbamos por el nmero de xitos, ahora la variable es p , siendo a y b fijos. El valor medio es a/(a+b) . As para a= 2; b=8 el valor medio es 0,2; para a=b=5, el valor medio es 0,5; para a =7, b=3 , el valor medio es 0,7. Esto nos da el valor ms probable de la proporcin en la distribucin inicial. Para el mismo valor medio, la mayor dispersin depende de la suma total de a +b . As al comparar B(7, 3) con B (70, 30) o B(5,5) con B (50, 50) la dispersin disminuye cuando aumenta la suma de a+ b. Esto es lgico si pensamos que la informacin que proporcionan 50 xitos en un experimento de 100 ensayos es mayor de la que proporcionan 5 xitos en un experimento de 10 ensayos. Por lo tanto, al estar ms seguros del valor ms probable para la proporcin, elegimos una distribucin con menor dispersin para representar nuestra creencia. Las funciones Beta tambin facilitan el clculo probabilidades final (actualizacin de las probabilidades, a la luz de nuevos datos) sin tener que calcular la verosimilitud. CLCULO DE PROBABILIDADES Y OBTENCIN DE INFERENCIAS CON LA DISTRIBUCIN BETA

Para calcular probabilidades en las distribuciones discretas bastaba con sumar las probabilidades asociadas a cada valor. Con las distribuciones continuas no tiene sentido hablar de probabilidades de que p tome un valor puntual. Ahora operamos con probabilidades asociadas a intervalos y tenemos que calcular el rea que encierra la curva entre dos puntos.

Podemos ayudarnos en los clculos con una hoja de clculo Excel (ver ejemplo 3.2) y de este modo calcular intervalos de credibilidad para la proporcin a partir de la distribucin final. Mejor estimador de una proporcin A partir de la distribucin final podemos estimar la proporcin poblacional desconocida. Nuestra apuesta ms razonable sera el valor de algn promedio de la distribucin final, como la moda, que es el valor ms probable. En este caso la moda de la distribucin final Beta. Intervalos de credibilidad El intervalo de credibilidad del 95% para la proporcin poblacional se calcula tomando los valores centrales (alrededor de la moda) que den una probabilidad del 95% en la distribucin final. Igualmente podemos calcular el intervalo de confianza del 99% o de cualquier otro valor de credibilidad. De hecho, los lmites del intervalo de credibilidad bayesiano coinciden con el intervalo de confianza clsico, cuando no hay informacin previa (distribucin inicial uniforme) pero la interpretacin de uno y otro es muy diferente: El intervalo de credibilidad del r% para la proporcin nos indica que hay una probabilidad igual al r% de que la proporcin de la poblacin se encuentre en el intervalo. El intervalo de confianza del r % no nos da la probabilidad de que la proporcin est en el intervalo. Lo que nos dice es la proporcin de intervalos que, con el mismo tamao de muestra, contienen la proporcin de la poblacin. Es decir, si tomamos 100 muestras del mismo tamao y calculamos para cada una de ellas el intervalo de confianza, a partir de los datos obtenidos, en r intervalos estar incluida la proporcin verdadera de la poblacin. Pero, en concreto, no sabemos si la proporcin est o no includa en el nuestro. Los lmites de los intervalos de confianza y credibilidad no coinciden si hubisemos usado una distribucin inicial informativa, es decir cuando hay informacin previa. Observa en Ejemplo 3.3. que: A mayor credibilidad, ms anchura del intervalo. Para la misma credibilidad y distribucin inicial, a mayor tamao de muestra menor anchura de intervalo. Contraste bayesiano Podemos tambn usar las distribuciones final para contrastar una hiptesis sobre un posible valor de la proporcin en la poblacin.

Contrastar una hiptesis significa (desde el punto de vista bayesiano) encontrar su probabilidad final. Por ejemplo supongamos que quiero contrastar la hiptesis de que una moneda est trucada y produce pocas caras, es decir H: p <= 0,5 , siendo p la proporcin de caras que produce la moneda. Parto de una distribucin inicial B (1,1) (ausencia de informacin); si al lanzar la moneda 10 veces obtengo 3 caras, la distribucin final es B (4, 8), porque he obtenido 3 xitos y 7 fracasos. De esta distribucin final puedo comprobar en las tablas de la distribucin que la probabilidad P(p <= 0,5/ datos)=0,887; es grande , pero no lo suficiente para que la consideramos como una buena evidencia de nuestra hiptesis (ya que la complementaria 0,113 indica un suceso que ocurre 113 de cada 1000 veces (por tanto no es muy raro). Nuestra conclusin es que no podemos rechazar la hiptesis, aunque tampoco podemos aceptarla. De nuevo, los resultados clsico y bayesiano coinciden cuando usamos distribuciones inicial no informativas. En la inferencia clsica el valor alfa para este contraste de hiptesis sera tambin igual a 0,113 en este ejemplo, por lo tanto, no rechazaramos la hiptesis. Pero la interpretacin es diferente: El valor alfa nos da la probabilidad de encontrar los datos, si fuese cierta la hiptesis nula, esto es, en este ejemplo P( Datos/ p = 0,5). En inferencia bayesiana calculamos a partir de la distribucin final la probabilidad de que la hiptesis sea cierta, a partir de los datos, [P(p <= 0,5/ datos)].

Ejemplo 3. Obtencin de inferencias a partir de la distribucin beta


Clculo de probabilidades A continuacin presentamos la distribucin B (3,7) junto con una tabla obtenida mediante uno de los programas Excel en que se proporcionan diferentes probabilidades.

P 0 0,05 0,1 0,15 0,2 0,25 0,3 0,35 0,4 0,45 0,5 0,55 0,6 0,65 0,7 0,75 0,8 0,85 0,9 0,95 1

P(0<p) 0,000 0,008 0,053 0,141 0,262 0,399 0,537 0,663 0,768 0,850 0,910 0,950 0,975 0,989 0,996 0,999 1,000 1,000 1,000 1,000 1,000

P(p<1) 1,000 0,992 0,947 0,859 0,738 0,601 0,463 0,337 0,232 0,150 0,090 0,050 0,025 0,011 0,004 0,001 0,000 0,000 0,000 0,000 0,000

P(0<x) 0,000 0,005 0,010 0,015 0,020 0,025 0,030 0,035 0,040 0,045 0,050 0,950 0,955 0,960 0,965 0,970 0,975 0,980 0,985 0,990 1,000

Valor critico (x) 0,000 0,053 0,062 0,069 0,075 0,080 0,085 0,090 0,094 0,094 0,098 0,550 0,558 0,567 0,577 0,588 0,600 0,615 0,633 0,656 1,000

Calculemos P(0,3 < p <0,6) en una distribucin B(3, 7). Esta proporcin viene dada por el rea de la curva entre 0,3 y 0,6 P(0,3 < p < 0,6)= P(p < 0,6)- P(0,3 < p )=0,975-0,537=0,438 P (p<0,3)=0,537 Valor crtico x, tal que P (p<x)=0,45; x=0,094

Percentil. Los percentiles de la proporcin son los valores de la proporcin que dejan por debajo un tanto por ciento dado de valores. Por ejemplo, el percentil del 5 % deja por debajo un 5 % de casos, y es igual a 0,098, o lo que es lo mismo P(p <0,098 ) = 0,3 Del mismo modo, P(p <0,55 ) = 0,95 , es decir el percentil del 95% corresponde a una proporcin igual a 0,55.

Clculo de intervalos de credibilidad En una distribucin B (3,7) la probabilidad de que la proporcin sea menor a 0, 098 es el 5% y la probabilidad de que sea mayor a 0,55 tambin otro 5%. (Vase el ejemplo 3.2). En consecuencia, el 90% de los valores centrales estn comprendidos entre (0, 098 <p<055). El intervalo de credibilidad del 90 % para la proporcin en una distribucin final B(3 , 7) es :P (0, 098 <p<055)=0,90

Del mismo modo podemos calcular intervalos de credibilidad para otro valor cualquiera de credibilidad, por ejemplo, para la misma distribucin final B (3,7):

Intervalo de credibilidad del 95% (dejando arriba 2,5% de probabilidad y otro 2,5% abajo): P (0, 080<p<0,6)=0,95 Intervalo de credibilidad del 99 %: P (0, 053 <p<0,656)=0,99

Observa en estos ejemplos que a mayor credibilidad, ms anchura del intervalo

Ejercicio resuelto 1. Hipertensin


Enunciado En un estudio de salud se encontraron 72 mujeres hipertensas en una muestra de 412 mujeres. 1. Cul es el mejor estimador de la verdadera proporcin de mujeres hipertensas en la poblacin? 2. Cul es el lmite en que variar la proporcin de mujeres hipertensas en la poblacin, con una credibilidad del 90%? 3. Podemos admitir que el riesgo de hipertensin es menor en las mujeres que en los hombres, supuesto que la incidencia de hipertensin en los varones es 0,22? Datos del ejercicio

El ejercicio nos da como datos el nmero de xitos e=72 en una muestra de tamaon=412 . No nos da informacin sobre la distribucin inicial en la poblacin

Qu pide el ejercicio?

La parte 1 pide la estimacin ms probable de la proporcin en la poblacin, dada por la moda de la distribucin final de la proporcin. La parte 2 pide el intervalo de credibilidad del 90% para la proporcin en la poblacin La parte 3 pide contrastar la hiptesis de que la proporcin en la poblacin es mayor que 0,22, que es la proporcin en la poblacin de varones.

Nota: Puedes ayudarte en los clculos usando el programa Beta que puedes descargar en el material complementario".

Solucin parte 1 Puesto que no tenemos informacin sobre la distribucin inicial de la propocin tomaremos como distribucin inicial la B(1,1). La distribucin final de la propocion ser igual a B(73, 341), ya que sumaremos los xitos y fracasos a los parmetros de la distribucin beta inicial. La moda en esta distribucin es igual a su media: P=73/(73+341)=0,176
Solucin parte 2 Para calcular el intervalo de credibilidad necesitamos las tablas de la distribucin Beta o bien, el programa de clculo de probabilidades de la distribucin Beta, que puedes descargar de los complementos. En la figura 3.4 aparece este programa en el que hemos cambiado los parmetros a y b por los datos del problema: a=73; b=341 .

Puesto que nos piden el intervalo de credibilidad del 90%, debemos buscar el intervalo central de valores que deja a cada lado un 5% de probabilidad. Buscando en la tabla observamos que el valor crtico x , tal que P(p<x 1 )=0,05 es igual a 0,146 y el valor crtico x , tal que P(p<x 2 )=0,95 es igual a 0,208. El intervalo de credibilidad estar comprendido entre estos dos valores, ya que: P(x 1 < p<x 2 )=0,95-0,05=0,90 Solucin parte 3 Para contrastar esta hiptesis tendremos que calcular su probabilidad. De la tabla anterior obtenemos: P (p<0,22)=0,99 Por tanto, puesto que esta probabilidad es muy grande y la complementaria P(p>0,22)=0,01 muy pequea, podemos aceptar que la proporcin de hipertensos es menor en las mujeres que en los hombres. Ejercicio resuelto 2. Fallos en produccin Enunciado En el proceso de control de calidad de una fbrica de reproductores de discos compactos se encontraron fallos en 20 reproductores, en una muestra aleatoria de 500. 1. Encuentre un intervalo de credibilidad de 95% para la proporcin de los reproductores de discos compactos defectuosos en la poblacin. 2. Revisadas las mquinas que realizan la produccin se encontr un total de 5 discos defectuosos en un total de 200 reproductores. Cul ser ahora el nuevo intervalo de credibilidad? 3. Podemos suponer que el proceso de revisin ha mejorado la produccin? Datos del ejercicio

El ejercicio nos da como datos el nmero de xitos e=20 en una muestra de tamaon=500 . No nos da informacin sobre la distribucin inicial en la poblacin

Qu pide el ejercicio?

La parte 1 pide el intervalo de credibilidad del 95% para la produccin en la poblacin La parte b pide el nuevo intervalo de credibilidad del 95% para la proporcin en la poblacin, una vez tomamos una segunda muestra de datos. Ahora tendremos como distribucin inicial la distribucin final calculada en la fase anterior. La parte c pide contrastar la hiptesis de que la proporcin en la poblacin es menor que 0,04, que es la proporcin en la poblacin de partida.

Nota: Puedes ayudarte en los clculos usando el programa Beta que puedes descargar en el material complementario".

Solucin parte 1

Puesto que no tenemos informacin sobre la distribucin inicial de defectos en la poblacin, tomaremos como distribucin inicial la B(1,1). Una vez recogidos los datos, hemos encontrado 20 xitos (nmero de defectos) y 480 fallos (nmero de piezas correctas). Luego la distribucin final de defectos en la poblacin viene descrita por la distribucin B (21, 481). Utilizando el programa de clculo de probabilidades Beta en Excel obtenemos los datos de la figura 3.5.

Puesto que nos piden el intervalo de credibilidad del 95%, debemos buscar el intervalo central de valores que deja a cada lado un 2,5% de probabilidad. Buscando en la tabla observamos que el valor crtico x , tal que P(p<x 1 )=0,025 es igual a 0,027 y el valor crtico x , tal que P(p<x 2 )=0,975 es igual a 0,061. El intervalo de credibilidad estar comprendido entre estos dos valores, ya que: P(0,027 < p<0,061)=0,975-0,025=0,95
Solucin parte 2 En este caso ya tenemos una informacin sobre la distribucin inicial de defectos en la poblacin, que es la distribucin final obtenida en el paso anterior B (21, 481). Una vez recogidos los nuevos datos, hemos encontrado 5 nuevos xitos (nmero de defectos) y 195 nuevos fallos (nmero de piezas correctas). Luego la distribucin final de defectos en la poblacin viene descrita por la distribucin B (26, 676). Utilizando el programa de clculo de probabilidades Beta en Excel obtenemos los datos de la figura 3.6.

Puesto que nos piden el intervalo de credibilidad del 95%, debemos buscar el intervalo central de valores que deja a cada lado un 2,5% de probabilidad. Buscando en la tabla observamos que el valor crtico x , tal que P(p<x 1 )=0,025 es igual a 0,025 y el valor crtico x , tal que P(p<x 2 )=0,975 es igual a 0,052. El intervalo de credibilidad estar comprendido entre estos dos valores, ya que: P(0,025 < p<0,052)=0,975-0,025=0,95 Solucin parte 3 Al comparar los dos intervalos de credibilidad obtenidos: P(0,027 < p<0,061)=0,975-0,025=0,95 P(0,025 < p<0,052)=0,975-0,025=0,95 observamos que se solapan. Aunque el segundo intervalo (despus de la revisin) tiene los lmites ms bajos para esta muestra particular, no se llega a observar una clara mejora de la produccin.

Ejercicio resuelto 2. Fallos en produccin

Beta

Funcin de densidad de probabilidad

Parmetros Dominio Funcin de densidad (pdf) Funcin de distribucin (cdf) Media Moda

forma (real) forma (real) Funcin de distribucin de probabilidad

para Varianza Coeficiente de simetra Funcin generadora de momentos (mgf) Funcin caracterstica

En estadstica la distribucin beta es una distribucin de probabilidad continua con dos parmetros funcin de densidad para valores es

y cuya

Aqu

es la funcin gamma.

El valor esperado y la varianza de una variable aleatoria X con distribucin beta son

. Un caso especial de la distribucin beta es cuando intervalo [0, 1]. Para relacionar con la muestra se iguala a la media y a la varianza y se despejan y y que coincide con la distribucin uniforme en el

Fuentes y contribuyentes del artculo


1. 2. 3. 4. Altman DG, Bland JM. Statistics notes: The normal distribution. BMJ 1995; 310: 298-298. Elveback LR, Guilliver CL, Keating FR Jr. Health, Normality and the Gosth of Gauss. JAMA 1. 1970; 211: 69-75. Nelson JC, Haynes E, Willard R, Kuzma J. The Distribution of Eurhyroid Serum Protein-Bound 1. Iodine Levels. JAMA 1971; 216: 1639-1641. Altman DG, Bland JM. Statistics notes: Detecting skewness from summary information. BMJ 1. 1996; 313: 1200-1200.

Fuentes de imagen, Licencias y contribuyentes Image:Beta distribution pdf.png Fuente: http://es.wikipedia.org/w/index.php?title=Archivo:Beta_distribution_pdf.png Licencia: GNU General Public License Contribuyentes: Cburnett, It Is Me Here, Krishnavedala, LeaW, MarkSweep, WikipediaMaster, 1 ediciones annimas Image:Beta distribution cdf.png

Vous aimerez peut-être aussi