Probabilidades Probabilidad de eventos independientes Probabilidad complementaria Si P(A) = x , entonces P(~A) = 1 – x
Si dos variables “X” y “Y” son independientes, entonces la probabilidad
conjunta de estas dos variables , es el producto de las probabilidades marginales X ⊥ Y : P(X,Y) = P(X) * P(Y) Lanzamiento de moneda 1 Cuando se lanza una moneda, puede resultar en cara o sello. Dado que la probabilidad que resulte cara es 1/2. Cuál es la probabilidad que resulte sello? P(cara) = 1/2 P(sello) = ? Lanzamiento de moneda 2 Ahora supongamos el caso de que la probabilidad que resulte cara es 1/4 en una moneda cargada. Cuál es la probabilidad que resulte sello? P(cara) = 1/4 P(sello) = ? Lanzamiento de moneda 3 Cuál es la probabilidad que al lanzar una moneda tres veces seguidas resulte Cara, Cara, Cara, asumiendo que en cada moneda tiene P(cara) = 1/2, y que los lanzamientos son independientes. P(cara, cara, cara) = ? Lanzamiento de moneda 4 Ahora lanzamos la moneda 4 veces. Llamaremos Xi es el resultado del lanzamiento “i” de una moneda, y donde cada Xi puede ser cara o sello: Xi = {C, S} Cuál es la probabilidad que todos los cuatro lanzamientos de el mismo resultado (cualquiera fuese), asumiendo que cada lanzamiento tiene una probabilidad idéntica e igualmente distribuida de resultar cara la mitad de veces? P(X1 = X2 = X3 = X4) = ? Lanzamiento de moneda 5 Cuál es la probabilidad que dentro del conjunto de lanzamientos { x1, x2, x3, x4 } resulte al menos 3 veces cara? P ( {X1 X2 X3 X4} contenga >= 3 cara) = ? Eventos dependientes Lanzamiento de moneda 6 Supongamos que tiramos dos monedas. La primera moneda imparcial. Y vamos a denotar su resultado como X1. Por lo tanto, la posibilidad que X1 resulte cara es 50%. Pero ahora nos ramificamos en escoger una moneda basada en el primer resultado. Si el primer resultado fuese cara, entonces se elegirá una moneda cuya probabilidad de que salga cara va a ser 0.9 Por otro lado, el primer lanzamiento también podría resultar sello, en cuyo caso se elegirá un moneda muy diferente que tenga una probabilidad que salga sello nuevamente de 0.8 Cuál es la probabilidad de que el segundo lanzamiento de la moneda salga cara? Lanzamiento de moneda 6 Entonces: P(X1 = C) = 1 / 2 P(X2 = C | X1 = C) = 0.9 P(X2 = S | X1 = S) = 0.8 P(X2 = C) = ? Probabilidad Total La probabilidad de una variable aleatoria “Y” puede ser escrita como la sumatoria del producto de la probabilidad de Y dado que otra variable aleatoria “X” adquiere un valor “i”, multiplicado por la probabilidad de X= i (sumatoria de todos los resultados posibles i para la variable aleatoria X) 𝑃 𝑌 = σ𝑖 𝑃 𝑌 𝑋 = 𝑖) 𝑃(𝑋 = 𝑖) Complemento de Probabilidades condicionales Se cumple lo siguiente P(~X|Y) = 1 – P(X|Y) Pero NO se cumple lo siguiente P(X|~Y) = 1 – P(X|Y) Días soleados y lluviosos 1 Como todos saben, hay días soleados y días con lluvia. Supongamos que el día 1, representado como D1, tiene una probabilidad de ser soleado de 0.9. Asumamos, que un día soleado le sigue a otro día soleado con una probabilidad de 0.8. ¿Cuál es la probabilidad que llueva después de un día soleado? P(D1 = soleado)=0.9 P(D2 = soleado | D1 = soleado)=0.8 P(D2 = lluvioso | D1 = soleado)=? Días soleados y lluviosos 2 Continuando con el problema anterior. Además se sabe que a un día lluvioso le sigue un día soleado con una probabilidad de 0.6. ¿Cuál es la probabilidad que D2 sea soleado? P(D1 = soleado)=0.9 P(D2 = soleado | D1 = soleado)=0.8 P(D2 = lluvioso | D1 = soleado)=0.2 P(D2 = soleado | D1 = lluvioso)=0.6 P(D2 = soleado)=? Días soleados y lluviosos 3 Y asumiendo que las mismas dinámicas de D2 aplican a D3, esto significa que las probabilidades de transición de un día al otro se mantienen iguales. ¿Cuál es la probabilidad que D3 sea soleado? P(D1 = soleado)=0.9 P(D2 = soleado | D1 = soleado)=0.8 P(D2 = soleado | D1 = lluvioso)=0.6 P(D3 = soleado | D2 = soleado)=0.8 P(D3 = soleado | D2 = lluvioso)=0.6 P(D3 = soleado)=? Diagnóstico de cáncer 1 Un tipo especial de cáncer existe en el 1% de la población. Existe una prueba (o test) para detectar este cáncer que nos brinda una respuesta probabilística si tiene o no este cáncer. Entonces la probabilidad de que una prueba resulte positiva, expresado con el símbolo +, dado que sí se tenga cáncer es 0.9 Luego, ¿cuál es la probabilidad que la prueba resulte negativa si se tiene la enfermedad? P(cáncer)=0.01 P( + |cáncer)=0.9 P( - |cáncer)=? Diagnóstico de cáncer 2 Continuando con el problema anterior. Consideremos que la probabilidad que el resultado de la prueba sea positivo, aún cuando no se tenga este tipo de cáncer es 0.2. (En otras palabras, la probabilidad que la prueba resulte negativa si no se padece de cáncer es 0.8). Hallar las probabilidad conjuntas solicitadas. P(cáncer)=0.01 P( + |cáncer)=0.9 , por lo tanto: P( - |cáncer)=0.1 P( + | ~cáncer)=0.2 , por lo tanto: P( - |~cáncer)=0.8 P( + , cáncer)=? P( - , cáncer)=? P( + , ~cáncer)=? P( - , ~cáncer)=? Diagnóstico de cáncer 3 Continuando con el problema anterior. ¿Cuál es la probabilidad de tener este tipo de cáncer si la prueba se realizó sólo una vez y el resultado fue positivo? P(cáncer)=0.01 P( + |cáncer)=0.9 , por lo tanto: P( - |cáncer)=0.1 P( + | ~cáncer)=0.2 , por lo tanto: P( - |~cáncer)=0.8 P(cáncer| + )=? Teorema de Bayes Teorema de Bayes Entonces si conocemos el resultado de B, pero nos interesa saber sobre la variable A. 𝑃(𝐵|𝐴) ∗𝑃(𝐴) 𝑃 𝐴𝐵 = 𝑃(𝐵)
Por lo tanto, B es la evidencia, y A es la variable para evaluar.
Estos términos también se conocen de esta manera: 𝐿𝑖𝑘𝑒𝑙𝑖ℎ𝑜𝑜𝑑 ∗𝑃𝑟𝑖𝑜𝑟 𝑝𝑜𝑠𝑡𝑒𝑟𝑖𝑜𝑟 = 𝑀𝑎𝑟𝑔𝑖𝑛𝑎𝑙 𝐿𝑖𝑘𝑒𝑙𝑖ℎ𝑜𝑜𝑑 𝑉𝑒𝑟𝑜𝑠𝑖𝑚𝑖𝑙𝑖𝑡𝑢𝑑 ∗¨𝑃𝑟𝑜𝑏.𝑎 𝑝𝑟𝑖𝑜𝑟𝑖 𝑃𝑟𝑜𝑏 𝑎 𝑝𝑜𝑠𝑡𝑒𝑟𝑖𝑜𝑟𝑖 = 𝑉𝑒𝑟𝑜𝑠𝑖𝑚𝑖𝑙𝑖𝑡𝑢𝑑 𝑚𝑎𝑟𝑔𝑖𝑛𝑎𝑙 Teorema de Bayes Por ejemplo, si B fuera el resultado de esta prueba de diagnóstico, no nos importaría saber sobre el resultado en sí, nuestra prioridad es saber si se tiene cáncer o no. Este razonamiento diagnóstico, que parte de la evidencia (B) para inferir la causa (A), es invertido por la Regla de Bayes, y se convierte en un razonamiento causal. En otras palabras, si hipotéticamente conocemos la causa, podemos conocer cuál sería la probabilidad de la evidencia que acabamos de observar. Para realizar esta inversión, debemos multiplicar por la probabilidad a priori de la causa, P(A), en el caso que nos interesa, y dividir esto por la probabilidad de la evidencia, P(B), la cual a menudo es desarrollada usando el teorema de la probabilidad total. Diagnóstico de cáncer 4 Aplicando la regla de Bayes a nuestro caso de cáncer, y tomando en cuenta que nuestra causa es saber si se tiene cáncer, condicionada por la evidencia, que es el resultado de esta causa desconocida, que este caso, es obtener un resultado positivo en la prueba. P(cáncer| + )=? Red Bayesiana Variable Donde A es una variable interna oculta que no puede ser censada o leída. En su lugar, tenemos una segunda A P(A) variable B que es observable. Se conoce la probabilidad a priori de A: P(A). También, se conoce el condicional: A causa B - si se tiene o no cáncer hace que el resultado P(B|A) de la prueba sea positivo o no -, B aunque haya una aleatoriedad en P(B|~A) cuestión. Entonces, se sabe cual es Variable la probabilidad de B dado los observable diferentes valores de A. Red Bayesiana Variable Lo que nos importa en este caso oculta en particular se llama razonamiento diagnóstico: A P(A) P(A|B) o P(A|~B) Esta red bayesiana de dos variables: A y B, conectados por un arco que va de A hacia B, es la representación grafica de una P(B|A) distribución de dos variables que B se especifican en esta estructura: P(B|~A) que tiene una probabilidad a Variable priori, y tiene una probabilidad observable condicional Normalización En el teorema de Bayes, el cálculo del marginal likelihood, P(B), no depende de lo que se asume para la variable A 𝑃(𝐵|𝐴) ∗𝑃(𝐴) 𝑃(𝐵|~𝐴) ∗ 𝑃(~𝐴) 𝑃 𝐴𝐵 = 𝑃(~𝐴|𝐵) = 𝑃(𝐵) 𝑃(𝐵)
Notamos que el normalizador, P(B), es idéntico en ambos casos, y
teniendo en cuenta que los eventos complementarios suman 1: P(A|B) + P(~A|B) = 1 Esto nos permite calcular la regla de Bayes de manera muy diferente, básicamente ignorando el normalizador. Normalización Entonces, vamos a calcular las siguientes pseudo probabilidades: P’(A|B) = P(B|A)*P(A) P’(~A|B) = P(B|~A)*P(~A) En ambos casos, calculamos la probabilidad a posteriori no normalizada omitiendo el normalizador B, y después podemos recuperar las probabilidades originales normalizando.