En nuestra ltima entrada hablbamos un poco de qu nos ofrece la
estadstica. Lo que omitimos fue el cmo obtiene esos resultados. Existen muchos tipos de mtodos, cada uno apto para un tipo de problema y con una serie de desventajas e inconvenientes a ponderar antes de utilizarlo. Pero, incluso antes de elegir la herramienta particular a usar, nos encontramos con que hay dos escuelas estadsticas diferentes. Aunque nosotros creemos que en la prctica ambas son igualmente tiles, hay (y ms que hubo) cientficos y analistas de datos que niegan validez de alguna de ellas. Por un lado tenemos a los frecuentistas que deciden proceder repitiendo el experimento muchas veces y contar las veces en las se da uno u otro suceso, esto es, miden las frecuencias relativas. Si un experimento no puede repetirse no tiene sentido hablar de la probabilidad de que suceda, no? Y si aun as pudisemos definirla por qu querramos hacerlo si el acontecimiento suceder o no pero no se repetir? Los bayesianos en cambio deciden utilizar su experiencia previa para condicionar el resultado del anlisis. A fin de cuentas yo s que ciertos resultados son menos probables o incluso imposibles incluso antes de realizar el primer ensayo. Por qu no utilizar esa informacin? A priori tenemos cierta intuicin, basada o no en datos, que nos permite definir la probabilidad de que se d uno u otro resultado en el experimento a realizar. A esta distribucin de probabilidad la denominaremos prior. Aunque no la hemos enfatizado ya ha aparecido la primera diferencia entre ambos enfoques: la definicin de probabilidad. Los frecuentstas necesitan al menos unos cuantos ensayos para poder decir cmo de seguros se encuentran de que suceda algo en particular mientras que los bayesianos apostarn por un resultado antes de empezar a experimentar. De hecho, si el suceso es nico los bayesianos pueden dar un valor de probabilidad. El truco est en que la palabra probabilidad tiene significados diferentes y mientras para los frecuentistas hablan de frecuencias relativas los bayesianos se refieren a la certidumbre que tienen de que suceda el fenmeno. De esta forma un bayesiano puede afirmar que maana hay una probabilidad del 80% de que llueva aunque el da de maana sea irrepetible. Por otro lado parece que el enfoque frecuentista es ms objetivo (de hecho en muchas ocasiones se denomina objetivistas a los frecuentistas) mientras que los bayesianos contaminan el estudio con sus sesgos y prejuicios. Esto es completamente cierto y sucede porque el mismo hecho de definir un prior implica asumir hechos sobre los que no necesariamente tenemos datos. Sin embargo, lo cierto es que este inconveniente se difumina si se tiene en cuenta que los procesos de tratamiento estadstico usan los datos para corregir o actualizar ese conocimiento previo. Al final, si se dispone de suficientes datos, el resultado de los dos mtodos ser similar. La ltima diferencia que queremos remarcar, no la ltima que queda por explicar, tiene que ver con cmo se aborda el proceso de inferencia segn una y otra forma de entender la estadstica. En ambos casos se usa unos
datos (poblacin muestral) para verificar la verdad o falsedad de una
afirmacin (hiptesis); por ejemplo, queremos usar una muestra de la poblacin total para inferir algo que suponemos sucede en la poblacin total. El enfoque frecuentista considera que los datos son aleatorios debido a la naturaleza del proceso que los genera y que cada vez que repitamos el experimento obtendremos un resultado diferente. De la misma forma cree que la hiptesis ser cierta o falsa para el proceso estudiado pero que debido a la naturaleza aleatoria de los datos nuestro anlisis puede sealarla como falsa cuando es cierta (falso negativo) o verdadera cuando es falsa (falso positivo). Por ello el enfoque frecuentista nos proporcionar, adems de una respuesta a la pregunta de si la hiptesis es cierta o falsa, una probabilidad denominada p-valor. Este nmero es un indicador cuantas veces tendramos que repetir la toma de datos y el anlisis estadstico para obtener el resultado opuesto. Ntese que, al ser los datos aleatorios, siempre puede ser que acabe usando un conjunto que me apunte en la direccin contraria a la que realmente se comporta la poblacin total. Los bayesianos le dan la vuelta al enfoque frecuentista. Para ellos los datos son fijos, no aleatorios porque no se han obtenido ya? Qu tienen de aleatorios los valores anotados en esas tablas que hemos ido generando? En cambio la hiptesis es para ellos aleatoria y puede ser o no verdad. Los bayesianos no determinan si la hiptesis es cierta o falsa, nicamente calculan la probabilidad (en sentido bayesiano) de que sea cierta o falsa. Esto es, ante la pregunta de si una hiptesis es correcta, los frecuentistas responden un s o un no pero apostillan con qu frecuencia obtendras el resultado opuesto mientras que los bayesianos no responden directamente y se limitan a indicar cmo de seguros estn de uno u otro resultado. Por qu indicbamos antes que un tipo de enfoque es el inverso del otro? Visto desde un punto de vista ms matemtico, los frecuentistas se preguntan por la probabilidad de que se obtengan los datos que se han recogido en la prctica bajo el supuesto de que la hiptesis es cierta. Los bayesianos, por el contrario, se preguntan por la probabilidad de que la hiptesis sea cierta sabiendo que hemos recogido unos datos en particular.