Vous êtes sur la page 1sur 5

"Correlacin no implica causalidad" de Daniel Manzano.

"Correlacin no implica causalidad" de Daniel Manzano.

Este artculo ha obtenido el primer premio del concurso DIPC de divulgacin del evento Ciencia Jot
Down 2016

Hay afirmaciones que no solo son ciertas, sino que adems son poderosas. Una de mis favoritas
es, sin duda, correlacin no implica causalidad. En el mundo de los debates pblicos, de las
peleas en Twitter y los flamesen Mename siempre es til contar con herramientas como esta. La
frase en s viene a significar que el hecho de que dos eventos se den habitualmente de manera
consecutiva no implica que uno sea causa del otro. As, cuando llueve es ms probable que truene,
pero no es la lluvia la que causa los truenos.

Imagnate que por un giro del destino te ves envuelto en una discusin sobre, por ejemplo, si el
modelo de educacin fins es el ejemplo a seguir en Espaa. No tienes ni idea de pedagoga, ni
del modelo educativo espaol, ni del fins. Si fuera una discusin en un bar no pasara nada,
podras decir que no te interesa, pero es en internet y ya se sabe lo que eso implica. En el
cibermundo no vas a reconocer que no sabes de un tema. Tienes que discutir y, an ms
importante, tienes que ganar. Tu oponente dialctico est ms preparado que t. Te bombardea
con datos y estudios sobre el informe PISA, sobre los distintos mtodos pedaggicos y sobre
muchas otras cosas que no te interesan. Da igual, porque t ests curtido en mil ciberbatallas y
sabes como contraatacar. Esperas un momento de descuido de tu oponente. Entonces te colocas
bien el palillo que sujetas con los dientes y afirmas: Todo eso est muy bien pero no demuestra
nada, porque la correlacin no implica causalidad. Ni siquiera importa si ests defendiendo el
modelo fins o atacndolo. Cualquier dato que se te haya dado ha quedado refutado. Correlacin
no implica causalidad. El debate termina y has ganado.

Pero tiene realmente este argumento una base slida? No lo dudes, cualquier persona con
conocimientos bsicos de estadstica te lo podr confirmar. En cualquier caso vamos a indagar un
poco ms para que sepas usarlo correctamente. Para eso nada mejor que usar un par de
ejemplos.

El ejemplo ms clsico es el de los piratas y el calentamiento global. Este se basa en un estudio


desarrollado nada menos que por Bobby Henderson, el creador de la Iglesia pastafari. Su intencin
era combatir los argumentos de los creacionistas, un grupo muy dado a encontrar correlaciones
donde no las hay y a concluir que hay una causa detrs. Casualmente la causa que siempre
encuentran es la misma, Dios, causa que, de nuevo casualmente, coincide con lo que estaban
intentando demostrar a priori. Para ilustrar el hecho de que el que dos fenmenos se den al mismo
tiempo no implica que uno cause el otro. Henderson represent la temperatura global de la Tierra
en funcin del nmero de piratas en el mundo.
Claramente se aprecia que, a medida que el nmero de piratas se ha reducido, la temperatura de
la atmsfera ha aumentado. Segn los argumentos de los creacionistas, y otros grupos favorables
a encontrar causas donde no las hay, esto significara que la escasez de piratas es la verdadera
causa del calentamiento global. No hay otra explicacin. Por este motivo los seguidores de la
religin de Henderson se disfrazan de piratas en el momento del culto, para combatir as el cambio
climtico.

Veamos otro ejemplo. La pgina web Spurious Correlations se dedica a buscar en distintas bases
de datos correlaciones absurdas entre series de datos. Una de las ms populares es la que
aparece en la siguiente grfica, que representa a travs de los aos tanto el nmero de
ahogamientos en piscina producidos en los Estados Unidos como el nmero de pelculas
realizadas por Nicolas Cage.

La correlacin es clara. Cuantas ms pelculas hace el bueno de Nicolas ms gente muere


ahogada. Lo mejor ser que el pobre se retire y as ahorrar sufrimiento al mundo.

Dado que es difcil de creer que la gente se ahogue por culpa de Nicolas Cage, o que los piratas
determinen la temperatura global, podemos concluir que estas correlaciones no implican que una
cosa sea la causa de la otra. Veamos entonces la explicacin cannica a estas grficas. Que dos
fenmenos se den a la vez, o que uno preceda al otro, no implica que uno sea la causa del otro.
Aunque observamos una correlacin entre A (pelculas de Cage) y B (ahogamientos en piscina)
eso no significa que las pelculas de Nicolas Cage provoquen que la gente quiera morir de una
manera agnica a la vez que refrescante.
Y, si no es A la causa de B, por qu se dan los dos fenmenos a la vez de forma repetida? Bueno,
en general, si hay una fuerte correlacin entre los fenmenos A y B, tenemos cuatro posibilidades:
Que A cause B (que los ahogamientos en piscinas hagan que el bueno de Nicolas quiera
hacer ms cine para animar a las familias).
Que B cause A (yo mismo estuve tentado de ahogarme despus de ver La bsqueda 2).
Que haya un tercer fenmeno, C, que provocara tanto A como B (es complicado imaginar
alguno, pero a lo mejor el Orden Mundial conspira para reducir la poblacin humana tanto mediante
el ahogamiento como mediante el aburrimiento).
Puro y duro azar. Hay muchos datos en el mundo, as que si los comparamos todos ms
tarde o ms temprano encontraremos este tipo de correlaciones que no significan nada.

Este ltimo punto es el ms importante de todos, ya que no se puede demostrar que algo no ha
ocurrido por azar. As que por muchos datos que te pongan sobre la mesa t no lo dudes. Ya
tenemos una explicacin sencilla y todo encaja. Las correlaciones no tienen implicacin ya que
todo puede ser debido a la casualidad en lugar de a la causalidad. As que si alguien nos dice que
el sistema educativo fins es el mejor porque puntan muy alto en PISA, podemos callarlo con un
firme y convencido correlacin no implica causalidad.

Ya tenemos un arma dialctica precisa y afinada, e incluso podemos ir ms all. Si maana nos
levantamos y leemos la siguiente noticia en el peridico, no nos pasar nada.
Es evidente que ni las autoridades sanitarias ni el redactor del artculo tienen mucha idea de
matemticas. Nosotros, que estamos armados con un conocimiento todopoderoso, sabemos que
no hay de qu preocuparse. La correlacin no implica causalidad. Lo mismo son los yogures o lo
mismo no lo son. Lo mejor ser comprar esa marca aprovechando la bajada de precios. Est claro
que tenemos un caso de una fuerte correlacin. Todo el mundo que comi tal yogur muri. Mientras
tanto, el resto de personas murieron a un ritmo normal. La correlacin est fuera de duda.

Si algn alarmista viene a tocarnos las narices podemos usar el mismo argumento que antes.
Tenemos correlacin entre el comer yogur y el morir, as que tenemos cuatro posibilidades:
Los yogures son los causantes de la muerte de las personas.
La muerte de las personas es causante de que se comiera antes el yogur.
Hay un fenmeno que es causa a la vez de las muertes y de que la gente coma yogures.
Es una simple casualidad. La gente muere, la gente come yogures, qu le vamos a
hacer?

La segunda y tercera posibilidad son bastante improbables. Es difcil de creer que las muertes
causen la ingesta de yogures o que exista un evento que provoque tanto el consumo de yogures
como la muerte de los que los consumen. Sin embargo, demostrar que no es azar es difcil. La
correlacin es clara, pero nadie ha demostrado an que los yogures estn envenenados.

A estas alturas el avispado lector (o la avispada lectora) ya habr intuido que este artculo no es
una defensa a ultranza de la frasecita de las narices. Seamos serios. Por mucho que estemos
convencidos de que la correlacin no implica causalidad, si maana ocurre algo as no nos lo
plantearamos ni por un instante. Los yogures estn envenenados. No hay otra posibilidad. Por
supuesto que habr que analizarlos para ver qu ha ocurrido, pero mientras tanto todos
actuaremos guiados por la certeza de que algo ha pasado.

Y qu diferencia este caso del caso de los piratas o de las piscinas? Lo primero es el sentido
comn, que nos dice que es posible que unos yogures se envenenen, pero que es mucho ms
difcil que el noble oficio de la piratera afecte al clima. Lo segundo es la correlacin en s. Tenemos
que tener en cuenta que no todas las correlaciones son iguales y que a partir de ellas podemos
sacar muchas conclusiones. La correlacin no es una magnitud dicotmica. No es algo que se
tiene o no se tiene, es algo que puede ser muy grande o muy pequeo.

Volviendo al escabroso ejemplo de los yogures. Adems de saber que hay una correlacin,
podemos estimar qu probabilidad hay de que ocurra algo as por casualidad. Imaginad que vemos
en la noticia que un 0,1% de la poblacin espaola consumi el citado yogur el da en cuestin.
Eso hace unos 460.000 espaoles muertos en un da. Este dato contrastara con la mortalidad en
todo el ao 2014, que fue de 395.830 personas (segn datos del INE). Ya, el que ocurra algo as es
absolutamente improbable. De hecho, es lo que se suele denominar, estadsticamente imposible.
Calcular la probabilidad de que esto ocurra requiere hacer suposiciones sobre cmo se distribuye
la mortalidad entre la poblacin, las edades de los consumidores de yogur y otros parmetros. Una
estimacin muy conservadora me da el resultado de que la probabilidad es menor que una entre
10^25. Es ms probable encontrar algo de principio activo en una disolucin homeoptica a que
ocurra algo semejante por pura casualidad. Por eso podemos concluir que algo ha ocurrido,
aunque an no hayamos analizado los yogures.

Y qu ocurre entonces con las piscinas y las pelculas de Nicolas Cage? Pues ocurre
simplemente que ah la correlacin no es tan grande. Ese es el quid de la cuestin y el mensaje
que me gustara que os quedase despus de leer este artculo. Correlacin no implica causalidad,
es cierto, pero hay correlaciones ms grandes que otras.Como ya hemos dicho, la correlacin no
es una magnitud binaria. No es tan simple como que exista o no exista. Hay correlaciones
pequeas como la de las pelculas de Cage, y hay correlaciones muy grandes como la del macabro
ejemplo del yogur. En el ejemplo de las piscinas, la misma web que lo dio a conocer calcula la
probabilidad de que sea azar, un 33,4%. Por supuesto ah tambin hay suposiciones detrs, pero la
manera de calcularlo es bastante estndar. Es un 33,4% una probabilidad muy baja? Pues
depender de para qu. Si tenemos en cuenta que los autores de la web analizan cientos de miles
de cadenas de datos, lo improbable sera que no encontrasen ese tipo de correlaciones espurias.
Simplemente analizando el nmero de cadenas estudiadas y las correlaciones encontradas se
puede calcular la probabilidad de que sea puro azar o de que pueda tener una causa ms
relevante.

A esto precisamente se dedican algunos analistas especializados en big data. Analizan cantidades
ingentes de datos y buscan correlaciones que nadie espera. Despus, se dedican a analizar la
probabilidad de que sea azar o no, y si no parece serlo lo analizan con ms profundidad. Puede
que dos eventos en apariencia desconectados tengan una relacin causal demasiado difcil de
apreciar a simple vista. Si encuentras este tipo de correlaciones, puedes llegar a ganar mucho
dinero al ser capaz de predecir movimientos de los mercados que nadie ms puede ver.

Nadie duda de que la correlacin no implica causalidad. Cientficos de todos los campos dedican
cantidades ingentes de tiempo a repetir experimentos para distinguir correlaciones importantes de
correlaciones espurias. Incluso se ha observado que muchos experimentos cientficos con grandes
correlaciones tienen una probabilidad alta de ser puramente casuales. Eso ocurre porque en el
mundo se realizan muchos experimentos continuamente. La probabilidad de que nunca se d una
correlacin espuria es realmente baja y son precisamente las correlaciones inesperadas las que
ms interesan a la comunidad cientfica. El nico remedio para evitar esto es la repeticin de los
experimentos. Sin embargo, todo esto no quiere decir que las correlaciones no tenga relevancia, o
que no sean indicativas de causalidad. Tenemos que saber distinguir entre correlaciones ms y
menos probables. Tenemos que analizar cada caso cuantitativamente y averiguar cul es la
probabilidad de que un evento sea aleatorio para saber si debemos indagar ms o no.

Si nos molestamos en mirar los datos antes de aceptarlos o desecharlos, aumentaremos nuestro
conocimiento del mundo. Si nos limitamos a desdear los datos que contradigan nuestras ideas
preconcebidas con una frase hecha, a lo ms que podemos aspirar es a ser el ms listo de
Mename. Lo primero es deseable. Lo segundo no es algo que uno deba incluir en su currculum.

Vous aimerez peut-être aussi