Vous êtes sur la page 1sur 4

Uso y abuso de los datos estadsticos

Cuando el documento realizado por el ex senador George J. Mitchell revelaba que Roger Clemens y otros ms de ochenta jugadores de la Liga Profesional de Bisbol (Major Leage Baseball) haban consumido sustancias ilegales para mejorar su rendimiento, el galardonado lanzador hizo todo lo posible para limpiar su nombre. Adems de la declaracin de Clemens ante los legisladores del Capitolio, para demostrar su inocencia se adjunt un voluminoso informe basado en datos estadsticos realizado por su agente de marketing. Sin embargo, el artculo escrito por cuatro profesores de Wharton y publicado en New York Times el 10 de febrero defiende otra idea: la validez de cualquier tipo de anlisis estadstico es tan bueno como cualquiera de las partes que lo componen. Esta puntualizacin posiblemente adquiera relevancia a medida que las organizaciones y los individuos intenten buscar cierto sentido a la creciente complejidad de datos estadsticos. Hoy en da los consumidores de informacin se ahogan entre tanto dato, sostieneJustin Wolfers. Empresas, trabajadores, estado y dems generan terabytes de datos en su empeo por cuantificar todo. Existen diversos modos de pulir las interferencias en los datos fuente. Desafortunadamente tambin es posible introducir interferencias en los mismos. Por ejemplo, una cadena de establecimientos al por menor podra analizar sus operaciones durante cierto periodo de tiempo y descubrir que en aquellas ocasiones en las que rebaj sus artculos se produjo una cada en las ventas. Esto podra llevar a la conclusin de que la bajada en los precios ha provocado una reduccin en el volumen de ventas, dice Wolfers. Pero la verdadera relacin causal podra ser mucho ms compleja. Antes de aumentar los precios con el fin supuestamente- de incrementar las ventas, el minorista debera examinar algunas cuestiones adicionales para ver si en el periodo examinado la demanda en general haba estado influenciada por otros factores. Por ejemplo, tal vez histricamente la empresa pone sus productos en rebaja precisamente durante periodos flojos de ventas. En este caso es la cada en las ventas la que provoca la reduccin de los precios y no viceversa. Esto ilustra una dificultad fundamental inherente a los anlisis estadsticos en el mundo de la empresa, en las ciencias sociales y en otros mbitos, explica Wolfers. En general es mucho ms fcil aislar y descartar la informacin irrelevante cuando los investigadores trabajan con datos experimentales o cientficos, como por ejemplo datos mdicos, seala. En un contexto experimental, una empresa farmacutica puede aleatoriamente distribuir el medicamento a determinado grupo de sujetos y el placebo a otro grupo. Suponiendo que los investigadores han escogido aleatoriamente a las personas que toman el medicamento, es posible identificar aisladamente los efectos del medicamento y del placebo. Pero en un contexto empresarial eso no es tan fcil. En el ejemplo de la cadena de establecimientos al por menor, podra ser ms difcil aislar los efectos que se deben a otros factores, explica Wolfers. En cuanto a la modificacin de los precios de venta, sera necesario tener en cuenta la influencia de los das soleados versus los das de lluvia -o de los das en que hace calor y fro-, sobre el volumen de comercio y el comportamiento de los consumidores. En el caso Roger Clemens, Wolfers trabaj en colaboracin con los profesores de Estadstica Shane Jensen yAbraham Wyner, as como con el profesor de Marketing Eric Bradlow, para escribir un artculo titulado "Report Backing Clemens Chooses Its Facts Carefully" (El informe que respalda a Clemens elige cuidadosamente los hechos), que

se public en Times. En dicho artculo, los investigadores cuestionan la metodologa empleada por Hendrick Sports Management para apoyar la declaracin de Clemens desmintiendo el consumo de esteroides. El informe Clemens intenta disipar toda sombra de duda al compararlo con Nolan Ryan, el cual se retir en 1993 a los 46 aos de edad, se puede leer en el artculo. Con dicha comparacin Clemens no parece para nada un sujeto atpico: ambos jugadores disfrutaron del xito bien entrados en los cuarenta. Se pueden extraer conclusiones similares cuando se compara a Clemens con dos de sus contemporneos, Randy Johnson y Curt Schilling". No obstante, los investigadores de Wharton afirman que dichas comparaciones son incompletas. Si se compara a Clemens nicamente con aquellos que alcanzaron el xito en la segunda parte de sus carreras -en lugar de compararlo con todos los lanzadores que tuvieron un xito similar slo en la primera parte de las mismas-, se minimiza artificialmente la posibilidad de que los datos sobre Clemens parezcan poco habituales, escriben. Los estadsticos llaman a este problema sesgo de seleccin. Igual que, en un anlisis de comparacin de precios, un comercio minorista debe considerar un escenario futuro alternativo plausible sobre cul habra sido el nivel de ventas, los investigadores de Wharton sostienen que los resultados de Clemens deberan compararse con todos los lanzadores con largas carreras profesionales. Cuando se hace esto, la segunda parte de la carrera profesional de Clemens es inusual, escriben. La mayora de lanzadores mejoran rpidamente al principio de sus carreras, alcanzan su mximo a los 30 aos y luego lentamente entran en una fase de declive. Sin embargo, la carrera de Clemens empez su descenso cuando tena veintimuchos aos y posteriormente, bien entrados los cuarenta, protagoniz una sorprendente remontada. En cuanto a estadsticos contratados, existe cierta tendencia a elegir grupos de comparacin que favorezca las pretensiones de sus clientes, sealan los profesores de Wharton. Pero, qu ocurre cuando se hacen anlisis estadsticos sin la presin ejercida por determinado punto de vista? Anlisis financieros, econometra, auditora, produccin u operaciones son algunas de las reas donde se precisan datos sin sesgos para poder tomar buenas decisiones en un contexto de incertidumbre. Coca-Cola y los fondos de inversin Siempre van las cosas mejor con Coca-Cola? Esa parece ser la cuestin de fondo del juicio, en vas de convertirse en demanda legal colectiva, contra la campaa de marketing de Enviga, la bebida de t verde con cafena de la empresa Coca-Cola. Segn la demanda, presentada en el juzgado del distrito de Camdem, Nueva Jersey, la publicidad de Enviga sostiene que de hecho, quema ms caloras de las que proporciona, lo cual se traduce en caloras negativas. En la demanda se alega que esta afirmacin realizada por Coca-Cola se basa en el resumen de un nico e insignificante estudio de corto plazo financiado por CocaCola. Asimismo, se seala que los sujetos elegidos para llevar a cabo el ensayo clnico eran individuos relativamente delgados con ndices de masa corporal de 22; sin embargo, la amplia mayora de estadounidenses tienen sobrepeso o estn obesos, con ndices de masa corporal de ms de 25, y es ms que probable que no pierdan peso bebiendo Enviga. Un portavoz de Coca-Cola afirma que el estudio elaborado por la empresa y sus resultados son vlidos. Otro ejemplo de estadstica controvertida tiene que ver con un anuncio de los Fondos Dreyfus publicado en marzo en Wall Street Journal. La publicidad seala que su fondo de renta fija a medio plazo ha logrado cuatro estrellas en el ranking de Morningstar,

sostiene David Peterson, un asesor estadstico independiente que trabaja en Carolina del Norte que adems es miembro de la American Statistical Association. El anuncio fue muy cuidadoso al sealar que los resultados pasados no constituyen una promesa de resultados futuros, pero olvidaba mencionar que Dreyfus tiene al menos 19 fondos de inversin, explica Peterson. Naturalmente, en cualquier momento temporal el mejor de todos ellos es muy probable que sea extraordinariamente bueno; lo contrario tambin es cierto lo cual no se mencionaba en la publicidad-, incluso aunque todos y cada uno de los 19 fondos no contengan nada inusual. Bajo este mismo principio, una empresa farmacutica podra llevar a cabo 10 pruebas independientes sobre la efectividad de un nuevo medicamento y basar su publicidad nicamente en los resultados ms favorables. Falta de confianza y de comunicacin La posibilidad de cometer errores en un estudio inintencionadamente es tambin causa de preocupacin, sostiene Jensen. Incluso si se tiene cuidado eligiendo una buena muestra, existe la posibilidad de obtener resultados engaosos, seala. Un problema habitual es el data mining. Si alguien analiza una gran base de datos durante suficiente tiempo, posiblemente encuentre un efecto estadsticamente significativo o diferencia entre algunos grupos de variables. Desafortunadamente, explica Jensen, los investigadores a menudo simplemente slo informan sobre un nico resultado significativo sin admitir las numerosas pruebas no significativas realizadas antes de obtener dicho resultado. Segn Jensen, es necesaria una estricta supervisin de todo el proceso de pruebas para evaluar dichos resultados en perspectiva. Pero al menos existen dos fuerzas que suelen influir negativamente sobre la efectividad de los anlisis. La primera es una desconfianza en los anlisis estadsticos, y la segunda es una falta de dilogo entre los estadsticos tericos y los prcticos. De hecho, sostiene Jensen, muchos estudios de medicina, economa y ciencias sociales podran beneficiarse si entablasen conversacin con los estadsticos sobre el anlisis de los datos recogidos o sobre la propia recogida de los datos. Bradlow tambin muestra preocupacin sobre la interpretacin de los resultados estadsticos. Siempre digo a mis alumnos que las soluciones condicionadas por los datos no siempre proporcionan la respuesta correcta. Es ms, pueden indicarte qu respuestas se deben eliminar por no estar respaldadas por los datos. El verdadero valor de los anlisis estadsticos es que ayudan a sus usuarios a caracterizar adecuadamente la incertidumbre en lugar de hacer suposiciones; contribuyen a identificar qu resultados son estadsticamente significativos y a dar respuesta a hiptesis especficas. El tema clave es la representatividad, explica Bradlow en referencia al informe Roger Clemens. Los investigadores y usuarios deberan siempre estar preocupados por cmo se obtienen los datos y si representan una muestra aleatoria. En caso negativo se debe tener cuidado con las conclusiones que se extraigan. En opinin de Bradlow, incluso los investigadores sin agenda deben ser precavidos. A finales de los 90, cuando recogamos datos demogrficos en un cementerio de doscientos aos de antigedad, nos dimos cuenta de que, en comparacin con la gente enterrada haca muchos aos, aquellos que haban sido enterrados en fechas recientes haban fallecido por trmino medio a edades ms temp ranas. Los resultados de este estudio fueron publicados en un artculo titulado A Selection of Selection Anomalies

(Una seleccin de la seleccin de anomalas) publicado en la revista Chance. Es muy tentador llegar a la conclusin de que la mortalidad ha aumentado entre la gente ms joven, pero sera una conclusin errnea. Las muertes ms tempranas dependen del hecho de que, a medida que nos aproximbamos a las fechas en que Bradlow elaboraba el estudio, la muestra de gente que haba sido enterrada en ese cementerio tena ms probabilidad de incluir una cifra desproporcionada de personas que haban muerto jvenes simplemente por haber nacido en fechas ms cercanas. Para Wolfers, una de las claves para minimizar un mal uso de las estadsticas conlleva una plausibilidad intuitiva, esto es, comprender el enfoque adoptado por el investigador y la interaccin entre las fuerzas que intervienen. Es importante saber cules son los factores existentes detrs de cada variable, dice. Una vez determinadas los observadores comprendern todo mejor y establecern las relaciones de causalidad. Jensen pone otro ejemplo: Participo en un estudio que modeliza las habilidades en el campo de los jugadores exteriores -o outfielders- de la liga de bisbol profesional. Una hiptesis que se maneja en el estudio es que los outfielders tienen ms dificultades para atrapar la pelota si sta va a caer detrs de ellos lo cual les obliga a correr de espaldas- que en caso de que la pelota botase delante de ellos, en cuyo caso corren hacia delante. Pero los resultados indican justamente lo contrario. Para cualquier distancia, los outfielders suelen coger ms pelotas corriendo de espaldas. En un principio esto parece ir en contra de toda intuicin, explica Jensen. Pero empieza a tener sentido si tienes en cuenta el tiempo que la pelota permanece en el aire. Las pelotas que llegan ms lejos permanecen en el aire durante ms tiempo, de tal forma que los outfielders disponen de ms tiempo para correr y atraparlas, incluso si la pelota va a caer detrs de ellos. Este fue un caso interesante en el que los datos sirvieron para arrojar luz sobre un fallo cometido en nuestros primeros razonamientos.

Publicado el: 16/04/2008

Vous aimerez peut-être aussi