Vous êtes sur la page 1sur 4

1.

"No" no es suficiente
Algunos de ustedes que exploran este número especial de The American Statistician pueden
preguntarse si es una reprimenda de los estadísticos pedantes que le enseñan qué no hacer con
los valores de p, sin ofrecer ideas reales sobre qué hacer con el difícil problema de separar la
señal. Del ruido en los datos y la toma de decisiones bajo incertidumbre. No temas. En este
número, gracias a 43 artículos innovadores y estimulantes de estadísticos con visión de futuro, la
ayuda está en camino. No hay mucho que podamos decir aquí sobre los peligros de los valores de
p y las pruebas de significación que no se han dicho durante décadas (Ziliak y McCloskey 2008;
Hubbard 2016). Si está llegando al debate, aquí hay una muestra de qué no hacer:

• No base sus conclusiones únicamente en si una asociación

o se encontró que el efecto era "estadísticamente significativo" (es decir, el valor de p pasó un
umbral arbitrario, como p <0.05).

• No creas que existe una asociación o efecto solo porque fue estadísticamente significativo.

• No creas que una asociación o efecto está ausente simplemente porque no fue estadísticamente
significativo.

• No crea que su valor de p da la probabilidad de que solo el azar produzca la asociación o el


efecto observados o la probabilidad de que su hipótesis de prueba sea verdadera.

• No concluya nada sobre la importancia científica o práctica basada en la significación estadística


(o la falta de ella).

No lo hagas No lo hagas Solo ... no. Sí, hablamos mucho sobre no hacer. La Declaración de ASA
sobre los valores de p y el significado estadístico (Wasserstein y Lazar 2016) se desarrolló
principalmente porque, después de décadas, las advertencias sobre lo que no se hizo fueron
ignoradas. La declaración fue sobre lo que no se debe hacer, porque existe un acuerdo
generalizado sobre el tema. no hacer

Saber qué no hacer con los valores de p es ciertamente necesario, pero no es suficiente. Es como
si los estadísticos pidieran a los usuarios de estadísticas que arrancaran las vigas y los puntales que
sostienen el edificio de la investigación científica moderna sin ofrecer materiales de construcción
sólidos para reemplazarlos. Destacar las maderas viejas y podridas fue un buen comienzo, pero
ahora necesitamos más.

Reconociendo esto, en octubre de 2017, la American Statistical Association (ASA) celebró el


Simposio sobre Inferencia Estadística, una reunión de dos días que sentó las bases de este número
especial de The American Statistician. Los autores recibieron instrucciones explícitas para
desarrollar artículos para la variedad de audiencias interesadas en estos temas. Si utiliza
estadísticas en investigación, negocios o formulación de políticas, pero no es un estadístico, estos
artículos se escribieron pensando en USTED. Y si eres un estadístico, todavía hay mucho aquí para
ti.
Los documentos en este número proponen muchas ideas nuevas, ideas que, en nuestra
determinación como editores, merecían publicación para permitir una mayor consideración y
debate. Las ideas en este editorial están igualmente abiertas a debate. Son nuestro propio intento
de destilar la sabiduría de las muchas voces en este tema en una esencia de buena práctica
estadística como lo vemos actualmente: algunos lo hacen para enseñar, investigar e informar
decisiones.

Sin embargo, las voces en los 43 artículos en este número no cantan como uno solo. A veces, en
este editorial y en los periódicos, se escuchará una profunda disonancia, los ecos de las "guerras
de estadísticas" aún hoy a fuego lento (Mayo de 2018). En otras ocasiones, escuchará melodías
envueltas en un rico contrapunto que puede anunciar una nueva era de estadísticas cada vez más
armoniosa. Para nosotros, estos son todos los sonidos de la inferencia estadística en el siglo XXI,
los sonidos de un mundo aprendiendo a aventurarse más allá de "p <0.05".

Este es un mundo donde los investigadores tienen la libertad de tratar "p = 0.051" y "p = 0.049"
como no categóricamente diferentes, donde los autores ya no se ven obligados a publicar sus
resultados de forma selectiva basándose en un solo número mágico. En este mundo, donde los
estudios con "p <0.05" y los estudios con "p> 0.05" no están automáticamente en conflicto, los
investigadores verán sus resultados más fácilmente replicados, e incluso cuando no, entenderán
mejor por qué. A medida que nos aventuremos por este camino, comenzaremos a ver menos
falsas alarmas, menos descubrimientos pasados por alto y el desarrollo de estrategias estadísticas
más personalizadas. Los investigadores tendrán la libertad de comunicar todos sus hallazgos en
toda su gloriosa incertidumbre, sabiendo que su trabajo debe ser juzgado por la calidad y la
comunicación efectiva de su ciencia, y no por sus valores p. Como la "significación estadística" se
usa menos, el pensamiento estadístico se usará más.

La Declaración de ASA sobre los valores de p y el significado estadístico comenzó a movernos hacia
este mundo. A la fecha de publicación de este número especial, la declaración se ha visto más de
294,000 veces y se ha citado más de 1700 veces, un promedio de aproximadamente 11 citas por
semana desde su publicación. Ahora debemos ir más allá. Eso es lo que este número especial de
The American Statistician se propone hacer.

2. No digas "estadísticamente significativo"

La Declaración de ASA sobre los valores de p y el significado estadístico no llegó a recomendar que
se abandonen las declaraciones de "significación estadística". Damos ese paso aquí. Concluimos,
basándonos en nuestra revisión de los artículos en este número especial y en la literatura más
amplia, que es hora de dejar de usar el término "estadísticamente significativo" por completo. Las
variantes como "significativamente diferente", "p <0.05" y "no significativa" deben sobrevivir, ya
sea expresadas en palabras, asteriscos en una tabla o de alguna otra manera.

Independientemente de si alguna vez fue útil, una declaración de "significación estadística" hoy se
ha convertido en sin sentido. La intención original de Edgeworth (1885) de significancia estadística,
ampliamente conocida por el uso de la frase de Fisher (1925), fue simplemente una herramienta
para indicar cuándo un resultado merece un examen más detenido. Pero esa idea se ha perdido
irremediablemente. La significación estadística nunca tuvo la intención de implicar importancia
científica, y la confusión de los dos se condenó poco después de su uso generalizado (Boring
1919). Sin embargo, un siglo después, la confusión persiste. Y así, la herramienta se ha convertido
en el tirano. El problema no es simplemente el uso de la palabra "significativo", aunque los
significados estadísticos y en el lenguaje ordinario de la palabra en realidad ahora están confusos
sin remedio (Ghose 2013); el término debe ser evitado por esa sola razón. Sin embargo, el
problema es mayor: el uso de reglas de línea clara para justificar afirmaciones o conclusiones
científicas puede llevar a creencias erróneas y una toma de decisiones deficiente (declaración ASA,
Principio 3). Una etiqueta de significación estadística no agrega nada a lo que ya se transmite por
el valor de p; de hecho, esta dicotomización de los valores de p empeora las cosas.

Por ejemplo, ningún valor p puede revelar la plausibilidad, la presencia, la verdad o la importancia
de una asociación o efecto. Por lo tanto, una etiqueta de significación estadística no significa ni
implica que una asociación o efecto sea altamente probable, real, verdadero o importante. Una
etiqueta de no significación estadística tampoco hace que la asociación o el efecto sea improbable,
ausente, falso o sin importancia. Sin embargo, la dicotomización en "significativo" y "no
significativo" se toma como una impronta de autoridad en estas características. En un mundo sin
líneas brillantes, por otro lado, se vuelve insostenible afirmar diferencias dramáticas en la
interpretación a partir de diferencias intrascendentes en las estimaciones. Como Gelman y Stern
(2006) observaron, la diferencia entre "significativo" y "no significativo" no es estadísticamente
significativa. Además, esta división falsa en resultados "dignos" e "indignos" conduce a la
información y publicación selectiva de los resultados en función de su significación estadística, el
llamado "problema del archivador" (Rosenthal 1979). Y el problema de los informes dicotomizados
se extiende más allá de la simple publicación, señala Amrhein, Trafimow y Groenlandia (2019):
cuando los autores usan umbrales de valor p para seleccionar qué hallazgos analizar en sus
artículos, "sus conclusiones y lo que se informa en noticias y revisiones posteriores". estará
sesgada ... Tal atención selectiva basada en los resultados del estudio, por lo tanto, no solo
distorsionará la literatura, sino que sesgará las descripciones publicadas de los resultados del
estudio, sesgando las descripciones resumidas informadas a los profesionales en ejercicio y al
público en general ". Para la integridad de las publicaciones científicas y la divulgación de
investigaciones, por lo tanto, si un valor de p supera cualquier umbral arbitrario no debe
considerarse en absoluto al decidir qué resultados presentar o resaltar.

Para ser claros, el problema no es tener solo dos etiquetas. Los resultados no deben ser
tricotomizados, ni categorizados en ningún número de grupos, basados en umbrales de valor p
arbitrarios. De manera similar, debemos dejar de usar los intervalos de confianza como otra forma
de dicotomizar (en función de si un valor nulo cae dentro del intervalo). Y, para evitar una
reaparición de este problema en otros lugares, no debemos comenzar a categorizar
arbitrariamente otras medidas estadísticas (como los factores de Bayes). Sin embargo, a pesar de
las limitaciones de los valores de p (como se señala en los Principios 5 y 6 de la declaración de
ASA), no recomendamos que se descontinúen los cálculos y el uso de valores de p continuos.
Donde se usan los valores de p, deben reportarse como cantidades continuas (por ejemplo, p =
0.08). También deben describirse en un lenguaje que indique qué significa el valor en el contexto
científico. Creemos que un requisito previo razonable para informar cualquier valor de p es la
capacidad de interpretarlo adecuadamente. Nosotros

Para avanzar hacia un mundo más allá de "p <0.05", debemos reconocer de nuevo que la
inferencia estadística no es, y nunca ha sido, equivalente a la inferencia científica (Hubbard, Haig y
Parsa 2019; Ziliak 2019). Sin embargo, la búsqueda de significancia estadística para un marcador
de credibilidad de las observaciones científicas ha creado una forma de equivalencia. Ir más allá de
la "importancia estadística" abre a los investigadores a la importancia real de las estadísticas, que
es "la ciencia de aprender de los datos y de medir, controlar y comunicar la incertidumbre"
(Davidian y Louis, 2012). En resumen, "estadísticamente significativo": no lo digas y no lo uses

Vous aimerez peut-être aussi