Vous êtes sur la page 1sur 9

See

discussions, stats, and author profiles for this publication at: https://www.researchgate.net/publication/277275387

Diferencias estadsticamente significativas vs.


relevancia clnica

Article January 2008

CITATIONS READS

0 21

1 author:

Mauricio Barrera
University of Antioquia
28 PUBLICATIONS 24 CITATIONS

SEE PROFILE

All content following this page was uploaded by Mauricio Barrera on 13 July 2015.

The user has requested enhancement of the downloaded file. All in-text references underlined in blue are added to the original document
and are linked to publications on ResearchGate, letting you access and read them immediately.
Artculo de Opinin















Diferencias estadsticamente





significativas vs. relevancia clnica





Statistically significant differences vs. clinical relevance





MAURICIO BARRERA VALENCIA1


Forma de citar: Barrera M. Diferencias estadsticamente significativas vs. relevancia clnica: Rev CES Med 2008; 22 (1): 89-96





RESUMEN


n este artculo se hace una revisin de los peligros que conlleva el uso del trmino significacin

estadstica y la importancia de analizar la magnitud de las diferencias que se encuentran al


final de los estudios de investigacin. Para ello, se hace una presentacin del concepto de significacin

estadstica, los errores tipo I y tipo II y del concepto de relevancia clnica. Asimismo, se discute el uso

de otro tipo de medidas como son los intervalos de confianza. Finalmente se presentan, a manera de

conclusin, dos ideas bsicas: la primera tiene que ver con la importancia de identificar la prueba

estadstica que mejor se ajuste al estudio para rechazar o aceptar la hiptesis nula y la necesidad de

establecer si la magnitud de las diferencias obtenidas tienen alguna importancia desde el punto de

vista clnico.




PALABRAS CLAVE




Significacin estadstica

Valor p


Intervalos de confianza

Investigacin





1
MSc. Profesor Universidad de Antioquia. E mail: maobarrera@une.net.co


Recibido: 22 noviembre / 2007. Revisado: 24 febrero / 2007. Aceptado: 7 abril / 2007


Revista CES MEDICINA Volumen 22 No.1 Enero - Junio / 2008

89
SUMMARY rechazar la hiptesis nula, si el valor de p es ms



grande (1).




This article reviews the potential hazards of using Desde entonces, y particularmente en los ltimos


the term statistical significance as well as the


treinta aos, el uso de la prueba de hiptesis en


importance of analyzing size effects of differences las revistas de ciencias de la salud se ha



found at the research reports articles. Thus, this incrementado enormemente, buscando dar un


article presents a review of concepts like statistical


soporte ms objetivo a las conclusiones que


significance, type I and type II errors, and clinical


sacan los investigadores de sus estudios. Sin


relevance. Similarly, a discussion regarding other embargo, una consecuencia desafortunada de



statistical measures, such as confidence intervals, este auge ha sido el nfasis que se le ha otorgado


is presented. At last, two ideas are presented as


al resultado en trminos del valor obtenido,


main conclusions of this analysis: the first deals olvidando el significado clnico que se desprende



with the importance of identifying the best de este resultado. As, en esta prueba, los datos



statistical tests to either accept or reject the null se examinan con relacin a una hiptesis


hypothesis in a research study. The second idea estadstica nula, prctica que ha llevado a la



highlights the need of clarifying the clinical creencia errnea de que el objetivo de los


relevance of differences size effect.
estudios debe ser obtener una significacin
estadstica, cuando en realidad el objetivo de la

mayor parte de las investigaciones en ciencias



KEY WORDS de la salud, es determinar la magnitud de algn



factor, evento o relacin objeto de estudio (2).



Statistical significance

Al respecto Fleiss afirma: Es indudable que tanto



p value en epidemiologa como en otras disciplinas se


ha abusado de las pruebas de significacin: las


Confidence intervals

asociaciones o diferencias estadsticamente



Research significativas se han considerado, errneamente,


equivalentes a asociaciones o diferencias



importantes, y las asociaciones o diferencias


Las pruebas de significacin, tal y como


estadsticamente no significativas se han


usualmente se usan en la actualidad, surgieron


considerado, tambin errneamente, iguales a

de la fusin de dos mtodos: uno desarrollado


cero. Y ms adelante concluye: la inferencia


por Fisher en los aos veinte, que permita valorar


apropiada que puede hacerse a partir de un


el grado de incompatibilidad de los datos con resultado estadsticamente significativo es que



una hiptesis y el otro formulado por Neyman y se ha comprobado una asociacin o diferencia

Pearson, en los aos treinta, que se basaba en la


distinta de cero; no tiene por qu ser necesariamente


eleccin entre dos hiptesis. A mediados de los intensa, de tamao considerable o importante;

aos cuarenta, los dos mtodos se unen, en un simplemente es distinta de cero (3).

intento por conciliar estas perspectivas


originalmente contrapuestas y dan lugar a la Un aspecto, que hace ms complejo el tema es



prueba estadstica de hiptesis que actualmente el hecho de que, al estar hablando en trminos

se conoce. El mtodo toma de Fisher su valor p de probabilidades (de hecho por esa razn se

para ser usado como un ndice que mide la fuerza


emplean las herramientas de la estadstica) las


de la evidencia y de Neyman y Pearson, el posibilidades de encontrar en un estudio una



propsito de adoptar una decisin consistente diferencia estadsticamente significativa se



en rechazar la hiptesis nula si el valor de p es aumentan a medida que aumentan el nmero de


pequeo (normalmente, cuando p<0.05) y en no comparaciones.



Revista CES MEDICINA Volumen 22 No.1 Enero - Junio / 2008

90
Para comprender ms claramente lo expuesto probabilidad de que salga sello es de 0,5 y la



hasta aqu, vale la pena revisar los conceptos de probabilidad de que salga cara es de 0,5. Si se



nivel de significancia estadstica y los errores lanza un dado, la probabilidad de obtener


tipo I y II. cualquiera de sus lados es de 1/6= 0.1667. En



ambos casos la suma de las posibilidades siempre



En general las pruebas de significacin es igual a 1 (6).



estadstica, se aplican usualmente en estudios


analticos que buscan identificar asociaciones Con base en este concepto de probabilidad, el



causales entre la exposicin a factores de riesgo investigador elige de manera arbitraria qu tanto



y la presencia de eventos mrbidos. Se debe error est dispuesto a aceptar en los resultados


advertir claramente que el establecimiento de una de su estudio. Esa eleccin le permite al



asociacin se fundamenta en la deteccin de una investigador decidir si sus resultados son vlidos



diferencia, y que la obtencin de esta diferencia o no, an sabiendo que siempre existir la



entre los grupos comparados puede ser, en posibilidad de equivocarse en su decisin. En


principio, el resultado del simple azar, y no como otras palabras, siempre existe la posibilidad de



la expresin de una diferencia real existente entre realizar una investigacin cuyos resultados


los grupos comparados (4).

sealan una diferencia, cuando realmente dicha
diferencia no existe. Por tradicin se han

Ahora bien, dado que es virtualmente imposible aceptado generalmente los valores de 0,05 o 0,01

obtener resultados con un 100% de certeza, el (lo que conlleva a tener una seguridad de acierto

investigador de forma a priori, define un valor de del 95 o 99% respectivamente). Este es el valor

certeza con el cual aspira obtener resultados que se denomina valor p y su interpretacin

confiables de su estudio. Este valor seleccionado puede ser expresada en trminos generales del

es lo que se conoce como nivel de significancia y siguiente modo un resultado que es significativo

hace referencia a la probabilidad de obtener en al nivel de 0.05 puede ocurrir por azar no ms de

un estudio un valor tan extremo como el 5 veces en 100 ensayos (7).


realmente observado si la hiptesis nula fuera



cierta (5). Para clarificar mejor este punto, es Sin embargo, as como es posible confirmar la

conveniente explicar el concepto de hiptesis alterna con base en los resultados



probabilidad, mediante un ejemplo dado por obtenidos siendo esta falsa, tambin es posible

Wiersman (citado por Hernndez y col): rechazar dicha hiptesis (es decir aceptar la

hiptesis nula) cuando en realidad era verdadera.



La probabilidad de que un evento ocurra oscilar A esta particularidad es a lo que se le denomina



entre 0 y 1, donde 0 significa la imposibilidad de error tipo I y error tipo II, respectivamente (para

ocurrencia y 1 la certeza de que ocurra el una presentacin ms detallada ver tabla 1)



fenmeno. Al lanzar al aire una moneda, la (8, 9).






Tabla 1. RESULTADOS POSIBLES DE UN ESTUDIO




VERDAD EN LA POBLACIN

RESULTADO DE
UN ESTUDIO

La Hiptesis Nula es La Hiptesis Alterna



Correcta es Correcta

Se confirma Hiptesis Nula Verdadero negativo Error tipo II o falso negativo



Se confirma Hiptesis Alterna Error tipo I o falso positivo Verdadero positivo





Revista CES MEDICINA Volumen 22 No.1 Enero - Junio / 2008

91
Para evitar alguno de estos errores, los real pueden ser estadsticamente significativas



investigadores concentran sus esfuerzos en cuando el tamao de la muestra es grande,



seleccionar adecuadamente la muestra, controlar mientras que efectos clnicamente importantes


aquellas variables que puedan afectar los pueden no ser estadsticamente significativos



resultados de sus mediciones, emplear solo porque el nmero de sujetos estudiados fue



instrumentos vlidos y confiables para medir la escaso.



variable de inters y seleccionar un diseo de la


investigacin que pueda dar respuesta a las Otro aspecto, tiene que ver con el juicio que hace



preguntas de investigacin que se formulan. Es el investigador de sus resultados. An aceptando



por estas razones que el concepto de nivel de que al comparar los valores de las medidas, estas



significancia estadstica es tan importante para arrojen una diferencia estadsticamente


el estudio, pues de alguna manera brinda la significativa, pocas veces el investigador se



confianza necesaria al investigador de que sus preocupa por evaluar el tamao de dicha



resultados no son producto del azar. diferencia. Dicho de otra forma, el investigador



concentra todos sus esfuerzos en evitar


Desafortunadamente, esta forma de proceder no resultados productos del azar, pero olvida analizar


es infalible y puede dar lugar a conclusiones si dichos resultados tienen alguna relevancia

errneas. La objecin ms importante a este clnica.



mtodo proviene precisamente de la naturaleza


de los valores p, ya que el rechazo o la aceptacin De acuerdo a Fernndez y Daz (11) y Coolican

de una hiptesis resulta ser en la mayora de los (12), la relevancia clnica de un fenmeno va ms

casos, fruto del tamao de la muestra. Al all de clculos aritmticos y est determinada

respecto, Silva y Benavides sostienen: por el juicio clnico. La relevancia depende de la


magnitud de la diferencia, la gravedad del



...El rechazo o la aceptacin de una hiptesis problema a investigar, la vulnerabilidad, la



resulta ser, simplemente, un reflejo del tamao morbimortalidad generada por el mismo, su coste

de la muestra: si esta es suficientemente grande, y por su frecuencia entre otros elementos.


siempre se rechazar la hiptesis nula. Esto nos



coloca en una aparente paradoja: cuando En este sentido Sarria y Silva plantean que A

operamos con una parte muy pequea de la menudo se olvida que el anlisis estadstico es

realidad (una muestra muy pequea), entonces solo un elemento ms que ha de sumarse al

no podemos obtener, conclusin alguna, como arsenal de conocimientos cientficos e



es lgico e intuitivo, lo cual conduce a que informacin aportada por estudios anteriores

muchos investigadores, cuyos resultados no para configurar una conclusin. En consecuencia,



alcanzan la esperada significacin estadstica, se comenten muchos errores, tales como


proclaman que con un tamao de muestra mayor convertir en una conclusin algo que no pasa de

casi seguramente lo hubieran logrado. ser un resultado. En este contexto, resulta



Lamentablemente y esto es lo realmente grave, bastante frecuente el uso incorrecto de la palabra



tienen razn; pero eso significa que tampoco se significativo (o sus derivados) para referirse a un

puede sacar nada en claro cuando se trabaja con resultado importante (13). En otras palabras: a

una muestra muy grande, puesto que en tal caso pesar de que el resultado de la prueba de

el rechazo de la hiptesis nula queda virtualmente hiptesis puede arrojar como resultado el rechazo

asegurado (10). de la hiptesis nula, al indicar que existe una



diferencia en los parmetros poblacionales de


Por esta razn, autores como Gardner y Altman, inters, esta conclusin no siempre representa

(2) afirman que pequeas diferencias sin inters el mismo significado en la prctica. En algunas

Revista CES MEDICINA Volumen 22 No.1 Enero - Junio / 2008

92
ocasiones se puede encontrar que una diferencia establecer los efectos ocasionados luego de un



estadsticamente significativa no representa una accidente cerebro vascular (ACV) de la arterial



diferencia de magnitud relevante de acuerdo a la cerebral anterior, sobre la capacidad de inhibicin


naturaleza del problema que se ha definido para de respuestas automticas de los pacientes,



el estudio. As, la magnitud de la diferencia luego de dos semanas del evento. Para ello, se



clnicamente significativa la establece el toma un grupo de pacientes con ACV (n=20) de



investigador basndose en mltiples factores la arteria cerebral anterior (grupo 1), otro grupo


como la gravedad del problema que se va a de pacientes con ACV (n=18) en la arteria



investigar, morbimortalidad asociada con el cerebral media o posterior (grupo 2) y un grupo



fenmeno, los costos que conlleva la control (n=22) sin antecedentes de dao cerebral


implementacin de nuevos tratamientos o la (grupo 3). Los grupos se equiparan en las variables



presentacin de efectos secundarios (14, 15). de edad, sexo, nivel educativo y estrato



socioeconmico. Para la evaluacin se incluye la



Para ilustrar lo expuesto hasta aqu, supngase prueba del Stroop y los resultados se resumen


un estudio hipottico en el cual se pretende en la tabla 2.

Tabla 2. DATOS DE EJEMPLO DE DOS GRUPOS CON ACV Y UN GRUPO



CONTROL EN LA PRUEBA DEL STROOP




Variable Grupo 1 Grupo 2 Grupo 3 Valor



Me Me Me p*<0.05

Ds Ds Ds

Errores ensayo 1 0.42 0.53 0.21 0.62


0.8 0.5 0.3




Tiempo ensayo 1 18.3 19.5 15.6 0.41


0.76 1.02 0.56




Errores ensayo 2 0.62 1.14 0.23 0.26


0.45 1.26 0.35



Tiempo ensayo 2 21.5 22.7 19.1 0.51



2.11 1.14 0.98



Errores fase de conflicto 8.5 7.9 7.7 0.03



3.56 2.28 1.18



Tiempo fase de conflicto 32.5 33.2 31.9 0.02



5.65 4.48 3.15




* Prueba de Kruskall Wallis





el investigador es: Clnicamente estas diferen-


Los valores de p que aparecen en negrita, infor-


man de un resultado significativo. Sin embargo, cias en el nmero de errores y en el tiempo son

al observar las medias y las desviaciones estndar, significativas o representan una diferencia real?

los valores sealan diferencias de menos de un Como puede verse, para responder a este inte-

rrogante no basta con establecer la magnitud


error entre los grupos y de menos de un segundo


en el tiempo empleado por los tres grupos. La estadstica del evento; es necesario apelar a la

pregunta que a continuacin deber plantearse experiencia del investigador con el instrumento

Revista CES MEDICINA Volumen 22 No.1 Enero - Junio / 2008

93
de medida y a los resultados obtenidos por otros punto de vista clnico. Solo as ser factible



estudios similares, entre otros aspectos, para disminuir la posibilidad de encontrar asociaciones


estadsticamente posibles pero conceptualmente


poder, ah si, determinar si el valor obtenido me-


rece ser tenido en cuenta (para una revisin de estriles (9).



algunos ejemplos adicionales en relacin con el



tema consultar a Sarria y Silva) (13). Una sugerencia til consiste en utilizar adems


del valor p otro tipo de medida como los



Todo esto, ha originado una seria controversia intervalos de confianza (22) los cuales pueden



alrededor de la conveniencia o no de indicar la facilitar la distincin entre significacin



relevancia de los resultados en trminos del valor estadstica y significacin clnica. En la figura 1


p. (16, 17) e incluso se ha planteado el uso de se ilustran cinco interpretaciones posibles de una



otras medidas que puedan ser ms tiles para prueba de significacin en trminos del intervalo



interpretar los resultados de un estudio como son de confianza de una diferencia entre dos grupos



la estimacin y los intervalos de confianza (18). que pudiera eventualmente ser til para el


En esta lnea revistas como Lancet, British Journal investigador en el anlisis de sus datos:



of Medicine o New England Journal of Medicine



han sugerido el uso de medidas diversas al valor
Figura 1. PRUEBA DE SIGNIFICANCIA
de p (19) y la American Psychological Association

recomienda el uso de medidas como los


Intervalos de confianza que muestran las cinco interpretaciones


intervalos de confianza, que den cuenta de los


posibles en trminos de significacin estadstica e importancia clnica


efectos de tamao de las diferencias encontradas (a) La diferencia es significativa y con seguridad, suficientemente grande

para tener importancia clnica; (b) La diferencia es significativa, pero


(20), dejando en libertad al autor de una

no est claro si es suficientemente grande para ser clnicamente


publicacin de usar o no el valor p en sus anlisis importante; (c) La diferencia es significativa, pero demasiado pequea

(21). para ser importante; (d) La diferencia no es estadsticamente


significativa pero puede ser suficientemente grande para ser


importante; (e) La diferencia no es significativa ni tampoco lo bastante


No obstante, es necesario sealar que existen grande para ser clnicamente importante. (22)

diseos experimentales que justifican



plenamente el uso del valor p y por tanto hay


Diferencia

autores como Fleiss (3) que critican fuertemente



la posicin extrema de abolir por completo su



uso.

Importante

A manera de conclusin se plantean dos ideas



que pueden contribuir a la mejor comprensin


Hiptesis

de los resultados que se obtienen en un estudio:


Nula

en primer lugar, est la importancia de seleccionar



(a) (b) (c) (d) (e)


con la misma dedicacin y empeo con la que se

Significativo No Significativo

plantea aspectos como el tamao muestral o el


Definitivamente Posiblemente No No Resultado


diseo de la investigacin, la prueba que se ajuste

Importante Importante Importante Concluyente Negativo


verdadero
de mejor forma a la naturaleza de los datos para

aceptar o rechazar la hiptesis nula.



REFERENCIAS

En segundo lugar, se hace necesario, una vez



obtenidos los resultados, no solamente identificar



si las diferencias son producto o no del azar, sino 1. Benavidez, A y Silva, L.C. Contra la sumisin

adems establecer si la magnitud de dichas estadstica: un apunte sobre las pruebas de



diferencias posee alguna importancia desde el significacin Metas. 2000 27: 35-40.

Revista CES MEDICINA Volumen 22 No.1 Enero - Junio / 2008

94
2. Gardner, M.J. y Altman, D. G.) Confidence 11. Fernndez, P. y Daz, P. Significancia estads-



intervals rather than P values: estimation tica y relevancia clnica Cadena de Atencin



rather than hypothesis testing British Medical Primaria. 2001; 8: 191-195.



Journal. 1986; 292: 746-750.


12. Coolican, H. Mtodos de Investigacin en



3. Fleiss, J.L. Las pruebas de significacin tie- Psicologa 3 ed. Mexico: Manual Moderno



2005.
nen una funcin en la investigacin



epidemiolgica: Respuesta a M. Wlaker Bole-


13. Sarria, M y Silva, L.C. Las Pruebas de Signifi-


tn Sanitario de Panam. 1993; 2: 115.


cacin estadstica en tres revistas biomdi-


cas: una revisin crtica Revista Panamerica-



4. Londoo, J.L. Metodologa de la Investiga- na de Salud Pblica. 2004; 15 (5): 300 305.



cin Epidemiolgica (3 ed) Manual Moder-



no Bogot, Colombia 2004. 14. Gil, J.F. Una Mirada al Valor de p en Investiga-


cin Revista Colombiana de Psiquiatra. 2005;



5. Smith, Peter G & Morrow, Richard H. Ensa- 34 (3): 414 424.


yos de campo de intervenciones en salud en

pases en desarrollo. 2 edicin. OPS, 1998 15. Schatz, P. Jay, K.A. McComb, J. McLaughlin,

J.R. Misuse of Statistical Test in Archives of


256-257.

Clinical Neuropsychology publications Archi-



ves of Clinical Neuropsychology. 2005; 20:


6. Hernndez, R. Fernndez, C. y Baptista, P.


1053 1059.

Metodologa de la Investigacin 3 ed. Mc


Graw Hill Mexico D.F. Mexico 2003.


16. Wilhelmus, K.R. Beyond the P: posible



insignificance of de nonsignificant P value


7. Kerlinger F.N. y Lee, HB Investigacin del


Journal of cataract Refract Surgeon. 2004;


Comportamiento: Mtodos de Investigacin 30:2425-2426.



en Ciencias Sociales 4 ed. Mc Graw Hill Mxi-



co 2001. 17. Wilhelmus, K.R. Beyond the P: precluding a



puddle of p values Journal of cataract Refract


8. Prez, A. Gmez, C. Snchez, R. Dennis, R. Surgeon. 2004; 30: 2207-2208.



Ruiz, A. Seleccin de la muestra y factores



determinantes para el clculo de su tamao 18. Castaeda, J y Gil. J.F. Una mirada a los inter-

En Investigacin Clnica: Epidemiologa Cl- valos de confianza en investigacin Revista


Colombiana de Psiquiatra. 2004; 33:(2) 193 201.


nica Aplicada Ruiz, A. Gmez, C y Londoo



D. Editores Centro Editorial Javeriano Bogo-


19. Fidler, F. Cumming, G. Burgman, M y Neil, T.


t Colombia 2001 p. 412 -443.


Statistical reform in medicine, psychology


and ecology The Journal of socio-Economics.


9. Siegel, S. Estadstica no Paramtrica Mxi-


2004; 33: 615 630.


co: Trillas; 1974



20. Cumming, G. Fidler, F, Leonrard, M. Kalinows-



10. Silva. L.C. y Benavides, A. Apuntes sobre ki, P. Chistiansen, A. Kleinig, A. Lo, J. Mcnena-

subjetividad y estadstica en la investigacin min, N. y Wilson, S. Statistical Reform in



en salud Revista Cubana de Salud Pblica. Psychology Psychological Science. 2007;18


(3): 230 232.


2003; 29 (2):170 173.



Revista CES MEDICINA Volumen 22 No.1 Enero - Junio / 2008

95
21. American Psychological Association Manual 22. Armitage, P y Berry, G. Estadstica para la In-



de Estilo de Publicaciones 2 ed. Manual vestigacin Biomdica 3 Ed. Harcourt Brace



Moderno. 2002. Mexico. 1997. Madrid Espaa.

Revista CES MEDICINA Volumen 22 No.1 Enero - Junio / 2008

96
View publication stats

Vous aimerez peut-être aussi