Vous êtes sur la page 1sur 14

Revista

Portuguesa de Investigao Comportamental e Social 2015, Vol. 1 (1): 3-16


Portuguese Journal of Behavioral and Social Research 2015, Vol. 1 (1): 3-16

Calcular e apresentar tamanhos do efeito em trabalhos cientficos (1): As limitaes do p


< 0,05 na anlise de diferenas de mdias de dois grupos
Calculating and reporting effect sizes on scientific papers (1): p < 0.05 limitations in the analysis of mean
differences of two groups
Artigo de Reviso | Revision Article

Helena Esprito-Santo, PhD (1a), Fernanda Daniel, PhD (1a)

(1) Instituto Superior Miguel Torga, Coimbra, Portugal.


(2) Instituto Superior Miguel Torga, Coimbra, Portugal.
(a) Elaborao do trabalho.

Autor para correspondncia | Corresponding author: Helena Esprito-Santo; Largo de Celas, 1, 3000-132 Coimbra, Portugal; +351 910637946; helenum@gmail.com.



R E S U M O

A Revista Portuguesa de Investigao Comportamental e Social exige que os autores sigam as recomendaes
Palavras-Chave
do Publication Manual of the American Psychological Association (APA, 2010) na apresentao da informao
Tamanho do efeito
Significncia estatstica estatstica. Uma das recomendaes da APA de que os tamanhos do efeito sejam apresentados associados
Valor p aos nveis de significncia estatstica. Uma vez que os valores de p decorrentes dos resultados dos testes
d de Cohen estatsticos no informam sobre a magnitude ou importncia de uma diferena, devem ento reportar-se os
g de Hedges tamanhos do efeito (TDE). De facto, os TDE do significado aos testes estatsticos, enfatizam o poder dos
Delta de Glass testes estatsticos, reduzem o risco de a mera variao amostral ser interpretada como relao real, podem
aumentar o relato de resultados no-significativos e permitem acumular conhecimento de vrios estudos
usando a meta-anlise.
Assim, os objetivos deste artigo so os de apresentar os limites do nvel de significncia; descrever os
fundamentos da apresentao dos TDE dos testes estatsticos para anlise de diferenas entre dois grupos;
apresentar as frmulas para calcular os TDE, fornecendo exemplos de estudos nossos; apresentar
procedimentos de clculo dos intervalos de confiana; fornecer as frmulas de converso para reviso da
literatura; indicar como interpretar os TDE; e ainda mostrar que, apesar de frequentemente ser interpretvel,
o significado (efeito pequeno, mdio ou grande para uma mtrica arbitrria) pode ser impreciso, havendo
necessidade de ser interpretado no contexto da rea de investigao e de variveis do mundo real.


A B S T R A C T

The Portuguese Journal of Behavioral and Social Research requires authors to follow the recommendations of
Keywords
the Publication Manual of the American Psychological Association (APA, 2010) in the presentation of statistical
Effect size
information. One of the APA recommendations is that effect sizes should be presented along with levels of
Statistical significance
p-value statistical significance. Since p-values from the results of the statistical tests do not indicate the magnitude or
importance of a difference, then effect sizes (ES) should reported. In fact, ES give meaning to statistical tests;
Cohens d
emphasize the power of statistical tests; reduce the risk of interpret mere sampling variation as real
Hedges g
relationship; can increase the reporting of non-significant"results, and allow the accumulation of knowledge
Glasss Delta
from several studies using meta-analysis.
Thus, the objectives of this paper are to present the limits of the significance level; describe the foundations of
presentation of ES of statistical tests to analyze differences between two groups; present the formulas to
calculate directly ES, providing examples of our own previous studies; show how to calculate confidence
intervals; provide the conversion formulas for the review of the literature; indicate how to interpret the ES;
and show that, although interpretable, the meaning (small, medium or large effect for an arbitrary metric)
could be inaccurate, requiring that interpretation should be made in the context of the research area and in
the context of real world variables.








Recebido | Received: 04/01/2015
Revisto | Reviewed: 01/02/2015
Aceite | Accepted: 10/02/2015 RPICS
Calcular e apresentar tamanhos do efeito em trabalhos cientficos
Esprito-Santo, H. & Daniel, F.

VISO GERAL Desde ento, a maioria dos investigadores


normalmente espera obter um valor de p suficientemente
O poder de um teste estatstico corresponde pequeno (i. e., p < ), para que possa rejeitar a hiptese
probabilidade de rejeitar corretamente a hiptese nula nula, aceitando a hiptese alternativa (Huberty, 1993).
(Cohen, 1992a, p. 98) e depende de trs aspetos, incluindo Estima-se que cerca de 90% dos artigos nas cincias sociais
o tamanho do efeito/TDE, o nvel de significncia e o empreguem este procedimento (Loftus, 1991),
tamanho da amostra (Cohen, 1988, p.4; Cohen, 1992a, p. independentemente se so testes t, anlises de varincia
98; Cohen, 1992b, pp. 99-100). No presente artigo ou estatsticas no-paramtricas, como os teste U de
abordaremos somente o nvel de significncia e o tamanho Mann-Whitney ou o teste de Kruskal-Wallis para anlise de
do efeito. varincia.

Crticas. O debate sobre a importncia do nvel de
Nvel de Significncia
significncia no novo (Cumming, 2012; Kirk, 1996;
O nvel de significncia corresponde evidncia de
Salsburg, 2002). Em 1900, Karl Pearson j afirmava que o
que o fenmeno existe ou ao risco de rejeitar
nvel de significncia no suficiente por si mesmo e desde
erradamente a hiptese nula (Cohen,1988; 1992b). Apesar
a dcada de 60 do sculo XX que se registam revises
de dominar a literatura cientfica, este parmetro no
sobre a questo fundadora do valor do p (p. e., Morrison e
autoriza a fazer qualquer afirmao sobre a probabilidade
Henkel 1970; Nickerson, 2000), incluindo tentativas para
matemtica de determinada hiptese (Fisher, 1959).
corrigir a situao (p. e., Giere, 1972; Trafimow, 2003),
Histria e definies. Quando, em 1925, Fisher propostas para estatsticas ou mtodos alternativos (p. e.,
defendeu o clculo do valor da probabilidade (p) da Carver, 1978; Loftus, 1996)ii ou mesmo ataque aos nveis
estatstica e Neyman e Pearson em 1933 apresentaram o de significncia (p. e., Cohen, 1994; Killeen, 2005).
conceito de nvel de significncia, ou alfa, todos estariam De facto, as crticas aos limites dos nveis de
longe de pensar que os seus conceitos iriam dominar a significncia esto a generalizar-se em vrias reas de
literatura cientfica. investigao, incluindo, por exemplo, a psicologia (Loftus,
Para Fisher (1925; 1959), o valor de p de um teste 1996; Wagenmakers, 2007), neurocincias (Hentschke e
estatstico mede a fora da Evidncia contra a Hiptese Stttgen, 2011), biologia (Nakagawa e Cuthill, 2007),
nula (p(E|H). O autor defendeu um valor de p inferior a medicina (Aickin, 2004; Snyder e Lawson, 1993), educao
0,05 como um valor suficientemente pequeno, mas no (Kirk, 1996; Olejnik e Algina, 2000), desporto (Thomas,
como uma regra de ouro. Salazar e Landers, 1991) ou o marketing (Fern e Monroe,
No mtodo de Neyman e Pearson, o valor de alfa 1996).
associa-se ao nvel de confiana com que o teste Importa, ento, referir algumas das limitaes do
estatstico permite rejeitar a hiptese nula (H0 = no h um
nvel de significncia. Note-se, primeiramente, que o teste
determinado resultado), tendo sido acordados os valor de significncia da hiptese nula assimtrico, pelo que s
fixos de 0,05 (i. e., os resultados so significativos, se podem reunir dados contra a hiptese nula, mas no em
havendo 5% de probabilidade de obter os dados se a H0 seu suporte. Assim, os valores de p acima de 0,05 no
fosse verdadeira)i, 0,01 (i. e., os resultados so altamente indicam a ausncia de um efeito (reviso de Ferguson,
significativos) ou 0,001 (i. e., os resultados so muito 2009; Hentschke e Stttgen, 2011; Loftus, 1996).
altamente significativos). Neste mtodo, h que Assinale-se tambm que, apesar de o valor do p
distinguir o erro do Tipo I (rejeio falsa de H0) e o erro do fornecer a probabilidade de se obter uma estatstica
Tipo II (manuteno falsa de H0). A probabilidade do erro significativa, ele no informa sobre a importncia clnica
do Tipo I alfa, e a probabilidade do erro do Tipo II beta. ou prtica dos resultados (Berben, Sereika e Engberg,
O poder o complemento de beta (1 - ), definindo-se 2012; Durlak, 2009; Jacobson e Truax, 1991; Kirk, 1996;
como a probabilidade de rejeitar corretamente a H0 Snyder e Lawson, 1993), sendo somente adequado se se
quando a hiptese alternativa verdadeira (H1 = h um explicitar o seu papel no suporte a uma teoria (Chow,
determinado resultado) (Cohen, 1992a; Kline, 2004). 1988). Na realidade, s se devia dizer que um p menor do
Mais tarde, Cohen (1992b, p. 99) sugeriu que um p que alfa quando a hiptese fosse colocada antes dos
inferior a 0,05 devia ser usado para estudos exploratrios dados serem recolhidos (Kline, 2004).
e que valores de alfa mais pequenos deviam ser usados O nvel de alfa tambm criticado pela sua
quando se testam vrias hipteses nulas. arbitrariedade (p. e., Kline, 2004), com Rosnow e
Rosenthal (1989, p. 1277) a escreverem ironicamente

4

Revista Portuguesa de Investigao Comportamental e Social 2015, Vol. 1 (1): 3-16
Portuguese Journal of Behavioral and Social Research 2015, Vol. 1 (1): 3-16

God loves the 0.06 nearly as much as the 0.05iii; com parte dos investigadores l o 0,05 como p(H|E), isto ,
Cochran, Moses e Mosteller (1983, p. 19) a afirmarem "no como a probabilidade de a Hiptese ser verdadeira, dada a
strong logical reason lies behind this choice"iv, e ainda com Evidncia (Carver, 1978; Kirk, 1996). Ora, e dito de outro
Kirk (1996, p. 748) a criticar que o investigador passa de modo, a probabilidade de que um falante portugus ao
um continuum de incerteza para uma deciso dicotmica estar a ler este artigo (prxima de 1) diferente da
de rejeitar-no-rejeitar (respetivamente: p = 0,06 ou p < probabilidade de ler este artigo por ser um falante de
0,05)v. portugus (adaptado de Cumming, 2012). O modo irnico
Por estas razes, h autores que aconselham a como Carver (1978) o expressa mais ilustrativo:
especificar um nvel de alfa que considere a importncia What is the probability of obtaining a dead
relativa do erro do Tipo I versus o erro do Tipo II, decidindo person (label this part D) given that the person was
refletidamente qual a probabilidade aceitvel de encontrar hanged (label this part H); this is, in symbol form,
um falso efeito (erro do Tipo I) e a probabilidade aceitvel what is p(D|H)? Obviously, it will be very high,
de no detetar um efeito (erro do Tipo II; Aguinis et al., perhaps 0.97 or higher. Now, let us reverse the
2010, pp. 520-521). Depois, ao escolher um alfa no nvel de question. What is the probability that a person has
0,05 ou menor, h que ter em conta que a importncia hanged (H), given that the person is dead (D); that is,
relativa do erro do Tipo I versus o erro do Tipo II varia what is p(H|D)? This time the probability will
consoante as reas de investigao, os resultados e os undoubtedly be very low, perhaps 0.01 or lower.vii
contextos, podendo ser menos arriscado encontrar um (Carver, 1978, p. 393).
falso efeito do que perder um efeito que existe e que faz a
Valor de p vs. tamanho do efeito. O nvel de
diferena para a sociedade (Aguinis et al., 2010).
significncia afetado por, pelo menos, sete
Erros comuns. Acauteladas as limitaes do caractersticas dos estudos (Schneider e Darcy, 1984),
valor p, depois, na apresentao do nvel de significncia sendo o tamanho da amostra a mais determinante (Snyder
h que ter em ateno em no seguir quatro erros e Lawson, 1993). Assim, mais provvel obter um valor de
comuns. Quando se verifica, por exemplo, que a diferena p significativo com tamanhos grandes das amostras e,
entre as mdias dos dois grupos no estatisticamente inversamente, em amostras pequenas, o valor de p pode
significativa, isto no quer dizer que no h diferena, no ser significativo, ainda que o TDE possa ser grande
mas sim que no h evidncia para rejeitar a hiptese nula (Berben et al., 2012; Durlak, 2009; Snyder e Lawson, 1993).
de que no h diferenas (Cohen, 1988). Na verdade, pode Na realidade, todo e qualquer teste estatstico pode ser
dizer-se que no h diferena quando o poder do teste expresso como o produto (Rosenthal, 1994):
altovi. Nas palavras de Ellis (2010), o mais correto dizer
Teste estatstico = TDE x funo do tamanho da amostra.
que o resultado inconclusivo (p. 53).
O segundo erro acreditar que um valor de p igual a, Assim, um desejvel valor pequeno de p pode
por exemplo, 0,01, significa que se a experincia fosse associar-se a um TDE pequeno, a um mdio e tambm a
replicada, obter-se-ia um resultado significativo em 99% um grande (Berben et al., 2012; Durlak, 2009; Rosnow e
das repeties (Carver, 1978, p. 392). Rosenthal, 1989). Snyder e Lawson (1993) mostraram que
Quanto ao terceiro erro, h que no confundir a o acrescento de um s sujeito, num estudo com uma
significncia estatstica com a significncia clnica ou pequena amostra e com um grande TDE de 0,66, o valor p
cientfica (Berben et al., 2012; Durlak, 2009; Jacobson e descia abaixo de 0,05 sem que a magnitude do TDE se
Truax, 1991). Ao ler-se num artigo que houve uma alterasse.
melhoria significativa no funcionamento cognitivo, o que Para melhor compreenso destes aspetos, na Tabela
quer dizer a palavra significativa? Quer dizer que a 1, vejam-se quatro estudos hipotticos com comparaes
melhoria foi grande, importante ou que o p foi inferior a entre as mdias de dois grupos e atente-se aos valores de
0,05? Ora, um pequeno p no garante que a melhoria seja p.
grande ou importante (ver tpico seguinte). Por isso, Kline Como se pode ver, a dimenso da diferena foi muito
(2004) recomenda que se deixe cair a palavra maior no estudo B do que no estudo A, apesar de ambas
significante e se substitua por estatstica, devendo as diferenas serem significativas e os graus de liberdade
ento a frase em cima reescrever-se como: houve uma serem os mesmos. Depois, note-se como a dimenso da
melhoria estatstica no funcionamento cognitivo. diferena foi maior no estudo C do que no D, apesar de
Finalmente, em relao ao quarto erro, como se ter ambas as diferenas no serem significativas. Repare-se
reparado acima, o valor de p p(E|H), no entanto, a maior ainda como a magnitude da diferena no estudo A foi

5
Calcular e apresentar tamanhos do efeito em trabalhos cientficos
Esprito-Santo, H. & Daniel, F.

Tabela 1
Comparao das Mdias de Dois Grupos em Quatro Estudos Hipotticos
Grupo alvo Grupo de controlo
Estudo gl M1 - M2 t p
M1 DP1 M2 DP2
A 34 6,50 1,27 3,70 1,77 2,80 4,07 0,001
B 34 2,00 1,49 9,00 1,49 7,00 10,50 < 0,001
C 34 14,78 1,09 19,9 8,58 5,12 1,87 0,078
D 34 6,00 1,49 5,00 1,49 1,00 1,50 0,151
Nota: gl = graus de liberdade; M = mdia, DP = desvio-padro.

menor do que no estudo C, apesar de a diferena ser comportamental (n = 16), gerontologia (n = 30),
significativa no estudo A e no ser significativa no estudo C. neurocincias (n = 93), neuropsicologia (n = 59),
Em sntese, se um investigador usar somente o nvel psicofarmacologia e comportamentos aditivos (n = 28),
de significncia, o valor da magnitude da diferena pode psicologia (n = 130, incluindo, geral, social, forense,
perder-se, sendo uma perda especialmente grave se a organizacional e desenvolvimental, etc.), psiquiatria e
investigao disser respeito avaliao da eficcia de um sade mental, familiar e sexual (n = 172), e em outras
programa de interveno (Rosenthal, 1983). cincias sociais (n = 50, incluindo antropologia,
epidemiologia, servio social e sociologia), e verificmos
Necessidade e Interesse em Apresentar os que somente 58 recomendam explicitamente o clculo da
Tamanhos do Efeito magnitude do efeito (9,5%).
Todos os testes estatsticos tm o seu prprio ndice Ao nvel das publicaes de trabalhos, j Cohen
de TDE (Cohen, 1992b). Estes ndices do TDE, para alm de (1962), na sua reviso de publicaes numa revista de
terem a vantagem de no dependerem do tamanho da psicologia, mostrou que a omisso na apresentao dos
amostraviii, informam sobre o significado dos resultados e TDE podia conduzir falha na rejeio da hiptese nula.
consistem numa mtrica comum para comparar Outras revises tm tambm mostrado a mesma
resultados de estudos diferentes (Berben et al., 2012; negligncia noutras reas de investigao (p. e., Bezeau e
Bezeau e Graves, 2001; Cumming, 2012; Ferguson, 2009; Graves, 2001; Caperos e Pardo, 2013; McMillan e Foley,
Kline, 2004; Lipsey et al., 2012; Olejnik e Algina, 2000; 2011; Schatz, Jay, McComb e McLaughlin, 2005; Sedlmeier
Snyder e Lawson, 1993). e Gigerenzer, 1989; Sun, Pan e Wang, 2010).
De facto, h mais de 20 anos que na literatura
cientfica se chama repetidamente a ateno para a DEFINIO E MTODOS DE CLCULO DOS
necessidade de comunicar os tamanhos de efeito (p. e.,
TAMANHOS DO EFEITO
Cohen, 1990, 1994). Wilkinson e a American Psychological
Association Task Force on Statistical Inference, em 1999, As primeiras e mais citadas definies dos TDE
tinham j publicado diretrizes para a pesquisa publicada na incluem o grau em que a hiptese nula falsa ou, ainda,
psicologia declarando que se deve "always present effect o grau em que um fenmeno est presente na
sizes for primary outcomes"ix, enfatizando que reporting populao (Cohen, 1988, pp. 9-10).
and interpreting ESs [effect sizes] in the context of No entanto, na maioria das vezes, os dados
previously reported effects is essential to good researchx relativamente populao no esto disponveisxi, pelo
(Wilkinson Task Force on Statistical Inference, 1999, p. que o TDE se refere estimativa da magnitude da relao
599). A sexta edio do Publication Manual da APA entre variveis, do efeito de uma varivel sobre outra, ou
(Association, 2010) tambm destaca a importncia de da diferena entre duas amostras (Hedges, 1981;
incluir os TDE e os intervalos de confiana quando se Rosenthal, 1994).
aplicam estatsticas inferenciais. A este respeito, existem duas famlias principais de
Apesar das recomendaes, o problema encontra-se TDE, a famlia dos TDE baseados nas mdias e desvios-
nas instrues das revistas e na publicao dos artigos. padro, em que o TDE a expresso da magnitude da
Assim, na nossa reviso contabilizmos 609 publicaes diferena entre grupos em relao a uma determinada
nas cincias sociais e comportamentais indexadas no caracterstica; e a famlia respeitante magnitude da
Journal Citation Reports do ISI-Thompson, Scielo e Scopus, relao entre duas variveis. Neste artigo, vamos abordar
englobando as reas do desporto (n = 11), educao e a primeira famlia, ficando o TDE das relaes para um
psicologia educacional (n = 20), etologia e ecologia prximo artigo.

6

Revista Portuguesa de Investigao Comportamental e Social 2015, Vol. 1 (1): 3-16
Portuguese Journal of Behavioral and Social Research 2015, Vol. 1 (1): 3-16

Tamanhos do efeito baseados nas mdias e especificar


como os TDE foram calculados fornecendo a
desvios-padro referncia apropriada ou fornecendo a equao usada
O TDE pode ser no-padronizado ou padronizado. A (Durlak, 2009).
diferena simples entre duas mdias pertence
d de Cohen. O d de Cohen uma medida comum do
magnitude no-padronizada. Este tipo de magnitude
TDE para testes t com grupos independentes, ainda que
mantm-se ligada unidade de medida (p. e., nmero de
seja comum haver confuso entre o parmetro
experincias traumticas; pontuao numa escala de
populacional proposto por Cohen (Cohen, 1988), ou ndice
solido) e pode ser prefervel se o investigador retirar um
, e o ndice d propriamente dito que uma estimativa
significado intuitivo da unidade de medida (Hentschke e
para amostras (Borenstein, 2009). O ndice corresponde
Stttgen, 2011). Baguley (2009), considera mesmo que a
padronizao da diferena entre mdias verdadeiras
magnitude no-padronizada mais robusta e verstil do
(populacionais) de dois grupos e usa-se quando os n dos
que a padronizada.
dois grupos so semelhantes e os desvios-padro
Nos estudos com delineamento por grupos, pode ser
verdadeiros (populacionais) so tambm similares,
adequada a anlise da diferena padronizada da mdia,
permitindo-se a suposio de que representam uma
pois independente da mtrica. A magnitude padronizada
estimao de um desvio-padro populacional comum
dimensionada em termos de variabilidade da amostra ou
(Cohen, 1988; 1992a; Ellis, 2010, p. 10; Rosenthal, 1994), tal
populao de onde a medio foi efetuada (Baguley,
como assumido na maior parte das tcnicas
2009). Consoante se procura a diferena padronizada
paramtricas (Borenstein, 2009; Tabela 2, Equao 2.1). O
entre dois grupos ou entre mais do que dois grupos, assim
ndice d usa-se para o mesmo tipo de situao, mas com
se tem diferentes opes de se efetuar os clculos. Neste
duas amostras (Tabela 2, Equao 2.2).
artigo, vamos abordar somente as comparaes entre dois
O d de Cohen tambm aplicvel a testes t para
grupos.
amostras emparelhadas (p. e., pares emparelhados,
Comparaes Entre Dois Grupos. Quando se est medidas repetidas, pr e ps interveno num s grupo).
perante dois grupos, a anlise da diferena padronizada Para o efeito, ou usa-se na mesma a Equao 2.2
entre mdias pertence famlia d que inclui o d de Cohen, (Borenstein, 2009), ou usa-se o desvio-padro mdio de
o g de Hedges e o delta de Glass. O numerador o mesmo ambos os grupos emparelhados (Equao 2.3; Cumming,
nos trs (a diferena entre duas mdias), variando o 2012; Lakens, 2013). No entanto, para as situaes de
denominador para se obter a padronizao (cf. equaes comparao entre a pr e ps interveno, de acordo com
na Tabela 2). As diretrizes indicam que, depois de se Lipsey e colaboradores (2012, p. 5), ao incluir as covariveis
efetuarem os clculos, h que explicitar qual o TDE usado; da linha base, a melhor estimativa do efeito da
apresentar os efeitos para todos os resultados, interveno consiste na diferena das mdias ajustadas
independentemente de serem ou no significativos; e pelas covariveis (mdias estimadas marginais), no

Tabela 2
Equaes e Recomendaes para o Clculo dos Tamanhos do Efeito mais Comuns em Diferenas entre Mdias
de Grupos Independentes
Equao Estimativa Magnitude da diferena Desvio-padro Uso
! ! Estimativa do desvio-padro
2.1 de Cohen = DP populacional conhecido
populacional
! ! ! 1 !! + (! 1)!! Grupos independentes
2.2 d de Cohen DPcombinado =
!"#$%&'(" ! + ! 2 DP similares
! !
!"! !!"! Mdia dos desvios-padro de
2.3 d m de Cohen ! + ! = ambos os grupos Grupos emparelhados
!
2
! ! 3 ! 1 !! + (! 1)!! Tamanhos dos grupos
2.4 g de Hedges (1 ) DPcombinado =
!"#$%&'(" 4 1 ! + ! 2 diferentes; meta-anlise

! ! DP diferentes e violao da
2.5 de Glass DPcontrolo = DP do grupo de controlo homogeneidade de
!"#$%"&"
varincias
Notas: M = mdia de cada grupo; DP = desvio-padro de cada grupo; n = nmero de sujeitos; gl = graus de liberdade (n -1) e dm = desvio-padro mdio. Os nmeros 1 e 2
em ndice referem-se ao grupo 1 (p. e., grupo experimental, grupo de tratamento ou grupo alvo) e ao grupo 2 (p. e., controlo ou de comparao). Tabela baseada nas
seguintes referncias: Cohen (1992); Borenstein (2009); Cummings (2012); Hedges (1981); Lakens (2013) e Rosenthal (1994).

7
Calcular e apresentar tamanhos do efeito em trabalhos cientficos
Esprito-Santo, H. & Daniel, F.

devendo ajustar-se os desvios-padro. Nestes casos, !


ICd 95% = d 1,96 x DP de d, em que DP de d = +
sugere-se a anlise da covarincia (ANCOVA; Tabachnick e ! + ! 2
Fidell, 2007).
em que 1,96 o valor crtico da distribuio normal
Nas situaes em que as amostras so pequenasxii,
padronizada em 0,05 de significncia; o DP o desvio-
como o d de Cohen tende a ser sobrestimado, usa-se
padro; o N representa o nmero total da amostra; o n
ento o g de Hedges como fator de correo.
refere-se ao tamanho da amostra de cada grupo particular
g de Hedges. O g de Hedges assim designado em (1 = grupo alvo; 2 = grupo de comparao); e o d o valor
honra de Gene V. Glass que foi um dos pioneiros da meta- do d de Cohen (nos suplementos, apresentamos uma
anlise. O g de Hedges recomendado quando os grupos folha de clculo para este clculo).
tm pequena dimenso e so diferentes no tamanho, pelo Enquanto que o TDE no afetado pelo tamanho da
que os desvios-padro de cada grupo devem ser amostra, a preciso do seu IC 95% afetada, sendo
ponderados segundo a dimenso da amostra (Ellis, 2010; habitualmente maior a preciso quanto maior for a
Hedges, 1981; Rosnow, Rosenthal e Rubin, 2000). O fator amostra. Assim, para amostras pequenas h que corrigir o
de correo J aplicado na Equao 2.3 (J = 1-3/(4gl-1); enviesamento atravs do fator de correo seguinte
Tabela 2) e deve ser sempre inferior a 1,0, pelo que o g ser (Berben et al., 2012; Cooper, Hedges e Valentine, 2009):
sempre inferior ao d. Quando os graus de liberdade so 3
muito pequenos (p. e., < 10), a diferena entre os dois J = 1
4 1
ndices mnima (Borenstein, 2009, p. 227), pelo que no
em que gl so os graus de liberdade. Depois multiplica-se
necessrio proceder correo.
ICd 95% por J.
Delta de Glass. O delta de Glass usa-se quando os Computao rpida. Uma das razes para o nvel de
desvios-padro dos dois grupos diferem, havendo
significncia continuar a ser reportado e o TDE no, pode
comprometimento da homogeneidade da varincia (Ellis,
estar relacionado com o facto de muitos programas de
2010). Este ndice, usado nos estudos de interveno
anlise estatstica, como o SPSS, no efetuarem esse
(Lipsey et al., 2012), consiste no valor amostral da
clculo (Hentschke e Stttgen, 2011). Este artigo, nos seus
diferena da mdia padronizada atravs do desvio-padro
suplementos, acompanhado por uma folha de clculo
do grupo de controlo (Glass, 1976; Hedges, 1981;
em Excel para computao rpida desligada da Internet. A
Rosenthal, 1994; Tabela 2, Equao 2.4), com o suposto de
nossa folha de clculo inclui os clculos para o d, g e Delta
que o desvio-padro do grupo de controlo no afetado
e ainda a equivalncia em percentis. Na nossa folha de
pelos efeitos do tratamento, refletindo mais de perto o
clculo fornecemos tambm a computao dos ICs.
desvio-padro da populao (Ellis, 2010; Rosenthal, 1994).
Outra alternativa, para quando os desvios-padro dos dois Converses para reviso da literatura. Um dos
grupos diferem muito, ser transformar os dados por usos da magnitude do efeito aplica-se reviso da
forma a tornar os desvios-padro mais similares (p. e., literatura. No entanto, como j referimos, raramente os
transformao logartmica, raiz quadrada; Rosenthal, TDE so indicados na literatura. No entanto, desde que os
1994, p. 235) e depois proceder ao clculo do ndice d ou dados bsicos sejam apresentados (p. e., n, mdia e DP), o
do ndice g. autor pode calcular facilmente os TDE da literatura para
comparao. Se esses valores estiverem em falta, os TDE
Apresentao dos intervalos de confiana. O ainda podem ser calculados com base noutras estimativas
intervalo de confiana (IC) o intervalo de valores onde se
(Durlak, 2009). Para esse efeito, existem frmulas de
estima que o parmetro populacional se situe para uma
converso de testes estatsticos comuns em d de Cohen.
dada probabilidade. Quanto mais estreito o IC, mais
Para os objetivos deste artigo, interessa aqui somente
precisa a estimativa (Cumming, 2012). Os ICs em relao
apresentar a converso do teste t em d de Cohen
mdia devem ser apresentados por forma a aumentar a
(Rosenthal, 1994):
preciso de estimativas que se baseiam em amostras (! + ! )
(Berben et al., 2012; ver p. 1041 para a frmula do seu d =
! !
clculo) e o mesmo deve ser feito em relao aos TDE
(Berben et al., 2012; Breaugh, 2003; Durlak, 2009). A No caso de se poder considerar o tamanho das duas
equao para o IC a 95% em redor do d a seguinte amostras igual ou quando no existe informao, ento a
(Hedges e Olkin, 1985, p. 86): equao simplificada para (Rosenthal, 1994):

8

Revista Portuguesa de Investigao Comportamental e Social 2015, Vol. 1 (1): 3-16
Portuguese Journal of Behavioral and Social Research 2015, Vol. 1 (1): 3-16

2 As classificaes, ainda assim, podero ser usadas


d =
especialmente para resultados totalmente novos e que
no podem ser comparados com outros achados na
O g de Hedges, quando se assume que as duas literatura (Cohen, 1988), tendo sempre em considerao
amostras tm tamanho igual corresponde a (Rosenthal, que quanto maior a pontuao maior o efeito. Assim, um
1994): valor de 0,05 significa que a diferena das mdias dos dois
2
= grupos corresponde a metade de um desvio-padro e um
! + !
valor de 1,00 significa que a diferena das mdias dos dois

grupos corresponde a um desvio-padro (Ellis, 2010, pp.
Nestas trs frmulas, o t corresponde ao teste t de 10-11).
Student, o n equivale ao tamanho da amostra de cada
Tamanho do efeito em linguagem comum. Outra
grupo e o gl aos graus de liberdade.
interpretao dos TDE, menos usada, e designada por TDE
Interpretao dos Tamanhos do Efeito. Cohen em linguagem comum [(TDE-LC; common language effect
(1988), hesitantemente, classificou os TDE em pequeno, size statistic; McGraw e Wong (1992)] ou por probabilidade
moderado e grande (Tabela 3), escrevendo que "there is a de superioridade (Grissom e Kim, 2005), mais intuitiva,
certain risk in inherent in offering conventional pois converte o efeito numa percentagem, podendo ser
operational definitions for those terms for use in power calculada a partir do d de Cohen (Lakens, 2013). Esta
analysis in as diverse a field of inquiry as behavioral percentagem associa-se probabilidade no extremo
Sciencexiii (p. 25). Posteriormente, Cohen (Cohen, 1992b), superior do valor de Z da equao seguinte:
p. 99) explanou que um TDE moderado representa uma |!! !!! |
magnitude evidente a olho nu para um investigador Z =
!"! !
! !!"!
cuidadoso, um pequeno claramente menor, e um grande !

claramente maior. Uma leitura cuidadosa dos textos de Nesta equao, o M corresponde s mdias de cada grupo
Cohen mostra que, de facto, o estatstico nunca pretendeu e o DP aos desvios-padro tambm de cada grupo.
que a sua classificao fosse aplicada de forma rgida, mas O TDE-LC corresponde probabilidade de um valor
somente fornecer some sense of its [TDE] scale xiv de Z ser maior do que o valor que corresponde a uma
(Cohen, 1992b, p. 99). A folha de Excel, nos suplementos, diferena de zero entre os grupos numa distribuio
fornece esta interpretao facilmente. normal. Dito de uma maneira mais simples para o leigo em
estatstica: o TDE-LC corresponde probabilidade de uma
Tabela 3 pessoa retirada ao acaso do grupo alvo ter uma pontuao
Valores para Interpretao dos Tamanhos do superior a uma pessoa retirada ao acaso do grupo de
Efeito comparao. Para demonstrar o valor do TDE-LC, McGraw
e Wong (1992) exemplificaram com as alturas de homens e
Insignificante Pequeno Mdio Grande Muito grande mulheres que, em mdia, correspondiam respetivamente
a 1,77 m (DP = 7,11 cm) e 1,63 m (DP = 6,60 cm). O d de
< 0,19 0,20 - 0,49 0,50 - 0,79 0,80 - 1,29 > 1,30
Cohen igual a 2,00 e o TDE-LC de 0,92; ou seja, a
Notas: Estes valores foram apresentados por Cohen (1988, p. 40). probabilidade de um homem ser mais alto do que uma
Rosenthal (1996) acrescentou a classificao de muito grande. mulher de 92%, o que mais intuitivo de que dizer que o
TDE muito grande. Dunlap (1994, p. 509), considerou
Crticas e sugestes. Se Cohen hesitou, Glass e seus este TDE-LC an appealing index of effect size that
colegas (1981, p. 104) opuseram-se veementemente requires no prior knowledge of statistics to understandxv.
adjetivao dos efeitos, considerando que estes no tm Na Tabela 4, apresentamos a converso dos TDE em
nenhum valor inerente se forem separados do contexto e probabilidades de superioridade (na folha Excel, nos
de valores comparativos. Acrescente-se que um TDE maior suplementos, fornecemos tambm uma computao
num estudo A do que num estudo B no significa que a rpida).
teoria seja mais apoiada pelo estudo A (Chow, 1988). Para O TDE-LC tambm facilmente calculado atravs do
alm de que estas categorias no se aplicam a todas as SPSS. Primeiro computa-se o teste U de Mann-Whitney
reas de investigao (Olejnik e Algina, 2000), podendo (Analise: Nonparametric Tests: Two Independente Samples)
uma magnitude do efeito ser relevante numa rea e e obtm-se o valor de U. O TDE-LC calcula-se:
insignificante noutra (Lipsey et al., 2012). !
TDE-LC =
!"

9
Calcular e apresentar tamanhos do efeito em trabalhos cientficos
Esprito-Santo, H. & Daniel, F.


Tabela 4
Interpretao dos Tamanhos do Efeito atravs do U 3 de Cohen, Percentagem de Sobreposio e Probabilidade de
Superioridade e do Nmero dos que Necessitam de Ser Tratados
Percentis/ Probabilidade de Probabilidade de
Tamanho % de Tamanho Percentis/ % de
U3 de superioridade NNT superioridade NNT
do efeito sobreposio do efeito U3 de Cohen sobreposio
Cohen (TDE-LC) (TDE-LC)

0 50,0 100,0 50,0 1,6 94,5 42,4 87,1 1,7


0,1 54,0 96,0 52,8 34,3 1,7 95,5 39,5 88,5 1,7
0,2 57,9 92,0 55,6 16,5 1,8 96,4 36,8 89,9 1,6
0,3 61,8 88,1 58,4 10,6 1,9 97,1 34,2 91,0 1,5
0,4 65,5 84,2 61,1 7,7 2,0 97,7 31,7 92,1 1,5
0,5 69,2 80,3 63,8 6,0 2,1 98,2 29,4 93,1 1,4
0,6 72,6 76,4 66,4 4,9 2,2 98,6 27,1 94,0 1,4
0,7 75,8 72,6 69,0 4,1 2,3 98,9 25,0 94,8 1,4
0,8 78,8 68,9 71,4 3,5 2,4 99,2 23,0 95,5 1,4
0,9 82,6 65,3 73,8 3,1 2,5 99,4 21,1 96,2 1,3
1,0 84,1 61,7 76,0 2,8 2,6 99,5 19,4 96,7 1,3
1,1 86,4 58,2 78,2 2,5 2,7 99,7 17,7 97,2 1,3
1,2 88,5 54,9 80,2 2,3 2,8 99,7 16,2 97,6 1,3
1,3 90,3 51,6 82,1 2,1 2,9 99,8 14,7 98,0 1,3
1,4 91,9 48,4 83,9 2,0 3,0 99,9 13,4 98,3 1,3
1,5 93,3 45,3 85,6 1,8 3,1 99,9 12,1 98,6 1,3

Notas: Baseado em Coe (2007), Cohen (1988), Kraemer (2006), Durlak (2009), Kraemer e Kupfer (2006), Lipsey (2012), Schnemann et al. (2008) e Wyrwich
et al. (2005). Os percentis correspondem ao U3 de Cohen. TDE-LC = tamanho do efeito em linguagem comum. NNT = nmero de pessoas que necessita de
tratamento (assume-se que 20% do grupo de controlo tenha resultados favorveis, melhorando acima ou abaixo de um determinado ponto de corte.

em que U a estatstica U de Mann-Whitney, m o 2002). Os TDE podem tambm ser interpretados em


nmero de participantes na primeira amostra e n o termos de percentagem de no-sobreposio entre o
nmero de pessoas na segunda amostra (Acion, Peterson, grupo alvo e o grupo de comparao (Cohen, 1988). Um
Temple e Arndt, 2006; Furukawa e Leucht, 2011). TDE de zero significa que a distribuio de pontuaes no
grupo alvo se sobrepe totalmente distribuio de
Equivalncia percentlica e de no sobreposio. pontuaes do grupo de comparao; ou seja, h 0% de
De forma semelhante, os TDE podem ser convertidos em no-sobreposio. Por ser mais compreensvel,
percentis atravs de uma tabela de reas sob a curva recorremos ao conceito de percentagem de sobreposio
normal. A mdia de uma amostra de controlo com (Reiser e Faraggi, 1999) que apresentamos tambm na
distribuio normal est no percentil 50 com uma Tabela 4.
pontuao Z de zero, depois adiciona-se o TDE
Nmero dos que necessitam de ser tratados.
pontuao Z, segue-se a sua converso no percentil
Finalmente, quando se trata da comparao de um grupo de
equivalente atravs da tabela de reas sob a curva normal,
tratamento com um grupo de comparao usa-se o number
obtendo-se assim o ndice U3 de Cohen (Cohen, 1988;
needed to treat (Cook e Sackett, 1995) que corresponde ao
Lipsey et al., 2012). Na Tabela 4 podem observar-se as
nmero de pacientes/utentes, por exemplo, que necessrio
percentagens de casos do grupo experimental ou de
tratar por forma a alcanar, em mdia, um paciente/utente
interveno acima da mdia do grupo de controlo,
com melhoria franca (Tabela 4). Ou seja, uma forma de
assumindo-se uma distribuio normal. Assim, por
apresentar valores absolutos. Para alguns (Kraemer e
exemplo, um TDE de 1,20 indica que a mdia do grupo alvo
Kupfer, 2006), este ndice o que melhor reflete a
se situa no percentil 88 do grupo de comparao. Se no
significncia clnica em termos binrios (sucesso/falhano).
existir nenhum efeito, ento, quer o grupo alvo, quer o
Este clculo implica identificar as pessoas que
grupo de comparao situam-se no percentil 50; isto , a
alcanaram ou excederam o limiar de mudana importante
mdia do grupo alvo situa-se no percentil 50 do grupo de
(important change threshold), quer no grupo de
comparao (Durlak, 2009). Note-se que no se devem
experimental, quer no grupo de comparao (Kraemer e
interpretar os TDE em termos de percentis quando o
Kupfer, 2006; Schnemann et al., 2008; Wyrwich et al., 2005).
pressuposto da distribuio normal for infringido (Coe,
10

Revista Portuguesa de Investigao Comportamental e Social 2015, Vol. 1 (1): 3-16
Portuguese Journal of Behavioral and Social Research 2015, Vol. 1 (1): 3-16

O nmero que necessita tratamento define-se como o CAUTELAS A TER NO USO DOS
nmero de pacientes que se espera tratar com T (ST) para TAMANHOS DO EFEITO
ter mais sucesso (e menos falhano) do que o nmero
tratado com C (SC), onde NNT = ST - SC. Para um T melhor A interpretao e a categorizao dos TDE, como
que C, ento o NNT varia do valor ideal de 1 at ao infinito; referimos atrs, no deve ser rgida, pois os seus valores e
para o T pior do que C, ento o NNT varia entre -1 a menos as mtricas usadas so arbitrrios (Andersen, McCullagh e
infinito (Kraemer e Kupfer, 2006, p. 992). A frmula de Wilson, 2007; Blanton e Jaccard, 2006a; 2006b;
converso do d de Cohen em NNT dada por Furukawa e Embretson, 2006; Kazdin, 2006; Thompson, 2007) e h que
Leucht (2011): ter em considerao as reas de investigao (Lipsey et al.,
! ! 2012; McCartney e Rosenthal, 2000; Zakzanis, 2001), e o
NNT = ou NNT =
! [! ! !(!"#) ! !"#] !""! !"# contexto de variveis da Realidade (Aguinis, 2010; Lipsey
Nesta frmula, o a funo de distribuio et al., 2012). O TDE, h que record-lo, simplesmente
cumulativa da distribuio normal padronizada e a sua uma transformao da diferena entre mdias em
inversa, o TEE a taxa de eventos no grupo experimental, unidades do desvio-padro.
o TEC a taxa de eventos no grupo de controlo e o o d
de Cohen populacional. Na Tabela 4, o TEC est definido Arbitrariedade das medies
para 20%. Note-se que o NNT funciona melhor com O problema nas cincias sociais e comportamentais, e
variveis de resultado dicotmicas (Ferguson, 2009). especialmente em psicologia, no existirem unidades
para constructos abstratos e no-fsicos associadas ao
Exemplo. Paiva e colaboradores (2013), entre outras
comportamento no mundo real (p. e., auto-conceito,
anlises, verificaram a influncia do sexo nos
inteligncia, sintomas depressivos, ou satisfao com a
comportamentos de risco e auto-dano em adolescentes
vida), nem existirem medidas universalmente aceites para
atravs do Risk-Taking and Self-Harm Inventory for
esses constructos (Andersen et al., 2007; Kline, 2004). Por
Adolescents (pontuao mxima = 36 pontos). O estudo
isso, este tipo de mtricas so consideradas arbitrrias,
mostrou que os rapazes (n1 = 152) tinham
isto , avaliadoras indiretas de constructos hipotticos no
significativamente (t = 4,61; p < 0,001) mais
observados (Andersen et al., 2007; Blanton e Jaccard,
comportamentos de risco (M = 7,11; DP = 6,36) do que as
2006a; Cohen, 1988; Kline, 2004).
raparigas (n2 = 194; M = 4,47; DP = 4,26). Comecemos pela
Este problema da arbitrariedade das medidas
diferena no-padronizada das mdias: M1 - M2 = 2,64.
especialmente evidente nos estudos de interveno
Como o desvio-padro grosseiramente semelhante, e os
(Kazdin, 2006). Em 1996, Sechrest, McKnight e McKnight
grupos tm tambm dimenso similar, pode calcular-se o d
tinham j discutido este aspeto, exemplificando com a
de Cohen. Determinemos ento primeiro o desvio-padro
interveno na depresso. Neste tipo de estudo, medem-
combinado:
se, por exemplo, os sintomas depressivos com o Beck
!"#!! !,!"! ! !"#!! !,!"! !"#$,!"#
DPcombinado = = = 5,2967 Depression Inventory (BDI) antes da interveno, depois
!"#!!"#!! !""
colocam-se os participantes com sintomas nos grupos de
De seguida, usemos o desvio-padro combinado na tratamento e de comparao, e de seguida usa-se o BDI
frmula do d de Cohen: novamente aps o tratamento. Se o grupo de tratamento
!,!!!!,!"
d de Cohen = = 0,498 tiver uma pontuao inferior do grupo de comparao
!,!"
O intervalo de confiana a 95% para este TDE de no final do tratamento, ento a terapia seria considerada
[0,28, 0,71]. Com base nos critrios de Cohen (Cohen, eficaz. Em termos metodolgicos, pouco h a apontar.
1988, p. 26), considerar-se-ia este TDE como moderado. O Mas o que significa a descida no BDI? Para o doente, uma
TDE em linguagem comum indica que, depois de controlar melhoria real, no ser uma descida nas pontuaes de
as diferenas individuais, a probabilidade de um rapaz ter um qualquer instrumento, mas sim, por exemplo,
uma mdia maior do que uma rapariga de 63,8%. Quanto conseguir trabalhar, passar mais tempo ativo, andar mais
interpretao percentlica, 69,2% dos rapazes esto alegre, ter mais interesse em conviver e dormir melhor.
acima da mdia do grupo das raparigas. Finalmente, a Para maior aprofundamento destas questes sobre a
distribuio de pontuaes no grupo dos rapazes arbitrariedade das medies atravs de testes
apresenta uma percentagem de sobreposio de 80,3% em psicomtricos h uma vasta literatura ao dispor
relao distribuio de pontuaes do grupo das (Andersen, McCullagh e Wilson, 2007; Blanton e Jaccard,
raparigas (vide Folha de Clculo e Tabela 4). 2006a; 2006b; Embretson, 2006; Kazdin, 2006).

11
Calcular e apresentar tamanhos do efeito em trabalhos cientficos
Esprito-Santo, H. & Daniel, F.

Necessidade de Interpretar os Tamanhos do Efeito ! (!!!! )


Nfs =
!!
no Contexto da rea de Investigao
Para Zakzanis (2001), s se devem usar as sendo N o nmero de estudos na meta-anlise, d o TDE
classificaes de pequeno, moderado, ou grande quando a mdio determinado a partir dos estudos em anlise e dc o
rea do estudo se compreende em termos de TDE. Para valor de critrio selecionado de forma a igualar o d quando
outros autores, quando se procura interpretar se os TDE um nmero conhecido de estudos hipotticos (Nfs) fosse
so pequenos, moderados, ou grandes, h que faz-lo adicionado meta-anlise. Orwin (1983) sugeriu que o
contrastando com as normas apropriadas; baseando-se valor de critrio fosse 0,2 [seguindo a sugesto de Cohen
essas normas nas distribuies dos TDE obtidas com (1988) para um efeito pequeno]. Assim, Nfs calcula o
medies comparveis, em intervenes comparveis nmero necessrio de estudos hipotticos para
dirigidas a amostras tambm comparveis (Lipsey et al., ultrapassar um valor de 0,2.
2012).
Em sntese, a interpretao aprofundada dos TDE Necessidade de Interpretar os Tamanhos do Efeito
deve ter em considerao o contexto em que os valores no Contexto de Variveis da Realidade
foram obtidos (p. e., instituio, escola, clnica), o Quando se apresentam os aspetos quantitativos dos
planeamento do estudo (p. e., estudo experimental), TDE, h que depois perceber o significado prtico desses
escolhas metodolgicas (p. e., qual a varivel preditora), o valores atravs de uma anlise qualitativa que descreva a
quadro da mtrica usada (p. e., quociente de inteligncia), importncia dos resultados no seu contexto (Aguinis,
os outros efeitos na literatura (p. e., diferena padronizada 2010; Lipsey et al., 2012). Assim, um pequeno TDE pode ter
da mdia maior), os efeitos de intervenes semelhantes consequncias importantes, como, por exemplo, o de uma
(p. e., 20% mais eficiente) ou outros TDE que sejam bem interveno que diminua a taxa de suicdio (Lakens, 2013).
compreendidos conceptualmente (Cohen, 1988; Repare-se no exemplo que apresentmos na seco
McCartney e Rosenthal, 2000; Borenstein, 2009, p. 234; anterior sobre a influncia do sexo nos comportamentos
Lakens, 2013). Por exemplo, em estudos de interveno de risco e auto-dano em adolescentes. O que significa a
em educao raro haver TDE acima dos 0,30 (Lipsey et classificao de moderado (d = 0,498) numa mtrica que
al., 2012). J Zakzanis (2001, p. 664) prope um valor de d no tem um significado direto? Este valor, como habitual
acima de 3,00 (efeito grande) para discriminar um grupo quando se usam questionrios, no , nem diretamente
experimental de um grupo de controlo no domnio da interpretvel, nem significativo na prtica (Kirk, 1996). A
neuropsicologia, recomendando que efeitos entre 0,1 e 2,0 classificao tambm no nos responde questo de
devem ser interpretados luz do contexto. saber se a diferena relevante clinicamente (Jacobson e
Apesar da importncia da comparao com os Truax, 1991)xvi.
valores obtidos noutros estudos, executando, por Tome-se agora outro exemplo de interveno, mas
exemplo uma meta-anlise, a comparao deve seguir em neuropsicologia: reuniu-se uma amostra de idosos com
diversas cautelas (p. e., fidedignidade das medies; declnio cognitivo sem demncia e aplicou-se a metade
homogeneidade populacional; ou fora do tratamento; desses idosos um programa de reabilitao
Olejnik e Algina, 2000). H que ter ainda em ateno que, neuropsicolgica (a outra metade ficou em lista de
quando se faz a reviso da literatura, h uma tendncia espera). Calculou-se o TDE nas pontuaes de uma escala
para se encontrar somente estudos em que houve depressiva entre o grupo de interveno e o grupo de
resultados positivos, isto , estudos com resultados comparao e obteve-se um valor de 0,20 (Lemos et al.,
estatisticamente significativos. Aquilo a que Rosenthal 2014). Este pequeno valor significa que 58% dos idosos do
(1979) designou pelo file drawer problem: os estudos grupo de interveno ficaram acima da mdia dos idosos
com resultados que suportam a hiptese nula vo parar do grupo de controlo. Quanto ao NNT, para se ter mais
gaveta do arquivo dos ficheiros mortos. Para alm de que um resultado favorvel no grupo de interveno em
muitos autores tm dificuldades em publicar estudos com contraste com o grupo de comparao, seria preciso
resultados estatisticamente no significativos (Wolf, integrar no programa de reabilitao 16,5 pessoas. O que
1986). significa que se 100 pessoas forem integradas no
Orwin (1983) forneceu uma frmula de segurana programa de tratamento, 6,1 mais pessoas tendero a ter
(Nfs) que permite ultrapassar parcialmente esta questo, um resultado favorvel comparado com o que teriam se
ao calcular o nmero de estudos confirmadores da no tivessem reabilitao neuropsicolgic a (cf. Tabela
hiptese nula que seriam necessrios para reverter a 4)xvii. Quando comparamos o TDE obtido com o de um
concluso de que existe uma relao significativa: estudo de interveno equivalente (0,04; Liesbeth et al.,
12

Revista Portuguesa de Investigao Comportamental e Social 2015, Vol. 1 (1): 3-16
Portuguese Journal of Behavioral and Social Research 2015, Vol. 1 (1): 3-16

2011), percebemos que a eficcia do programa portugus


Quadro 1
foi maior. Podemos especular porqu. Ter sido o tipo de Diretrizes para Apresentar e Interpretar os
interveno? A durao da reabilitao? Apesar de no se Tamanhos do Efeito (TDE)
ficar a perceber qual o real impacto na vida do dia a dia
dos participantes no estudo, se nos cingirmos somente 1. Escolher o TDE mais adequado ao tamanho da
amostra de cada grupo
significncia estatstica, no poderamos ento comparar
2. Indicar os dados descritivos bsicos (mdia e
com outros estudos, e teramos menos dados para desvio-padro)
equacionar novas hipteses a testar. 3. Calcular o TDE, independentemente dos
resultados serem ou no significativos
4. Designar o tipo de TDE usado, indicar as
referncias apropriadas e/ou apresentar a
CONCLUSES equao
5. Calcular o Intervalo de confiana a 95% para o TDE
Devido s limitaes dos testes estatsticos e do valor 6. Classificar o TDE de acordo com os critrios de
de p para informar sobre o real significado dos resultados Cohen (1988) e de Rosenthal (1996)
7. Interpretar o TDE em linguagem comum (uma das
de investigao, desde h muito que se defende que se
seguintes hipteses)
apresentem os tamanhos de efeito. Vimos que possvel a. Converter em percentis
existir uma diferena no-significativa, sem que isso seja b. Calcular a percentagem de sobreposio
o mesmo que ter um no-efeito. Descrevemos tambm c. Calcular a probabilidade de superioridade
como rara a apresentao destes efeitos. Provavelmente 8. Interpretar o TDE no contexto da rea de
isso deve-se ao facto de poucos investigadores terem uma investigao
ideia clara de como proceder ou interpret-los Zakzanis a. Rever a literatura, optando por estudos com
planeamento e mtodos de clculo do TDE
(2001). Neste artigo, no s argumentamos a importncia
semelhantes
de apresentar as magnitudes do efeito no clculo das b. Calcular os TDEs dos estudos revistos quando
diferenas, como mostrmos tambm as frmulas para a ausentes
sua computao acompanhadas por uma folha de clculo 9. Interpretar o TDE no contexto de variveis da
em excel para agilizar o processo. Vimos ainda como Realidade
interpretar estes tamanhos em termos de linguagem

comum e em termos percentlicos e, ainda, o nmero dos
que necessitam de ser tratados. Defendemos tambm a
importncia de interpretar as magnitudes do efeito no
contexto do estudo, em vez de recorrer imediatamente s REFERNCIAS
classificaes propostas por Cohen, e de procurar Acion, L., Peterson, J. J., Temple, S. e Arndt, S. (2006).
extrapolar o seu significado para a realidade. Probabilistic index: an intuitive non-parametric approach to
Em sntese, apresentar e interpretar TDEs no deve measuring the size of treatment effects. Statistics in
Medicine, 25(4), 591602. doi:10.1002/sim.2256
ser visto como mais uma barreira a ultrapassar no mundo
Aguinis, H., Werner, S., Abbott, J. L., Angert, C., Park, J. H. e
editorial (Durlak, 2009). Ainda assim, as autoras deste
Kohlhausen, D. (2010). Customer-centric science: Reporting
artigo esperam que os autores da RPICS passem a incluir e significant research results with rigor, relevance, and
a interpretar os TDE nas investigaes em que tal seja practical impact in mind. Organizational Research Methods,
apropriado e que este artigo fornea as diretrizes 13(3), 515539.

necessrias e suficientes para esse propsito. A smula Aickin, M. (2004). Bayes without priors. Journal of Clinical
Epidemiology, 57(1), 413. doi:10.1016/S0895-4356(03)00251-
dessas diretrizes apresentada no Quadro 1. 8
American Psychological Association (APA) (2010). Publication

Manual of the American Psychological Association (6. ed.).
Washington, DC: APA.

Andersen, M. B., McCullagh, P. e Wilson, G. J. (2007). But what do
the numbers really tell us? Arbitrary metrics and effect size
reporting in sport psychology research. Journal of Sport e
Exercise Psychology, 29(5), 664672.

Baguley, T. (2009). Standardized or simple effect size: What
should be reported? British Journal of Psychology, 100(3),
603617.

13
Calcular e apresentar tamanhos do efeito em trabalhos cientficos
Esprito-Santo, H. & Daniel, F.

Berben, L., Sereika, S. M. e Engberg, S. (2012). Effect size Ellis, P. D. (2010). The essential guide to effect sizes. Statistical
estimation: methods and examples. International Journal of power, meta-analysis, and the interpretation of research
Nursing Studies, 49(8), 10391047. results (pp. 1193). Cambridge: Cambridge University Press.
doi:10.1016/j.ijnurstu.2012.01.015 Embretson, S. E. (2006). The continued search for nonarbitrary
Bezeau, S. e Graves, R. (2001). Statistical power and effect sizes metrics in psychology. The American Psychologist, 61(1), 50
of clinical neuropsychology research. Journal of Clinical and 55. doi:10.1037/0003-066X.61.1.50
Experimental Neuropsychology (Neuropsychology, Ferguson, C. J. (2009). An effect size primer: A guide for clinicians
Development and Cognition: Section a), 23(3), 399406. and researchers. Professional Psychology: Research and
Blanton, H. e Jaccard, J. (2006a). Arbitrary metrics in psychology. Practice, 40(5), 532-538.
The American Psychologist, 61(1), 2741. doi:10.1037/0003- Fern, E. F. e Monroe, K. B. (1996). Effect-size estimates: Issues
066X.61.1.27 and problems in interpretation. Journal of Consumer
Blanton, H. e Jaccard, J. (2006b). Arbitrary metrics redux. The Research, 23(2), 89105.
American Psychologist, 61(1), 62. Fisher, R. A. (1925). Statistical methods for research workers.
Borenstein, M. (2009). Effect sizes for continuous data. In H. Edinburgh: Oliver and Boyd.
Cooper, L. V. Hodges e J. C. Valentine, The handbook of Fisher, R. A. (1959). Statistical methods and scientific inferente (2.
research synthesis and meta-analysis (pp. 221235). New ed.). Edinburgh: Oliver and Boyd.
York: Russell Sage Foundation.
Furukawa, T. A. e Leucht, S. (2011). How to obtain NNT from
Breaugh, J. A. (2003). Effect size estimation: Factors to consider Cohen's d: Comparison of two methods. PLoS ONE, 6(4),
and mistakes to avoid. Journal of Management, 29(1), 7997. e19070, 1-5.
Caperos, J. M. e Pardo, A. (2013). Consistency errors in p-values Giere, R. N. (1972). The significance test controversy. British
reported in Spanish psychology journals. Psicothema, 25(3), Journal for the Philosophy of Science, 23(2), 170181.
408414. doi:10.7334/psicothema2012.207
Glass, G. V. (1976). Primary, secondary, and meta-analysis of
Carver, R. P. (1978). The case against statistical significance research. Educational Researcher, 5(10), 38.
testing. Harvard Educational Review, 48(3), 378399.
Glass, G.V., McGaw, B. e Smith, M. L. (1981). Meta-analysis in social
Chow, S. L. (1988). Significance test or effect size? Psychological research. Sage: Beverly Hills.
Bulletin, 103(1), 105-110.
Grissom, R. J. e Kim, J. J. (2005). Effect sizes for research: A broad
Coe, R. (2002). It's the effect size, stupid: what effect size is and practical approach. Mahwah, NJ: Lawrence Erlbaum
why it is important. Presented at the Annual Conference of Associates Publishers.
the British Educational Research Association, University of
Hedges, L. V. (1981). Distribution theory for Glass's estimator of
Exeter, England, Education-line.
effect size and related estimators. Journal of Educational
Cohen, J. (1962). The statistical power of abnormal-social and Behavioral Statistics, 6(2), 107128.
psychological research: A review. Journal of Abnormal and
Hedges, L. V. e Olkin, I. (1985). Statistical methods for meta-
Social Psychology, 65(3), 145153.
analysis (Vol. 11, pp. 104106). Orlando: Academic Press.
Cohen, J. (1988). Statistical power analysis for the behavioral
Hentschke, H. e Stttgen, M. C. (2011). Computation of measures
sciences (2. ed.). Hillsdale: Lawrence Erlbaum Associates.
of effect size for neuroscience data sets. The European
Cohen, J. (1992a). A power primer. Psychological Bulletin, 112(1), Journal of Neuroscience, 34(12), 18871894.
155. doi:10.1111/j.1460-9568.2011.07902.x
Cohen, J. (1992b). Statistical power analysis. Current Directions in Huberty, C. J. (1993). Historical origins of statistical testing
Psychological Science, 1(3), 98101. practices: The treatment of Fisher versus Neyman-Pearson
Cohen, J. (1994). The earth is round (p < .05). The American views in textbooks. The Journal of Experimental Education,
Psychologist, 49(12), 997-1003. 61(4), 317333.
Conn, V. S., Chan, K. C. e Cooper, P. S. (2014). The problem with p. Jacobson, N. S. e Truax, P. (1991). Clinical significance: a statistical
Western Journal of Nursing Research, 36(3), 291293. approach to defining meaningful change in psychotherapy
Cook, R. J. e Sackett, D. L. (1995). The number needed to treat: a research. Journal of Consulting and Clinical Psychology, 59(1),
clinically useful measure of treatment effect. BMJ, 12-19.
310(6977), 452454. Kazdin, A. E. (2006). Arbitrary metrics: implications for
Cooper, H., Hedges, L. V. e Valentine, J. C. (2009). The handbook identifying evidence-based treatments. The American
of research synthesis and meta-analysis (2. ed.). New York: Psychologist, 61(1), 42-49. doi:10.1037/0003-066X.61.1.42
Russell Sage Foundation. Killeen, P. R. (2005). An alternative to null-hypothesis significance
Cumming, G. (2012). Understanding the new statistics: Effect sizes, tests. Psychological Science, 16(5), 345353.
confidence intervals, and meta-analysis. New York: Kirk, R. E. (1996). Practical significance: A concept whose time
Routledge. has come. Educational and Psychological Measurement,
Dunlap, W. P. (1994). Generalizing the common language effect 56(5), 746759. doi:10.1177/0013164496056005002
size indicator to bivariate normal correlations. Psychological Kline, R. B. (2004). Beyond significance testing: Reforming data
Bulletin, 116(3), 509511. analysis methods in behavioral research (2. ed.).
Durlak, J. A. (2009). How to select, calculate, and interpret effect Washington, DC: American Psychological Association.
sizes. Journal of Pediatric Psychology, 34(9), 917928. Kraemer, H. C. e Kupfer, D. J. (2006). Size of treatment effects
and their importance to clinical research and practice. BPS,
59(11), 990996. doi:10.1016/j.biopsych.2005.09.014

14

Revista Portuguesa de Investigao Comportamental e Social 2015, Vol. 1 (1): 3-16
Portuguese Journal of Behavioral and Social Research 2015, Vol. 1 (1): 3-16

Khberger, A., Fritz, A. e Scherndl, T. (2014). Publication bias in Orwin, R. G. (1983). A fail-safe N for effect size in meta-analysis.
psychology: A diagnosis based on the correlation between Journal of Educational Statistics, 8(2), 157159.
effect size and sample size. PLoS ONE, 9(9), e105825, 1-8. Paiva, A. C., Cunha, M., Xavier, A. M., Marques, M., Simes, S. e
doi:10.1371/journal.pone.0105825 Espirito-Santo, H. (2013). Exploratory study of risk-taking
Lakens, D. (2013). Calculating and reporting effect sizes to and self-harm behaviours in adolescents: prevalence,
facilitate cumulative science: a practical primer for t-tests characteristics and its relationship to attachment styles.
and ANOVAs. Frontiers in Psychology, 4(863), 1-12. European Psychiatry, 28(Supl. 1). doi:10.1016/S0924-
doi:10.3389/fpsyg.2013.00863 9338(13)76530-1
Lee, M. D. e Wagenmakers, E.-J. (2005). Bayesian statistical Pearson, K. (1900). Mathematical contributions to the theory of
inference in psychology: comment on Trafimow (2003). evolution. VII. On the correlation of characters not
Psychological Review, 112(3), 662668. doi:10.1037/0033- quantitatively measurable. Philosophical Transactions of the
295X.112.3.662 Royal Society of London. Series a, Containing Papers of a
Lemos, L., Espirito-Santo, H., Silva, G. F., Costa, M., Cardoso, D., Mathematical or Physical Character, 195, 147.
Vicente, F., et al. (2014). The impact of a Neuropsychological doi:10.1098/rsta.1900.0022
Rehabilitation Group Program (NRGP) on cognitive and Reiser, B. e Faraggi, D. (1999). Confidence intervals for the
emotional functioning in institutionalized elderly (p. 1). overlapping coefficient: the normal equal variance case.
Presented at the 22nd European Congress of Psychiatry, Journal of the Royal Statistical Society: Series D (the
Munich. Statistician), 48(3), 413418.
Lenth, R. V. (20062014). Java applets for power and sample size. Rosenthal, R. (1979). The file drawer problem and tolerance for
Acedido em null results. Psychological Bulletin, 86(3), 638-641.
http://homepage.stat.uiowa.edu/~rlenth/Power/ Rosenthal, R. (1983). Assessing the statistical and social
Liesbeth, W. A., Prins, J. B., Vernooij-Dassen, M. J. F. J., Wijnen, H. importance of the effects of psychotherapy. Journal of
H., Olde Rikkert, M. G. M. e Kessels, R. P. C. (2011). Group Consulting and Clinical Psychology, 51, 4-13.
therapy for patients with mild cognitive impairment and Rosenthal, R. (1994). Parametric measures of effect size. Em H.
their significant others: results of a waiting-list controlled Cooper e L. V. Hedges (Eds.). The handbook of research
trial. Gerontology, 57(5), 444454. doi:10.1159/000315933 synthesis (pp. 231244). New York: Russell Sage.
Lipsey, M. W., Puzio, K., Yun, C., Hebert, M. A., Steinka-Fry, K., Rosenthal, J. A. (1996). Qualitative descriptors of strength of
Cole, M. W. Busick, M. D. (2012). Translating the association and effect size. Journal of Social Service
statistical representation of the effects of education Research, 21(4), 37-59.
interventions into more readily interpretable forms.
Rosnow, R. L. e Rosenthal, R. (1989). Statistical procedures and
National Center for Special Education Research. National
the justification of knowledge in psychological science. The
Center for Special Education Research, Institute of
American Psychologist, 44(10), 1276-1284.
Education Sciences.
Rosnow, R. L., Rosenthal, R. e Rubin, D. B. (2000). Contrasts and
Loftus, G. R. (1991). On the tyranny of hypothesis testing in the
correlations in effect-size estimation. Psychological Science,
social sciences. Contemporary Psychology, 36(2), 102105.
11(6), 446453.
Loftus, G. R. (1996). Psychology will be a much better science
Salsburg, D. (2002). The lady tasting tea. New York: Macmillan.
when we change the way we analyze data. Current
Directions in Psychological Science, 161171. Sanabria, F. e Killeen, P. R. (2007). Better statistics for better
decisions: rejecting null hypotheses statistical tests in favor
McCartney, K. e Rosenthal, R. (2000). Effect size, practical
of replication statistics. Psychology in the Schools, 44(5),
importance, and social policy for children. Child
471481. doi:10.1002/pits.20239
Development, 71(1), 173180.
Schatz, P., Jay, K. A., McComb, J. e McLaughlin, J. R. (2005).
McGraw, K. O. e Wong, S. P. (1992). A common language effect
Misuse of statistical tests in Archives of Clinical
size statistic. Psychological Bulletin, 111(2), 361-365.
Neuropsychology publications. Archives of Clinical
McMillan, J. H. e Foley, J. (2011). Reporting and discussing effect Neuropsychology, 20(8), 10531059.
size: Still the road less traveled. Practical Assessment, doi:10.1016/j.acn.2005.06.006
Research e Evaluation, 16(14), 112.
Schmidt, F. L. e Hunter, J. E. (2004). Methods of Meta-Analysis.
Morrison, D. E. e Henkel, R. E. (Eds.). (1970). The significance test Thousand Oaks: SAGE Publications.
controversy: A reader. Chicago: Aldine.
Schneider, A. L. e Darcy, R. E. (1984). Policy implications of using
Nakagawa, S. e Cuthill, I. C. (2007). Effect size, confidence significance tests in evaluation research. Evaluation Review,
interval and statistical significance: a practical guide for 8(4), 573582. doi:10.1177/0193841X8400800407
biologists. Biological Reviews, 82(4), 591605.
Schnemann, H. J., Oxman, A. D., Vist, G. E., Higgins, J. P. T.,
doi:10.1111/j.1469-185X.2007.00027.x
Deeks, J. J., Glasziou, P. e Guyatt, G. H. (2008). Interpreting
Nickerson, R. S. (2000). Null hypothesis significance testing: A results and drawing conclusions. Em J. P. T. Higgins e S.
review of an old and continuing controversy. Psychological Green, Cochrane Handbook for Systematic Reviews of
Methods, 5(2), 241301. doi:10.1037//1082-989X.5.2.241 Interventions: Cochrane Book Series (pp. 129). The
Nunnally, J. C. (1978). Psychometric Theory. New York: McGraw- Cochrane Collaboration.
Hill. Sechrest, L. McKnight, P. e McKnight, K. (1996). Calibration of
Olejnik, S. e Algina, J. (2000). Measures of effect size for measures in psychotherapy outcome studies. American
comparative studies: Applications, interpretations, and Psychologist, 51, 1065-1071.
limitations. Contemporary Educational Psychology, 25(3),
241286. doi:10.1006/ceps.2000.1040
15
Calcular e apresentar tamanhos do efeito em trabalhos cientficos
Esprito-Santo, H. & Daniel, F.

Sedlmeier, P. e Gigerenzer, G. (1989). Do studies of statistical


power have an effect on the power of studies? xii O tamanho da amostra depende do nvel de significncia (pode ser =
Psychological Bulletin, 105(2), 309-316. 0,05), do erro padro (para isso obtm-se os desvios-padro obtidos
Snyder, P. e Lawson, S. (1993). Evaluating results using corrected por outros estudos que usaram a mesma medio e depois divide-se o
and uncorrected effect size estimates. The Journal of desvio-padro pelo n para obter o erro padro) e do poder do teste
Experimental Education, 61(4), 334349. (sugere-se o valor de 0,90 ou mesmo de 0,95) e do tamanho da
populao (Cohen, 1992a). Para um poder de 80%, so necessrios 393
Sun, S., Pan, W. e Wang, L. L. (2010). A comprehensive review of
sujeitos para um efeito pequeno, 64 para um mdio e 26 para um
effect size reporting and interpreting practices in academic
journals in education and psychology. Journal of grande.
Educational Psychology, 102(4), 989-1004. xiii h um certo risco inerente em oferecer definies operacionais
convencionais para esses termos a usar na anlise do poder num
Tabachnick, B. G. e Fidell, L. S. (2007). Using Multivariate Statistics
(5. ed.). Boston: Pearson. campo de investigao to diverso como a cincia
comportamental.

xiv algum sentido sua escala [do TDE]
xv um ndice atrativo do tamanho do efeito que no requer um
conhecimento prvio de estatstica para o entender.
NOTAS xvi De acordo com a reviso de Jacobson (1991, p. 12), no domnio da
interveno psicoteraputica, os critrios para a significncia clnica
devem incluir: uma grande percentagem de melhoria; um grau de

mudana reconhecvel pelas pessoas significativas; a eliminao do
i Um valor de p de 0,05 significa que as chances de obter uma diferena
problema; nveis normativos de funcionamento; ou mudanas que
mdia dessa magnitude ou maior de 1 em 20 e as chances de obter
reduzam o risco de outros problemas de sade.
uma diferena mdia dessa magnitude ou menor de 19 em 20 se as
xvii Assume-se que 20% do grupo de comparao tenha resultados
duas amostras representarem a mesma populao (Carver, 1978, p.
favorveis, melhorando acima de um ponto de corte definido.
392).
ii Entre as alternativas ao nvel de significncia, queremos destacar a
sugesto de estimar a probabilidade de replicao (Sanabria e Killeen,
2007) e de replicar efetivamente o estudo com outras amostras
(Carver, 1978). Outra das alternativas prope a aplicao do
paradigma Bayesiano Lee e Wagenmakers, 2005; Wagenmakers,
2007).
iii Deus gosta do 0,06 quase tanto como do 0,05.
iv no h uma razo lgica forte por detrs desta opo.
v Nas palavras de Conn (2014, p. 291): fora a tomada de decises binrias
(tipo sim-no ) para dados contnuos.
vi Para aprofundar a temtica do poder dos testes, o leitor interessado
pode recorrer aos textos de Cohen (1988, pp. 14-19; 1992b, p. 100) e
de Kline (2004, pp. 76-81).

vii Qual a probabilidade de obter uma pessoa morta (etiquete esta


parte D) dado que a pessoa foi enforcada (rotule esta parte H); isto ,
na forma de smbolo, o que p(D|H)? Obviamente, que vai ser muito
alta, talvez 0,97 ou superior. Agora, vamos inverter a pergunta. Qual
a probabilidade de uma pessoa ter sido enforcada (H) dado que a
pessoa est morta (D); isto , o que p(H|D)? Desta vez, a
probabilidade ser, sem dvida, muito baixa, talvez 0,01 ou inferior.
viii Ainda que se deva ter cuidado com amostras pequenas, pois h uma
tendncia para obter tamanhos do efeito maiores com amostras
pequenas (Khberger, Fritz e Scherndl, 2014). Por isso, se sugere que
se faa a anlise sistemtica dos TDE em diferentes estudos por forma
a determinar at que ponto o tamanho da amostra influencia os
resultados (Snyder, 1993).
ix apresente sempre o tamanho do efeito para resultados primrios.
x a notificao e interpretao dos TDE [tamanhos do efeito] no
contexto dos efeitos previamente relatados essencial para uma boa
pesquisa.
xi Para reduzir potenciais efeitos de enviesamento de artefactos
estatsticos e aproximar o TDE, baseado numa amostra, a um TDE
populacional, vejam-se as sugestes de Breaugh (2003, p. 94-95) ou,
de forma mais detalhada, as de Schmidt e Hunter (2004).

16

The author has requested enhancement of the downloaded file. All in-text references underlined in blue are linked to publications on ResearchGate.

Vous aimerez peut-être aussi