Vous êtes sur la page 1sur 43

Testes de hipóteses

Índice

1. Introdução

2

2. Metodologia do contrate de hipóteses

2

3. Tipos de erros nos testes de hipóteses

4

4. Testes de hipóteses clássicos

7

4.1

Testes acerca da média de uma amostra

7

4.1.2

Caso 1: A variância da população é conhecida

7

Cálculo da probabilidade limite

14

Cálculo da potência do teste

15

4.1.2

Caso 2: Variância Desconhecida ou Amostras de Pequenas Amostras

19

Determinação do tamanho da amostra

24

4.2

Comparação das médias de duas amostras independentes

27

4.2.1 Teste de homogeneidade de duas variâncias

28

4.2.2 Intervalo de confiança para a diferença de duas médias

29

4.2.3 Estimativa do tamanho das amostras

30

4.3 Comparação das médias de duas amostras emparelhadas

34

4.4 Comparação de duas proporções

37

Exercícios propostos

40

Bibliografia

43

Testes de hipóteses

TESTES DE HIPÓTESES

1. Introdução

Um teste (ou contraste) de hipóteses é um procedimento estatístico cujo objectivo consiste em decidir se se aceitam ou não como certos determinados pressupostos que se estabelecem sobre o comportamento paramétrico (parâmetros estatísticos, distribuição

de probabilidades dos parâmetros ou relações entre parâmetros, etc.) de uma população,

a partir dos resultados observados numa amostra realizada sobre essa população,

quantificando o risco de erro inerente a cada uma das possíveis decisões. Isto é, um teste de hipóteses é uma metodologia estatística cujo objectivo é ajudar o investigador a tomar uma decisão acerca de uma população, através da análise de uma amostra retirada dessa população em estudo.

Os testes de hipóteses mais frequentes nas áreas das Engenharias são:

- testar se uma amostra segue uma determinada função de distribuição de probabilidades;

- testar, com base nos valores de uma amostra, se a média populacional tem um determinado valor;

- testar se duas (ou mais) amostras diferentes provêm da mesma população isto é, comparação das médias e variâncias das amostras).

2. Metodologia do contrate de hipóteses

A realização de um teste de hipóteses

garanta a minimização dos erros da decisão adoptada, e que portanto a decisão tomada

se efectue correctamente.

necessita de uma metodologia de trabalho que

A hipótese que se pretende testar denomina-se hipótese nula, e representa-se por

qualquer outra hipótese, que não inclua a hipótese nula, denomina-se hipótese

H 1 . A hipótese nula baseia-se no pressuposto que a

amostra segue uma determinada lei de probabilidades, que explica a distribuição das frequências na população de onde essa amostra foi retirada.

alternativa, e representa-se por

H ;

0

A hipótese alternativa de um teste de hipóteses não é única; por exemplo, num teste de

(que

hipóteses clássico de comparação de duas médias, a hipótese nula é

H

: x = x

01

2

Testes de hipóteses

também se pode expressar por

alternativas, cuja eleição dependerá dos objectivos do próprio teste; assim, pode ter-se a

hipótese alternativa de um teste bilateral,

x 0 ), ou uma das duas hipóteses alternativas de teste unilateral,

como

concretamente,

respectivo delineamento experimental, que decidirão qual das três alternativas se deverá usar em cada caso.

H : x > x . Deverão ser os objectivos do ensaio, e o

Hx: x = 0 ), mas existem diversas hipóteses

2

01

H

:x

11

x

2

(que também se pode escrever

Hx:

11

2

H

: x < x

11

2

ou

2

11

A definição da hipótese nula não é mero acaso, mas está condicionada aos pressupostos estatísticos inerentes ao teste estatístico que se vai a realizar; isto é, e reportando-nos de

novo ao teste de comparação de duas médias, a hipótese nula será

, pois o teste estatístico que se vai a utilizar na decisão tem como

pressuposto que sob a hipótese de se ter

calculam para auxiliar na decisão seguem uma determinada função de distribuição de probabilidades.

x x = 0 , então as estatísticas que se

poderá ser

, e não

H

: x

01

= x

2

H

:x

01

x

2

1

2

Os passos típicos para a realização de um teste de hipóteses são os que de seguida se enumeram. A fim de facilitar a interpretação dos passos a seguir, apresenta-se em paralelo um exemplo simples:

Passos num teste de hipóteses

Exemplo

 

1. Definir as hipóteses nula e alternativa

1.

H

0

:

x = x

A

B

Hx x

1

:

AB

 

2. Definir o erro máximo admissível para a

2. Definir α = 5%

 

decisão (isto é, definir qual a probabilidade máxima que estamos dispostos a correr de

 

aceitar

H como válida, quando na

0

realidade

H

0

é falsa (erro de tipo I, ou α )

3.

Definir uma estatística de teste

3. Definir a estatística de teste

 
   

x

A

x

B

T =

2 2 s s A + B N N A B
2
2
s
s
A
+
B
N
N
A
B
 

4. Definir a função de distribuição de probabilidades da estatística de teste, sob o

pressuposto que

H

é verdadeira

4.

Admitindo

 

2

2

sob

 
 

que

s

A

= s

B

e

o

pressuposto que

H é verdadeira, T segue

0

 

0

uma

 

distribuição

t-Student

com

 

(

N

A

+ N

B

2)

graus de liberdade:

T

t

(

α

;

N

A

+

N

B

2)

Testes de hipóteses

5.

Definir uma região de aceitação e uma

5.

Estabelecida a função de distribuição de

região de rejeição (ou região crítica) de

H

0

probabilidades de T, a região crítica é definida:

   

0.45

 

0.4

1-α
1-α

0.35

0.3

0.25

0.2

0.15

0.1

15

85

8

99

29

78

57

43

113

36

106

64

50

120

92

22

1

71

0.05

0

α/2

-t c

Região crítica

Região de aceitação de Ho

α/2

t c

Região crítica

6.

Definir o delineamento experimental e

6.

Definir duas amostras de indivíduos, em

recolher as amostras de dados

 

tudo semelhantes; a cada uma das unidades experimentais, é atribuído de modo

 

completamente aleatório, um dos dois tratamentos cujo efeito pretendemos comparar. Recolha dos resultados.

7.

Com base no delineamento experimental

7.

Calcular a estatística de teste:

 

e no tipo de teste de hipóteses, calcular a

 

x

A

x

B

estatística de teste

 

T =

2 2 s s A + B N N A B
2
2
s
s
A
+
B
N
N
A
B
 

, estatística de teste e na região crítica

8.

Aceitar ou rejeitar

H

0

com base

na

8.

Aceitar H

0

se:

Tt  

( 1; − α 2
(
1;
α
2

NN

+−

AB

2

)

;

t

( 1; − α 2
(
1;
α
2

NN

+−

AB

2

)

3. Tipos de erros nos testes de hipóteses

Os testes de hipóteses são baseados em estatísticas de amostras realizadas na população, pelo que, tal como estas, estão sujeitos a erros.

Consideremos um teste de hipóteses referente à comparação das médias de duas amostras independentes:

H

0

:

x = x

A

B

Hx x

1

:

AB

Consideremos que foi definida a região de aceitação, tal que a hipótese nula é aceite se a estatística de teste estiver no intervalo T [2.101;2.101], correspondente a um nível

de significância de 5% e a duas amostras cada uma com 10 observações.

Após recolher as duas amostras, em que dois dos valores da amostra A eram anormalmente elevados quando comparados com os restantes oito valores da amostra A, estes muito parecidos aos 10 elementos da amostra B, pode acontecer ter-se chegado a um valor da estatística de teste T = 2.25 (exactamente devido a esses dois valores fora

Testes de hipóteses

do comum) que, pela regra de decisão acima indicada, conduz à rejeição da hipótese nula.

Isto é, quando a maior parte dos valores das duas amostras parecem indicar que as duas amostras são muito iguais, não havendo razão para as considerar distintas, o facto de numa delas existirem alguns valores anómalos pode levar à rejeição errónea da hipótese nula, não porque as amostras não sejam iguais, mas antes, provavelmente, por uma amostragem deficiente.

O inverso também pode acontecer: perante duas populações nitidamente distintas, as

amostragens para constituir os dois grupos de comparação podem estar viciadas, no sentido de se terem seleccionado para ambas as amostras indivíduos muito homogéneos,

o

que pode conduzir a uma estatística de teste anormalmente baixa (em valor absoluto),

e

consequentemente à aceitação (errónea) da hipótese nula, quando na verdade ela

deveria ter sido rejeitada. Isto é, a hipótese nula, embora na realidade não seja verdadeira, não foi rejeitada pelo teste, pois da amostra não resulta suficiente evidência para a rejeição.

Isto é, nos testes de hipóteses há a possibilidade de se cometerem dois tipos de erros:

Erros do tipo I: consiste em rejeitar a hipótese nula, quando na realidade ele é válida; Erros do tipo II: consiste em não rejeitar a hipótese nula quando na realidade é falsa.

De um modo esquemático:

Decisão
Decisão

H

0

verdadeira

H

0

falsa

Aceitar H

0

Decisão correcta

Erro do tipo II

 

1α

 

β

Não aceitar H

0

Erro do tipo I

Decisão correcta

 

α

 

1β

As probabilidades de, num teste estatístico, cometer algum destes dois tipos de erros, são geralmente designadas por α e β , respectivamente:

α=

β=

Pr erro dotipo I Pr rej eitar H H verdadeira

=

0

0

)

(

)

(

(

)

(

)

Pr erro dotipo II Pr nao rej eitar H H f alsa

=

0

0

O erro do tipo I também se designa frequentemente por nível de significância ou “risco

do vendedor”, na acepção de ser a probabilidade de não se vender o produto (rejeitar H ) quando este cumpre as condições estabelecidas no contrato ( H verdadeira); o erro

0

0

do tipo II também se designa por “risco do comprador”, no sentido de ser a

probabilidade que o comprador tem de adquirir um produto (aceitar não cumpre as especificações ( H falsa).

H ) quando este

0

0

Como atrás se referiu, num teste de hipóteses geralmente especifica-se à priori um valor para a probabilidade de cometer um erro do tipo I, e de seguida conduz-se o teste de

Testes de hipóteses

modo a que se minimize a probabilidade de erro do tipo II, pelo menos para algum valor do parâmetro no qual o teste se baseia.

Nota: está muito generalizada a utilização de alguns níveis de significância concretos, nomeadamente α = 5% (o mais usual). Nada obsta a que se utilize este nível de significância num teste de hipótese, mas deve alertar-se o leitor que este uso generalizado resulta do facto de, quando se começaram a desenvolver estas metodologias estatísticas (nos anos 1920), os meios de cálculo eram muito reduzidos, comparativamente aos actuais. A definição da região crítica do teste resulta da função de distribuição de probabilidades que a estatística de teste segue. O cálculo desta função de distribuição de probabilidades é bastante complexo, requerendo meios de cálculo automático, que não estavam disponíveis na época. Para contornar este obstáculo, os estatísticos de então tiveram de tabelar as funções de distribuição de probabilidades, para alguns valores de probabilidade, tendo-se então adoptado a regra de se usarem níveis de significância de 2.5%, 5% ou 10%. Com os actuais meios de cálculo disponíveis, qualquer programa estatístico calcula o nível de significância para o teste em análise (p-value), sendo mais óbvio usar este valor para a decisão do teste.

A potência de um teste de hipóteses é a probabilidade:

Power

=−β=

1

Pr(

rejeitar H H falsa

0

0

)

Alguns programas estatísticos calculam os valores de β e a potência do teste 1β para valores específicos do parâmetro do teste (por exemplo a média), e apresentam um gráfico denominado curva característica de operação, com o valor do parâmetro do teste em abcissas e β em ordenadas, e um gráfico da potência do teste em que ao eixo das ordenadas representa o valor da potência. De seguida veremos alguns exemplos.

Segundo o valor da estatística de teste, T , esteja mais ou menos próximo do calor

crítico,

diferente. Entende-se por nível significância limite, probabilidade limite, p-value ou

coincide com

o valor da estatística de teste T . Isto é, p-value é a probabilidade de obter um valor da estatística de teste pelo menos tão extrema quanto a calculada, quando a hipótese nula é verdadeira. É o menor valor do nível de significância que permite a rejeição da hipótese nula. Assim:

H será

t c
t
c

, que define a região crítica, o grau de aceitação ou de rejeição de

quando o valor crítico

t c
t
c

0

simplesmente p , à probabilidade de rejeitar H

0

Se p > α então aceita-se

Se p < α então não se aceita

H

0

como verdadeira;

H

0

como verdadeira.

Note-se o paralelismo entre os testes de hipóteses e os intervalos de confiança: se a estatística de teste se situa dentro da região de aceitação, significa que não há evidência estatística, ao nível de significância α , para a rejeição da hipótese nula; isto equivale a que o parâmetro estatístico (por exemplo, a média) se situe dentro do intervalo de confiança 1α .

Testes de hipóteses

4. Testes de hipóteses clássicos

4.1 Testes acerca da média de uma amostra

Num teste de hipóteses de média constante pretende-se confirmar se a média µ (desconhecida) de uma população normal Ν (µ;σ ) toma um determinado valor

constante µ , a partir da informação proporcionada pelos dados de uma amostra aleatória extraída dessa população.

0

A estatística de teste é estabelecida entre a diferença do parâmetro a estimar (a média da

amostra é um estimador da média populacional, x = µˆ ) e o valor que se deseja contrastar ( µ ), dividida pelo erro padrão da média, isto é:

0

x µ

0

σ

x

4.1.2 Caso 1: A variância da população é conhecida

Embora o pressuposto de que seja conhecido o valor da variância da população σ

2 seja

raramente satisfeito, este caso é contudo um bom ponto de partida para a introdução aos testes de hipóteses sobre a média.

A realização deste teste de hipóteses pressupõe a realização de uma amostra de tamanho

N, para estimar o valor da média da população; pretende-se testar se esta estimativa é o

verdadeiro valor da média da população, seguintes formulações:

µ ; este teste de hipóteses terá uma das

0

i) Teste bilateral:

ii) Teste unilateral direito:

iii) Teste unilateral esquerdo:

H

0

H

0

H

0

:µ=µ

H :µµ

0

01

:µ=µ

H :µµ>

0

01

:µ=µ

H :µµ<

0

01

Se a hipótese nula é válida, a estatística de teste segue uma distribuição normal de média zero e variância 1, isto é:

Z == −

x

µ

0

x

µ

0

σ

x

σ

N
N

Ν

(

0;1)

)

A região crítica é definida pela distribuição normal estandardizada, isto é, para um

determinado valor de α , e de acordo com o tipo de teste (unilateral ou bilateral), os limites das zonas crítica e de aceitação são definidas pela curva da distribuição normal

Testes de hipóteses

Ν (0,1) de modo a que a zona crítica defina uma probabilidade de α e a zona de

aceitação defina uma probabilidade de 1α .

Assim, para o teste bilateral, tendo fixado um nível de α = 5% , a acontecer erro de tipo

I, este pode acontecer ou bem porque se rejeite

muito superior à média populacional, ou bem porque se rejeite

média amostral é muito inferior à média populacional. Isto é, a região crítica é definida em ambas as caudas da curva da distribuição, o que significa que os valores da estatística de teste que levam à rejeição da hipótese nula devem estar mais afastados (em qualquer das extremidades) do valor médio da curva da distribuição normal Ν (0,1) do

quando o valor da

quando o valor da média amostral é

H

0

H

0

que o valor crítico

Z tal que:

c

Pr (

Pr

( Z >

Z c
Z
c

)

α

==

0.05

Z <−Z + Z >Z =α= 0.05

c

Pr

c

)

(

)

Como a curva da distribuição normal é simétrica, tem-se que:

Pr ( <−Z = )(Pr α Z ZZ > ) = = 0.025 c c
Pr (
<−Z =
)(Pr
α
Z
ZZ
>
)
=
= 0.025
c
c
2
2,5%
2,5%

ou seja:

Pr (

Z <Z

c

)

= 0.975

Nota: convém efectuar esta passagem, pois os programas estatísticos, bem como algumas das tabelas da distribuição normal, apresentam os valores de função de distribuição cumulativa.

Testes de hipóteses

97.5% 1,96
97.5%
1,96

c pode ser obtido de uma tabela da distribuição normal estandardizada, ou

O valor de

de qualquer programa informático que calcule a distribuição normal, nomeadamente a folha de cálculo Excel, com a função INV . NORM (Pr; µ;σ ) :

Z

função INV . NORM ( P r ; µ ; σ ) : Z Isto é,

Isto é, o valor crítico que define a região de rejeição e de aceitação da hipótese nula é o

valor

; assim, se o valor da estatística de teste for superior (em valor absoluto)

ao valor crítico, deve rejeitar-se a hipótese nula; caso contrário, não se rejeita, isto é:

Z

c

=

1.96

Se

Se

não se rejeita, isto é: Z c = 1.96 Se Se > Z = c ≤

> Z =

c

Z = Z =

c

1.96

1.96

, então rejeitar H ;

0

, então não rejeitar H .

0

Note-se que o intervalo de confiança 1α para a média, baseado na estimativa amostral

da média x = µˆ , e pressupondo que a variância σ

2 é conhecida, é dado por:

Testes de hipóteses

µ

µ

µ

[

x ± Z

α

.

σ

x

]

+de hipóteses µ µ µ ∈ [ x ± Z α . σ x ] Z

Z

α

σ  . N  
σ
.
N
 

Para grandes amostras ( N > 30 ), mesmo que

se pela variância amostral, a expressão anterior transforma-se em:

σ 2 não seja conhecida, tendo de estimar-

µ

µ

µ

+em: σ 2 não seja conhecida, tendo de estimar- µ µ µ Z α s 

Z

α

s  . N  
s
.
N
 

Se

distribuição,

distribuição, nomeadamente:

o

teste

é

só poderá ocorrer numa das caudas da

isto é, a região crítica tem apenas uma das zonas da extremidade da

unilateral, o

erro

do

tipo

I

Se o valor da média amostral é muito maior que a média populacional em teste,

a zona crítica é constituída pela cauda superior da distribuição; deve utilizar-se

quando o investigador suspeita que a média amostral é maior que

µ .

0

Se o valor da média amostral é muito menor que a média populacional em teste,

a zona crítica é constituída pela cauda inferior da distribuição; deve utilizar-se

quando o investigador suspeita que a média amostral é menor que

µ

0

.

Assim, e ao contrário do que acontecia no teste bilateral, toda a probabilidade de ocorrer erro do tipo I se situa numa das caudas da distribuição:

i) Teste unilateral direito:

Pr (

)

Z >Z ==α

c

0.05

Em termos de função cumulativa de probabilidades, esta probabilidade é equivalente a:

Pr (

Z <Z

c

)

= 0.95

Testes de hipóteses

95% 1.645
95%
1.645

Por consulta numa tabela da distribuição normal, ou com recurso a um programa

estatístico, o valor crítico correspondente é

Z =

c

1.645

:

o valor crítico correspondente é Z = c 1.645 : Assim, se o valor da estatística

Assim, se o valor da estatística de teste for superior ao valor crítico, deve rejeitar-se a hipótese nula; caso contrário, não se rejeita, isto é:

Se

Se

Z > Z = 1.645 , então rejeitar H

c

0

;

Z Z = 1.645 , então não rejeitar H

c

0

.

ii) Teste unilateral esquerdo:

Pr (

)

Z <−Z =α= 0.05

c

Como esta probabilidade se refere à cauda esquerda da distribuição, corresponde

à função cumulativa de probabilidades. Por consulta numa tabela da

distribuição normal, ou com recurso a um programa estatístico, o valor crítico

correspondente é Z =− 1.645

:

c

Testes de hipóteses

Testes de hipóteses Assim, se o valor da estatística de teste for inferior ao valor crítico,

Assim, se o valor da estatística de teste for inferior ao valor crítico, deve rejeitar-se a hipótese nula; caso contrário, não se rejeita, isto é:

Se

Se

Exemplo:

Z

Z

<−Z

≥−Z =− 1.645 , então não rejeitar H

c

c

=− 1.645 , então rejeitar H

0

;

0

.

Foi medida a concentração de monóxido de carbono (mg/m 3 ) em diversos pontos de uma cidade, tendo-se obtido os seguintes valores:

10.25

10.37

10.66

10.47

10.56

10.22

10.44

10.38

10.63

10.40

10.39

10.26

10.32

10.35

10.54

10.33

10.48

10.68

Admitindo que o erro padrão da média é de

pretende-se testar se se pode considerar que a concentração média de monóxido de carbono é de 10 mg/m 3 (valor de referência de medições anteriores).

3 (de medições anteriores),

σ =

x

0.24

/

mg m

O teste de hipóteses é o seguinte:

H

0

: x = 10 mg / m

3

Hx: 10 mg / m

1

3

Como se admite conhecer o erro padrão da média da população ( estatística de teste é:

σ

x

=

0.24

3

mg m ), a

/

Z =

x

µ

0

σ

x

Ν

(

0,1

)

que segue uma distribuição normal estandardizada.

Testes de hipóteses

Para um teste bilateral, como atrás se explicou, e para um nível de significância

α = 5% ,

a região

de aceitação da hipótese nula é

Z
Z

1.96

e

a região crítica é

Z
Z

>

1.96

.

18

x

i

Com base na amostra, estima-se a média amostral ( x =

i = 1
i
=
1

18

= 10.429 ) que se pretende

comparar com a média de referência ( estatística de teste:

3

µ = 10 mg / m ), e de seguida calcula-se a

0

x

µ

0

10.429

10

Z ==

=

σ

x

0.24

1.788

Como (

, isto é, o valor da estatística de teste está dentro da

região de aceitação, conclui-se que não há evidência estatística para rejeitar a hipótese nula, isto é, concluímos que se deve aceitar que a concentração média de monóxido de carbono, medida neste dia, não difere da concentração média de referência.

Z
Z

= 1.788)

(

<=Z

c

1.96)

O intervalo de confiança para a média da população, com base na média amostral, é

dado por:

µ

µ

µ

[

[

[

x ± Z

10.429

9.9586;10.8994

α

σ

.

x

]

±×

1.96

.24

]

]

A interpretação do intervalo de confiança é a seguinte: efectuando múltiplas

amostragens desta população (isto é, efectuando múltiplas amostragens do teor de monóxido de carbono nesta cidade), e calculando a respectiva média, existe a probabilidade de 1α de as médias se situarem no interior deste intervalo. Como o valor de referência ( µ = 10 ) fica dentro do intervalo, é estatisticamente verosímil que

0

ocorra este valor como sendo o valor da média.

Caso se pretendesse testar se neste dia a concentração média monóxido de carbono é superior à média de referência, efectuava-se o teste unilateral:

H

0

: x = 10 mg / m

3

Hx: > 10 mg / m

1

3

A estatística de teste tem a mesma distribuição de probabilidades e o mesmo valor. A

única alteração a fazer, é a definição da região crítica, em que toda a probabilidade de erro ocorre na cauda superior da distribuição, como atrás se referiu. Para um nível de

significância α = 5% , a região de aceitação da hipótese nula é Z 1.645 e a região crítica ou de rejeição é Z > 1.645 .

Como a estatística de teste é Z=1.788, conclui-se que se deverá rejeitar a hipótese nula,

ou seja, deve concluir-se que, aparentemente, neste dia a concentração de monóxido de carbono é superior ao valor médio de referência.

Testes de hipóteses

Note-se que parece haver uma contradição na decisão tomada, conforme se opte por efectuar um teste bilateral ou um teste unilateral. Assim, é da responsabilidade do investigador decidir previamente os seus objectivos, de modo a evitar esta aparente ambiguidade da Estatística. Recordemo-nos que os testes de hipóteses, tal como todas as metodologias estatísticas, são meras ferramentas de apoio ao investigados, e não um substituto do investigador.

Cálculo da probabilidade limite

Esta aparente ambiguidade pode ultrapassar-se se, em vez de fixar taxativamente e a priori, um nível de significância, optarmos por calcular a probabilidade limite, ou p- value, e em face deste valor, fazer a decisão. Aliás, qualquer programa estatístico apresenta este valor.

Tal como definido atrás, a probabilidade limite representa a probabilidade de obter um valor da estatística de teste pelo menos tão extrema quanto a calculada, quando a hipótese nula é verdadeira. No fundo, representa a probabilidade de uma “região crítica” definida pelo valor da estatística de teste.

Assim, o p-value é calculado com base no valor da estatística de teste e na função de distribuição de probabilidades que esta segue, colocando a região crítica nas zonas exteriores ao valor da estatística de teste.

Teste bilateral:

Teste unilateral direito:

Teste unilateral esquerdo:

p value Pr

p value = Pr (Z > Z )

p value = Pr (Z <− Z )

−=>Z

(

Z
Z

)

em que Z representa o quantil da distribuição e Z é a estatística de teste.

No exemplo anterior o valor da estatística de teste é Z = 1.788 , e pelos pressupostos do teste, distribui-se segundo a normal estandardizada. A probabilidade limite é:

p value

= Pr ( Z >= Pr Z ) ( Z > 1.788 ) = Pr
=
Pr
(
Z
>= Pr
Z
)
(
Z
> 1.788
)
=
Pr
(
Z
<−
1.788
)(
+
Pr
Z
>
1.788
)
=
Pr
(
Z
<−
1.788
)(
+ −
1
Pr
Z
<
1.788
)
=
0.0369
+− 1
[
0.9631
]
= 0.0738

Os valores das probabilidades são obtidos consultando uma tabela da distribuição normal estandardizada, ou usando qualquer programa que a calcule. Por exemplo, na folha de cálculo Excel, a função DIST . NORMP ( Z ) dá a distribuição normal

acumulada, isto é Pr ( Z < Z) :

Testes de hipóteses

Testes de hipóteses Tratando-se de um teste bilateral, para obte r a probabilidade limite deve multiplicar-se

Tratando-se de um teste bilateral, para obter a probabilidade limite deve multiplicar-se este valor por 2, sendo portanto p value = 0.0738 . Assim, pode dizer-se que, para um nível de significância de α = 5% , a hipótese nula não seria rejeitada; porém, seria rejeitada para α = 7.5% ou para α = 10% .

No caso do teste unilateral direito, teríamos:

p value =

Pr

(

Z

)

>=Z

Pr

(

Z

>

1.788

)

Pr

=− Z <

1

(

1.788

)

 

1

= −

0.9631

 

= 0.0369

valor este que leva à rejeição da hipótese nula para qualquer nível de significância superior a 3.7%.

Cálculo da potência do teste

A potência do teste é a probabilidade de um teste de hipóteses rejeitar a hipótese nula, quando ela é falsa:

sendo:

β=

Power

=−β=

1

Pr(

rejeitar H H falsa

0

0

)

Pr erro dotipo II Pr nao rej eitar H H f alsa

=

0

0

(

)

(

)

O cálculo de diferente de

seja rejeitada se na realidade a média fosse

1β

0

(potência) faz-se admitindo que a média tem outro valor

µ

1

H

0

µ ; nesta situação, calcula-se a probabilidade de que a hipótese

.

No exemplo anterior, seja o novo valor da média µ = 9 .

1

µ ,

1

: µ

0

Testes de hipóteses

Com base no valor

µ

0

= 10

, (e sendo

σ

x

=

0.24

, α = 0.05 ), calculam-se os limites da

região de aceitação; para tal, a partir da expressão

críticos:

Z =

x

µ

σ

x

obtêm-se os limites

x

c

=µ± Z σ

.

x

sendo Z = 1.96 para α = 0.05 . A região de aceitação da hipótese nula H : µ = 10 é

para valores de média no intervalo µ [9.5296;10.4704] .

0

0

De seguida, com base no novo valor presumido para a média, calcula-se a probabilidade

de rejeição da hipótese nula se o valor da média fosse

µ= 9:

1

1

β

−=

Pr

Pr

(

(

rejeitar H H Falsa com

10.4704,

|

00

µ

1

=

com

9

)

µ

1

,

Z

=<

=<

=<

Pr

Z

Pr

µµ

ou

 

(

Z

9.5296

)(

Pr

9.5296

>

9 





Z

+>

=

9

)

10.4704 9  

0.24

2.2067

0.24

)

+>

Pr

6.1267

= 0.9864

D modo igual podemos calcular a potência do teste para outros valores presumidos para

a média. Por exemplo, quando

µ

1

= 9.5 :

1

β

−=

Pr

Pr

(

(

nao rejeitar H | H Falsa , com

00

9.5296

>

10.4704,

com

=<

µµ

ou

µ

1

µ

1

=

=

9.5

9.5

)

)

 

=<

Pr

Z

9.5296

9.5 





10.4704

9.5

 

0.24

0.24

+>

Pr

Z

=<

Pr

(

Z

0.1233

)(

+>

Pr

Z

4.0433

)

= 0.5491

Para µ = µ

1

0

= 10 :

1

β

−=

Pr

Pr

(

(

nao rejeitar H H Falsa com

|

00

,

9.5296

>

10.4704,

com

=<

µµ

ou

µ

1

µ

1

=

=

10

10

)

)

=<

Pr

Z

9.5296

10 

+>

Pr

Z

10.4704

10

0.24





0.24

 

= <−

=

= 0.05

Pr

(

Z

1.96

0.025

0.025

+

)(

+

Pr

Z

>

1.96

)

Testes de hipóteses

Isto é, para o verdadeiro valor da média, a potência do teste 1β coincide com o nível de significância α do teste. Note-se que quanto mais afastado se encontra um valor da verdadeira média, mais potente é o teste, isto é, maior é a probabilidade de o teste rejeitar a hipótese nula, quando a hipótese nula é falsa.

Diversos programas estatísticos calculam a potência do teste, para valores de médias afastados do verdadeiro valor. No caso do MINITAB, há que indicar qual o tamanho da amostra, o desvio padrão (σ ), e um ou diversos valores da diferença entre novos valores de média e o verdadeiro valor da média (por exemplo, nos dois exemplos anteriores, estas diferenças são de –1 e –0.5 respectivamente):

estas diferenças são de –1 e –0.5 respectivamente): Os resultados são os seguintes: IPCB 2005/2006 17

Os resultados são os seguintes:

estas diferenças são de –1 e –0.5 respectivamente): Os resultados são os seguintes: IPCB 2005/2006 17

Testes de hipóteses

Notas: calcularam-se os valores da potência do teste para os seguintes valores de médias: 9, 9.25, 9.5, 9.75, 10, 10.25, 10.5 10.75, 1, que diferem da verdadeira média µ = 10 respectivamente em –1, -0.75, -0.5, -0.25, 0, 0.25, 0.5, 0,75, 1. O valor do desvio padrão (sigma σ = 1.01823 ) corresponde ao erro padrão da

0

média σ = , com N=18.

x

0.24

Alguns programas estatísticos apresentam o gráfico da potência do teste e/ou o gráfico da curva característica de operação. De seguida apresenta-se a curva de potência para um teste de hipóteses semelhante ao anterior, elaborado no programa STATGRAPHICS:

Power Curve

1 0,8 0,6 0,4 0,2 0 -0,48 -0,28 -0,08 0,12 0,32 0,52 Power
1
0,8
0,6
0,4
0,2
0
-0,48
-0,28
-0,08
0,12
0,32
0,52
Power

True Mean

No MINITAB podem calcular-se os valores da potência do teste para diversos valores

de diferenças

e levar esses valores para uma folha de cálculo, onde se calcula o

valor de β e se realizam o gráfico da potência e a curva característica de operação:

µ

1

µ

0

1

0,8

0,6

0,4

0,2

0

Potência

-1 -0,8 -0,6 -0,4 -0,2 0 0,2 0,4 0,6 0,8 1
-1
-0,8
-0,6
-0,4
-0,2
0
0,2
0,4
0,6
0,8
1

µ 1 -µ 0

Testes de hipóteses

Curva característica de operação

1

0,8

0,6

0,4

0,2

0

-1 -0,8 -0,6 -0,4 -0,2 0 0,2 0,4 0,6 0,8 1
-1
-0,8
-0,6
-0,4
-0,2
0
0,2
0,4
0,6
0,8
1

µ 1 -µ 0

4.1.2 Caso 2: Variância Desconhecida ou Amostras de Pequenas Amostras

Tal como no caso anterior, realização deste teste de hipóteses pressupõe a realização de uma amostra de tamanho N, para estimar o valor da média da população; pretende-se

testar se esta estimativa é o verdadeiro valor da média da população,

situação mais realista, em que não se conhece a priori o valor da variância da população, mas em que terá de estimar-se (tal como a média) a partir da amostra. Para pequenas amostras, digamos N < 30 , que é a situação mais frequente em testes de hipóteses nas áreas das Ciências Agrárias, normalmente não se conhece a variância da população, de modo que se deverá utilizar esta metodologia.

µ . Esta é a

0

A estimativa da variância é dada por:

2

s =

 

1

N

 

N

x i  

2

1

N

 
 

x

2

i =

1

−=

x

22

Nx

N

 

1

 

i

NN

 

1

 

 

i

.

 
 

i

=

1

  

i

=

1

 

Este teste de hipóteses terá uma das seguintes formulações:

i) Teste bilateral:

ii) Teste unilateral direito:

iii) Teste unilateral esquerdo:

H

0

H

0

H

0

:µ=µ

H :µµ

0

01

:µ=µ

H :µµ>

0

01

:µ=µ

H :µµ<

0

01

Se a hipótese nula é válida, a estatística de teste segue uma distribuição t-Student com N 1 graus de liberdade:

Testes de hipóteses

T

=

x

µ

0

=

x

µ

0

s s x N
s
s
x
N

t

(

α

; N

1

)

A região de aceitação e a região crítica do teste são definidas pela distribuição t-Student,

para um determinado nível de significância e para N 1 graus de liberdade. Esta

distribuição tem uma forma muito aproximada à distribuição normal, tanto mais próxima da normal quanto maior for o tamanho da amostra. De um modo geral, para amostras de grande dimensão ( N > 30 ), a curva da distribuição t-Student praticamente coincide com a curva da distribuição normal estandardizada, sendo praticamente iguais

as

probabilidades definidas pelas duas distribuições.

Se

a estatística de teste fica na região crítica do teste, deve rejeitar-se a hipótese nula;

caso contrário, não há evidência estatística para rejeitar H . A decisão também pode ser

feita pelo valor da probabilidade limite:

0

Se p > α então aceita-se

Se p < α então não se aceita

H

0

como verdadeira;

H

0

como verdadeira.

Assim, para o teste bilateral, tendo fixado um nível de α = 5% :

Pr

(

T

Pr

t

<−

α

(

T >

;1

N

)

t ) == 0.05 α α ; N − 1 + Pr ( Tt >
t
)
== 0.05
α
α
;
N −
1
+
Pr
(
Tt
>
)
=
α =
α
;1
N

0.05

Como a curva da distribuição normal é simétrica, tem-se que:

( α Pr ( T <− t ) = Pr Tt > ) = =
(
α
Pr
( T
<−
t
)
=
Pr
Tt
>
)
=
=
0.025
α
;1
N
α
;1
N
2
2,5
2,5
-t
t
O valor crítico de
pode ser obtido através da consulta de uma tabela da
t α −
; N
1

distribuição t-Student, ou usando um programa informático que calcule esta

Testes de hipóteses

distribuição. Na folha de cálculo Excel, o valor

bilateral é dada pela função INVT (α; N 1) :

t α

; N

1

para uma situação de teste

− 1 ) : t α − ; N 1 para uma situação de teste Isto

Isto é, para uma amostra de tamanho

N = 18 e para um nível de significância de

α = 5% , a região de aceitação para um teste bilateral é T [2.11;2.11]e a região

crítica é T > 2.11 .
crítica é
T >
2.11
.

Para pequenas amostras ( N < 30 ), ou quando

pela variância amostral, o intervalo de confiança da média é:

σ 2 não é conhecida e tem de estimar-se

µ

 s  ∈± xt . s =± xt . =− xt   (
s

∈±
xt
.
s
xt
.
=−
xt
 
(
α
;1)
N
x
 
(
α
;1) N
 
N
 
ss  .; xt + . ( αα ;1) NN −− ( ;1) NN 
ss
.;
xt
+
.
(
αα
;1)
NN
−−
(
;1)
NN
 

Tratando-se de um teste unilateral (por exemplo, esquerdo), temos:

α=5% t=-1.740 Pr ( T < ) == α 0.05 t α ; N −
α=5%
t=-1.740
Pr
(
T <
)
==
α
0.05
t α
;
N
− 1

Testes de hipóteses

Para

de aceitação T > −1.740 .

N = 18

e α = 5% ,

t (0.05;17)

= −1.740 , sendo a região crítica T < −1.740 e a região

Nota: a função INVT (α; N 1) dá o quantil da distribuição t-Student bilateral, isto é,

se encontra na cauda esquerda (isto é,

= α 2 ) e a outra metade na cauda superior ( Pr (

= α 2 ). Para

em que metade da probabilidade α

Pr( T <− t

c )

em que metade da probabilidade α Pr ( T <− t c ) T > t

T > t

c )

probabilidade α Pr ( T <− t c ) T > t c ) obter o

obter o quantil da distribuição unilateral, temos de simular uma situação em que toda a probabilidade que nos interessa está acima desse quantil; assim, para obter o quantil para α = 5% , na situação unilateral esquerda, temos que entrar com uma probabilidade de 10%; além disso, dá o quantil no lado positivo da distribuição; se se trata do teste unilateral direito, é este quantil que nos interessa; para o teste unilateral esquerdo, o interessa-nos o simétrico deste quantil:

esquer do, o interessa-nos o simétrico deste quantil: Como se trata de um teste unilateral esquerdo,

Como se trata de um teste unilateral esquerdo, o valor crítico é

t (.05;17)

= −1.740 .

Exemplo:

No exemplo anterior admitiu-se conhecido o erro padrão da média da população,

, admissão esta que muitas vezes não é possível. A situação mais verosímil é

que a variância tenha de ser estimada a partir dos dados da amostra.

σ

x

=

0.24

Com base nas 18 observações efectuadas, pretende-se testar se podemos aceitar a

hipótese de que a concentração média de monóxido de carbono é de

µ

0

= 10 mg / m

3

:

Hx:

0

Hx:

1

= 10

10

A partir dos dados da amostra calculemos a média e o desvio padrão.

Testes de hipóteses

18

x

i

= 10.429 10.429

18

2

s =

 

1


N

2

N

i = 1

x i  

2

=

1

1958.251

187.73

2

−= 0.0195

N

1

 

i = 1

x

i

N

  

17

18

A estatística de teste é: x −µ ( x −µ ) N ( 10.429 −
A estatística de teste é:
x −µ
(
x
−µ
)
N
(
10.429
10
)
18
0
0
T
==
=
= 13.034
s
s
0.0195
N

O valor crítico da distribuição t-Student, para N = 18 e para um nível de significância

= 2.11 a região de aceitação para um teste bilateral é

. Como o valor T = 13.034 é nitidamente T = 13.034 é nitidamente

de

α = 5%

é

t (0.05;17)

T [2.11;2.11]e a região crítica é T >

superior ao valor crítico, não nos restam dúvidas que se deverá rejeitar a hipótese nula.

O intervalo de confiança 1α = 0.95 para a verdadeira média da população, com base

na média da amostra é:

µ xt ∈ ± . s   ( α ; N − 1 )
µ xt
±
.
s
 
(
α ;
N
1
)
x
 
s
µ x
±
t
.
(
α ;
N
1
)
 
N
 
0.0195
µ
10.429
±× 2.11
18
µ [
10.3595;10.4985
]

Para proceder ao teste unilateral, basta comparar T = 13.034

= 1.740 . Não nos restam dúvidas que neste dia a

concentração de monóxido de carbono é significativamente superior ao valor de referência µ = 10 .

anteriormente calculado,

com o valor t crítico

t (0.05;17)

0

O cálculo da probabilidade limite, p-value, é impraticável, a não ser com auxílio de um

programa que calcule a distribuição t-Student.Os programas estatísticos calculam este valor. Trata-se de calcular:

p value

= Pr

= Pr

(

(

t

t

>= T ) Pr <− 13.034
>=
T
)
Pr
<−
13.034
( t > 13.034 ) )( + Pr t > 14.034
(
t >
13.034
)
)(
+
Pr
t
>
14.034

)

Testes de hipóteses

A função DISTT (T ; N 1; caudas ) da folha de cálculo Excel calcula esta probabilidade

( T é o valor da estatística de teste, para a qual se pretende calcular a probabilidade limite, e caudas representa se é um teste unilateral ou bilateral):

caudas representa se é um teste unilateral ou bilateral): Isto é, a probabilidade de que, sendo

Isto é, a probabilidade de que, sendo verdadeira a hipótese nula, se tenha uma estatística

de teste tão elevada quanto a obtida, é praticamente nula ( p value = 2.81E −≈10

0 ).

Determinação do tamanho da amostra

Uma questão frequente é “qual deve ser o tamanho da amostra para se obter uma determinada precisão?”. A resposta a esta questão está relacionada com o conceito de intervalo de confiança: um intervalo de confiança expressa a precisão de uma estatística amostral, sendo a precisão maior quando o intervalo de confiança é mais estreito, e isto consegue-se aumentando o tamanho da amostra.

Retomemos a expressão do intervalo de confiança

 s  µ ∈± xt . s = xt ± . =± [ xd
s
µ
∈±
xt
.
s
=
xt
±
.
[
xd
]
 
(
α
;1 N −
)
x
 
(
α
;1
N
)
 
N
 

em que a parcela

d =

t . s ( α − ; N 1) N
t
. s
(
α −
;
N
1)
N

representa a semiamplitude do intervalo de confiança.

Repare-se que d varia na razão inversa da raiz quadrada do tamanho da amostra: quanto maior for a amostra, menor será a amplitude do intervalo, logo maior será a precisão da média.

A amplitude do intervalo varia directamente com a variabilidade da amostra, expressa

pela sua variância; quanto maior for a variabilidade de uma população, maior deverá ser o tamanho da amostra a fim de que a estimativa da variância seja um estimador centrado (não enviezado).

Testes de hipóteses

Para um valor de variância determinado,

semiamplitude d , o tamanho da amostra pode ser estimado por:

s

2

,

e

para

uma

ts . ( α − ;1 N ) N = d
ts
.
(
α −
;1 N
)
N
=
d

N

⇔=

2

ts

(

;1

N

α

)

.

2

d

2

precisão

fixada

pela

A expressão anterior pretende estimar o tamanho da amostra para atingir uma determinada precisão, em termos de amplitude do intervalo de confiança. Contudo, a questão da precisão do teste pode ser colocada em termos de probabilidades de cometer erros de tipo I e de tipo II: qual deverá ser o tamanho da amostra para que seja

µ e uma média

alternativa

significativa a diferença

µ . A solução para esta questão prende-se com o conceito de potência do

δ = µ µ entre

0

1

a

verdadeira

média

0

1

teste, já anteriormente abordada.

O tamanho mínimo do teste para detectar diferença significativa em δ = µ µ

0

1

é:

s

2

(

Ntt

=

δ

2

.

(

α

;1 N

+

)(

β

;1 N

)

)

2

Os programas estatísticos, nomeadamente MINITAB, procedem à estimativa do tamanho da amostra por esta segunda expressão.

Contudo, a estimação envolve um processo iterativo de cálculo, já que a variável a estimar N se encontra em ambos os lados da igualdade. Geralmente inicia-se o processo com um valor de N atribuído por palpite, ou então admitindo que se trata de uma grande amostra, em que a distribuição t-Student é muito aproximada à distribuição

α para a primeira estimação de N ; na

normal, e na primeira iteração usa-se o quantil

segunda iteração (e seguintes), já é possível usar o quantil

de N da iteração anterior. O processo prossegue até que o valor estimado de

N implementado nos programas

estatísticos que estimam o tamanho da amostra (por exemplo, MINITAB).

é o valor

Z

t

(

α

; N

*

1

)

, em que

N

*

N convirja. É este o algoritmo de estimação de

Exemplo:

No exemplo anterior ( x