Vous êtes sur la page 1sur 15

Universidade de São Paulo

Escola Superior de Agricultura “Luiz de Queiroz”


Seção Técnica de Informática

Teste t de Student

Marcelo Corrêa Alves

Proc Step

– Piracicaba / 2017 –
2 Proc Univariate: Testando a normalidade

______Proc test: Comparando duas médias

Sumário

1 Introdução ......................................................................................................... 3
2 Objetivo ...............................................................................................................4
3 Teste de hipótese ...............................................................................................4
3.1 A hipótese ...................................................................................................4
3.2 Nível de significância .............................................................................. 5
3.3 Valor-p ......................................................................................................... 6
3.4 Exemplo para fixação dos conceitos .................................................... 7
3.4.1 O problema........................................................................................... 7
3.4.2 A hipótese científica.......................................................................... 7
3.4.3 A hipótese de nulidade ..................................................................... 7
3.4.4 A hipótese alternativa...................................................................... 8
3.4.5 O nível de significância .................................................................... 8
3.4.6 O cálculo da estatística t .................................................................. 8
3.4.7 O valor de t tabelado ......................................................................... 9
3.4.8 O valor-p............................................................................................. 10
4 Dados pareados ............................................................................................... 11
4.1 Análise pelo proc univariate ................................................................ 11
4.2 Análise pelo proc ttest ............................................................................ 11
4.3 Exemplo de análise .................................................................................. 11
4.4 Exercícios .................................................................................................. 12
5 Duas amostras independentes .................................................................... 13
5.1 Exemplo de análise em aula ................................................................. 13
5.2 Um segundo exemplo de análise ......................................................... 13
5.3 Exercício.................................................................................................... 14

USP/ESALQ/Seção Técnica de Informática Marcelo Corrêa Alves


Proc Ttest: Comparando duas médias 3

1 Introdução

A importância história e didática do teste t de Student, usado na


comparação de médias, é maior que sua aplicabilidade prática,
entretanto, os conhecimentos que se adquire ao estudá-lo é bastante
interessantes, sobretudo quando se utiliza o proc ttest, do sistema SAS
como ferramenta de cálculo.

O teste t (de Student) foi desenvolvido por Willian Sealy Gosset em 1908 que usou o
pseudônimo “Student” em função da confidencialidade requerida por seu empregador
(cervejaria Guiness) que considerava o uso de estatística na manutenção da qualidade como
uma vantagem competitiva.

O teste t de Student tem diversas variações de aplicação, mas sempre há a limitação


do mesmo ser usado na comparação de duas (e somente duas) médias e as variações dizem
respeito às hipóteses que são testadas.

Em função dos objetivos do curso, serão vistos nesta aula, apenas duas formas de
aplicação do teste t, mas relembramos que na aula inerente ao procedimento univariate, já foi
abordado um tipo de aplicação do teste t (e de correspondentes não paramétricos), aquele que
testa a hipótese enunciada na equação 1.

H0: 0 = 0 (1)

A qual por meio do teste t, testa a hipótese de que uma média é igual a um valor fixo
previamente estabelecido, no caso da hipótese enunciada, o valor 0, mas que pode ser alterado
de acordo com os objetivos da pesquisa e pela opção mu0= do proc univariate.

O teste t deriva da distribuição normal, assim como a distribuição t deriva da


distribuição normal, conforme ilustrado na figura 1.

Distribuição normal Distribuição t

Figura 1. Comparação das distribuições normal e t de Student.

O teste t de Student será visto, nesta aula, em duas condições:

a) Teste t de Student para dados pareados.

b) Teste t de Student para duas amostras independentes.

Marcelo Corrêa Alves USP/ESALQ/Seção Técnica de Informática


4 Proc Univariate: Testando a normalidade

2 Objetivo
Nesse capítulo objetiva-se que você:

 Compreenda a diferença entre dados pareados e amostras independentes

 Efetue o cálculo do teste t para dados pareados pelo proc univariate

 Interprete o resultado do proc univariate para comparação de dados pareados

 Efetue o cálculo para dados pareados pelo proc ttest

 Interprete o resultado da aplicação do proc ttest para dados pareados

 Efetue o cálculo para comparação de duas amostras independentes pelo proc


ttest

 Interprete o resultado da aplicação do proc ttest para comparação de duas


amostras independentes

 Interprete as suposições para comparação de médias pelo proc ttest

3 Teste de hipótese
Modernamente, para se proceder a interpretação de um teste de hipótese há três
requisitos básicos:

a) Hipótese

b) O nível de significância

c) O valor-p

3.1 A hipótese

Fruto do embasamento filosófico da ciência, derivado dos trabalhos de Sir Karl Popper
a estatística leva em conta a natureza conjectural e provisória do conhecimento científico, sendo
o conhecimento tido como verdadeiro até que não contrariado pelos fatos.

Nessa linha de trabalho, que não é a única possível, parte-se de uma hipótese, a qual
se deseja comprovar por meio de um estudo científico. A hipótese científica se fundamenta em
um problema e reflete uma possibilidade de resolvê-lo, sendo assim, tomemos um exemplo:

Um professor está interessado em saber a respeito do andamento de sua disciplina.


Para isso ele faz uma pesquisa solicitando que os alunos apontem dois valores:

a) A nota, de 0 a 10, que o aluno imaginava que teria a disciplina no momento em que
fez matrícula.

b) A nota, também de 0 a 10, que o aluno avalia a disciplina atualmente.

USP/ESALQ/Seção Técnica de Informática Marcelo Corrêa Alves


Proc Ttest: Comparando duas médias 5

Diante dessa situação, a hipótese a ser avaliada é a de que há diferença entre os


valores observados antes e depois da primeira fase de aulas. Note que a diferença pode ser
positiva (a disciplina supera as expectativas) ou pode ser negativa (a disciplina não atende as
expectativas).

Dentro do método científico, de posse da hipótese científica, enuncia-se a hipótese de


nulidade, que contradiz a hipótese científica.

Hipótese de nulidade (H0) -. Hipótese que se rejeitada, confirma a hipótese científica.

Ao mesmo tempo em que se enuncia a hipótese de nulidade, se enuncia também a


hipótese alternativa.

Hipótese alternativa (Ha) -. Hipótese que é assumida caso haja rejeição da hipótese de
nulidade e que valida a hipótese científica.

Observe que a rejeição da hipótese de nulidade traz subsídios para a confirmação da


hipótese científica, aquela que foi definida na concepção do experimento ou da coleta de dados.
Vejamos as hipóteses no caso do exemplo na tabela 1.

Tabela 1. Hipóteses em um projeto de pesquisa.


Hipótese Descrição da hipótese
Científica Há diferença entre a expectativa e a avaliação atual da disciplina.
Nulidade H0: diferença = 0
Alternativa Ha: diferença ≠ 0
Por se tratar de uma situação de aplicação de um teste para dados pareados, a
hipótese de nulidade foi apontada dentro deste contexto, ou seja, o de que a média das
diferenças entre os pares de dados é igual a 0, o que corresponde à ausência de diferença entre
a avaliação da expectativa e da avaliação atual do curso.

Há rejeição da hipótese de nulidade conduz à aceitação da hipótese alternativa o que


confirma a hipótese científica, a ideia que embasou a aquisição dos dados e a realização de todos
os testes.

A não rejeição da hipótese de nulidade faz com que o estudo seja


inconclusivo. Ou seja, significa que a estatística não oferece subsídios de
ATENÇÃO !!! que a hipótese científica seja verdadeira, o que não significa que a
hipótese de nulidade seja verdadeira, mas apenas não se obteve indícios
nessa amostra de que a hipótese de nulidade seja falsa.

3.2 Nível de significância

O nível de significância () diz respeito a uma margem de erro tolerável e que sustenta
a rejeição da hipótese de nulidade.

O nível de significância é escolhido com base nos riscos envolvidos na rejeição


incorreta da hipótese de nulidade o que é regrado pela existência de dois tipos de erros,
conforme ilustra a figura 2.

Marcelo Corrêa Alves USP/ESALQ/Seção Técnica de Informática


6 Proc Univariate: Testando a normalidade

Figura 2. Tipos de erro nos testes estatísticos.

O erro tipo I ocorre quando o teste estatístico (oriundo de uma amostra) determina a
rejeição da hipótese de nulidade, entretanto, na população (verdade) a hipótese de nulidade
não deve ser rejeitada. Esse é o nível de significância () e que estabelece um limite acima do
qual, não se rejeita H0.

A redução do nível de significância, por exemplo de 5% para 1% (probabilidade de se


incorrer no erro tipo I) vem acompanhada do acréscimo da probabilidade de ocorrência do erro
tipo II (não rejeitar H0 quando na verdade, ela é falsa).

O fato é que a rejeição de H0 sempre ocorrerá diante de uma possibilidade de que esta
seja uma decisão errada uma vez que se está trabalhando com uma dentre tantas amostras
possíveis.

Como somente há controle do nível de significância, a única conclusão possível é a


rejeição de H0 já que a não rejeição de H0 apenas nos informa que esta amostra não sustenta a
rejeição, mas não há quantificação da probabilidade de erro tipo II.

3.3 Valor-p

O valor-p é uma quantificação da probabilidade de se errar ao rejeitar H0 e a mesma


decorre da distribuição estatística adotada.

Se o valor-p é menor que o nível de significância, conclui-se que o correto é rejeitar a


hipótese de nulidade.

No passado a conclusão dos testes estatísticos dependia da consulta a tabelas as quais


contém valores críticos e que determinam se uma estatística é, ou não significativa, dentro de
um nível de significância. Essas tabelas apareciam anexas aos livros de estatística e na maioria
dos livros somente eram incluídas as tabelas para o nível de significância de 5%. Alguns livros
também incluíam as tabelas para 1% e 10% e também existiam livros exclusivamente dedicados
a apresentação dessas tabelas estatísticas.

USP/ESALQ/Seção Técnica de Informática Marcelo Corrêa Alves


Proc Ttest: Comparando duas médias 7

Sendo assim, calculávamos o valor da estatística (t, por exemplo) e em seguida


comparávamos esse valor calculado (tcalculado) com um valor obtido em uma tabela (ttabelado). Se o
tcalculado é maior que o ttabelado, rejeitamos H0, no nível de significância da tabela na qual estava o
t que obtivemos.

Atualmente, os computadores buscam pelo nível de significância da tabela na qual


encontraríamos o tcalculado, e esse é o valor-p.

3.4 Exemplo para fixação dos conceitos

Primeiramente, partiu-se de um problema o qual deseja-se estudar. Não cabe nesse


ponto, questionar a relevância do tema estudado e nem sequer os resultados obtidos porque o
objetivo é meramente instrucional e os dados analisados são forjados em direção ao objetivo
proposto.

3.4.1 O problema

O problema seria o uso de piercing no trago que poderia, na visão desse pseudo-
pesquisador, provocar uma variação no tamanho da orelha. Ou seja, orelhas com piercing teriam
um tamanho diferente das orelhas sem piercing.

3.4.2 A hipótese científica

Diante do problema que tanto preocupa o pesquisador e para iniciar o processo de


pesquisa ele fundamenta sua hipótese que seria a de que orelhas com piercing tem tamanho
diferente das orelhas sem piercing.

3.4.3 A hipótese de nulidade

No delineamento (planejamento) do experimento, ele resolve que para testar a


hipótese, seria conveniente a medição de orelhas com e sem piercing das mesmas pessoas,
partindo do princípio de que as pessoas têm orelhas de igual tamanho o que seria modificado
pelo uso dos piercings.

Sendo assim, a hipótese de nulidade é a de que a média das diferenças dos tamanhos
entre as orelhas com e sem piercing é igual a 0, o que corresponde ao oposto da hipótese
científica.

Essa é a forma de se testar a diferença entre as médias no caso de dados pareados e a


hipótese de nulidade fica enunciada na equação 2.

H0: diferença = 0 (2)

A ideia por traz da hipótese de nulidade é a de que a diferença será zero quando em
algumas pessoas a orelha com piercing é maior que a sem piercing ao passo que em outras
pessoas a orelha com piercing é menor. A medida em que houver esse equilíbrio entre com e
sem piercing, as médias das diferenças ao serem somadas resultarão em um valor próximo a 0.

Observe então que a rejeição da hipótese de nulidade nos induz à aceitação de uma
hipótese alternativa que tem sentido inverso à hipótese de nulidade, a hipótese alternativa.

Marcelo Corrêa Alves USP/ESALQ/Seção Técnica de Informática


8 Proc Univariate: Testando a normalidade

3.4.4 A hipótese alternativa

A hipótese alternativa é inversa à hipótese de nulidade, sendo assim, ela é um reflexo


da hipótese científica previamente enunciada e no caso dos dados pareados, a hipótese
anternativa é enunciada conforme a equação 3.

Ha: diferença ≠ 0 (3)

Aceitar a hipótese de nulidade é, portando, confirmar a hipótese científica, o que dá


fundamento a toda a pesquisa.

3.4.5 O nível de significância

Para tomar uma decisão, e nesse caso nos referimos à decisão entre rejeitar ou não
rejeitar a hipótese de nulidade, a estatística não nos dará certeza e muito menos certeza
absoluta de que a decisão correta está sendo tomada.

O que a estatística nos permitirá conhecer é a probabilidade de erro em se tomar a


decisão e, sempre, a decisão de rejeitar H0.

Dentro do método de pesquisa, então, antes de procedermos os estudos definimos


uma taxa tolerável de erro a qual é chamada de nível de significância e representada pela letra
grega alfa (). O nível de significância associado a taxa de erro tipo I, como já foi mostrado, é
por uma série de motivos, muito frequentemente associado ao valor de 5% que é o valor que
será assumido neste estudo.

3.4.6 O cálculo da estatística t

Para calcularmos a estatística t precisamos de um conjunto de dados os quais são


apresentados na tabela 2.

Tabela 2. Comprimento da orelha (cm) com e sem piercing no trago.


Voluntário
Piercing 1 2 3 4 5 6 7 8 9 10
Com 5,6 6,4 5,1 5,3 4,5 6,5 4,4 6,1 5,8 4,0
Sem 4,9 4,4 4,3 4,1 4,6 4,6 4,2 4,3 4,8 4,8
Fonte: Dados fictícios gerados aleatoriamente por meio de programa do sistema SAS.

Em seguida será apresentada a memória de cálculo da estatística t, cuja fórmula é


apresentada na equação 4.

𝑦𝑑
̅̅̅
𝑡= 𝑠 (4)
𝑑
√𝑛
A memória de cálculo é então apresentada em seguida e são estabelecidos 4 passos:

Passo1. Calcular as diferenças


Passo 2. Calcular a média das diferenças (𝑦
̅̅̅)
𝑑
̅̅̅
Passo 3. Calcular o desvio padrão das diferenças (denominador) (𝑆 𝑑)
Passo 4. Calcular a estatística t.

USP/ESALQ/Seção Técnica de Informática Marcelo Corrêa Alves


Proc Ttest: Comparando duas médias 9

Passo1. Cálculo das diferenças (n: 10) Passo 2. Calcular a média das diferenças
Com Sem Com – Sem yd = (0,7+2,0+0,8+1,2-0,1+1,9+0,2+1,8+1,0-0,8) / 10
5.6 4.9 0,7 yd =0,87
6.4 4.4 2,0 Passo 3. Calcular o desvio padrão das diferenças
[(0,7 – 0,87)2 + (2,0 – 0,87)2 + . . . + (−0.8 – 0,87)2]
5.1 4.3 0,8 𝑆𝑑 = √
10 − 1
5.3 4.1 1,2 Sd = 0,91
4.5 4.6 -0,1 Passo 4. Calcular a estatística t
6.5 4.6 1,9
4.4 4.2 0,2 ̅̅̅̅
𝑦𝑑 0,87
6.1 4.3 1,8 𝑡= 𝑠𝑑 ⇒𝑡 = 0,92 ⇒ 𝑡 = 3,01
5.8 4.8 1,0 √𝑛 √10
5.6 4.9 -0,8

3.4.7 O valor de t tabelado

Para avaliar se o valor da estatística t anteriormente calculada é significativo o mesmo


deve ser comparado com um valor de t que pode ser obtido na tabela 3.

Tabela 3. Valores críticos da distribuição t bicaudal.

Fonte: Fonseca JS, Martins GA. (1986) Curso de Estatística, São Paulo, SP : Editora Atlas, 286
pp.

Na tabela cada coluna corresponde a um nível de significância que vai desde 50%
(:0,50) até meio porcento (:0,005). Como o nível de significância previamente arbitrado foi
de 5%, então, o que nos interessa é um valor t da quarta coluna (0,05).

Para saber a linha que nos interessa, precisamos saber o número de graus de liberdade
do teste que é o número de dados usados no teste (10) menos 1, sendo assim, nos interessa o
valor de t associado a 9 graus de liberdade (), apresentado na equação 5.

t(0,05;9) = 2,2622 (5)

Marcelo Corrêa Alves USP/ESALQ/Seção Técnica de Informática


10 Proc Univariate: Testando a normalidade

Analisando na distribuição t que resultou na tabela, temos a situação representada na


figura 3.

Figura 3. Valor da estatística t para distribuição com 9 graus de liberdade e nível de


significância de 5%.

O valor de t (2,2622) para uma distribuição com 9 graus de liberdade delimita uma
região na qual a área à direita e à esquerda desse valor corresponde a 2,5% da área total sob a
curva o que somado à área à esquerda do valor -2,26 (2,5%) totaliza 5% da área sob a curva.

No tempo em que não se tinha computadores pararíamos a interpretação nesse ponto,


qual seja, se o tcalculado é maior que o ttabelado rejeitamos H0 pois apesar de não sabermos qual é a
área da curva à direita de 3,01 e à esquerda de -3,01 sabemos que ela é menor que 5% já que
para totalizar 5% é necessária a área que vai desde 2,26 até +infinito somada à área que vai de
-2,26 até –infinito.

3.4.8 O valor-p

Em época com computador, não precisamos mais da tabela de t pois o computador


pode nos informar a área à direita do próprio tcalculado e esse é o valor-p. Se antes não sabíamos
qual é a área à direita de 3,01 na distribuição t com 9 graus de liberdade, hoje sabemos que a
área é de 0,0148 (1,48%).

Observe que se houvesse sido optado por um nível de significância de 1%, o valor
crítico seria 3,2498 que é maior que o tcalculado, não significativo portanto a 1%, mesma conclusão
à qual se chega quando observado que o valor-p é de 1,24% (maior que 1%).

USP/ESALQ/Seção Técnica de Informática Marcelo Corrêa Alves


Proc Ttest: Comparando duas médias 11

4 Dados pareados
São considerados dados pareados aqueles cujos pares são justificados de forma
inequívoca. Vejamos o exemplo da pesquisa de opinião dos alunos de uma disciplina, desde que
os dados são oriundos de um mesmo aluno, não há como se desvincular a avaliação atual da
disciplina sem se levar em conta a expectativa que o mesmo aluno tinha ao fazer a matrícula.

4.1 Análise pelo proc univariate

a) No data step devem ser calculadas as diferenças entre os valores pareados.

b) No proc univariate se testa a hipótese de que a média das diferenças é zero.

c) Avalia-se a normalidade das diferenças para se saber qual o teste é mais


apropriado (Teste t de Student, Teste de Wilcoxon das Ordens assinaladas ou o
Teste do Sinal).

4.2 Análise pelo proc ttest

a) No data step basta apenas que os dados estejam pareados em variáveis distintas.

b) No proc ttest utiliza-se o comando paired e separa-se a variável por um asterisco.

c) Não há alternativas ao teste t de Student já que este procedimento é específico (ttest).

4.3 Exemplo de análise

Um pesquisador desenvolveu um estudo para quantificar o efeito de um probiótico no


crescimento de animais em animais de laboratório. 16 animais de mesma idade e mesmo peso
inicial foram alocados em 8 gaiolas e em cada uma delas foi feito um sorteio no qual foi
designado um animal que recebeu uma dose diária do probiótico, no mesmo horário que o outro
animal recebeu o mesmo volume de água.

Os dados obtidos no experimento são apresentados na tabela 4.

Tabela 4. Ganho de peso (g) de animais tratados com placebo e probiótico.


Gaiola Probiótico Placebo (Água)
1 129,9 120,9
2 130,1 118,9
3 131,6 121,3
4 130,7 121,2
5 129,0 119,6
6 131,2 118,7
7 130,6 120,6
8 131,3 120,8
Fonte: Dados fictícios gerados aleatoriamente por meio de programa do sistema SAS.

A análise pode ser feita por meio do procedimento univariate ou do procedimento


ttest. Os dois programas de análise são apresentados, lado a lado.

Marcelo Corrêa Alves USP/ESALQ/Seção Técnica de Informática


12 Proc Univariate: Testando a normalidade

Usando o proc univariate Usando o proc ttest


title "..:: Dados pareados ::.."; title "..:: Dados pareados ::..";
title2 "..:: Proc univariate ::.."; title2 "..:: Proc ttest ::..";
data paread_1; data paread_1;
input gaiola probiotico placebo; input gaiola probiotico placebo;
dif = probiotico - placebo; datalines;
datalines; 1 129.9 120.9
1 129.9 120.9 2 130.1 118.9
2 130.1 118.9 3 131.6 121.3
3 131.6 121.3 4 130.7 121.2
4 130.7 121.2 5 129.0 119.6
5 129.0 119.6 6 131.2 118.7
6 131.2 118.7 7 130.6 120.6
7 130.6 120.6 8 131.3 120.8
8 131.3 120.8 ;
; proc ttest data=paread_1;
proc univariate data=paread_1 paired probiotico*placebo;
plot run;
normal;
var dif;
run;

4.4 Exercícios

Em seguida são propostos dois conjuntos de dados e o objetivo é o desenvolvimento


do programa SAS para fazer a análise e, posteriormente, fazer a interpretação dos resultados
obtidos na análise.

Desenvolva o programa para análise por meio do procedimento univariate e do


procedimento ttest e faça a interpretação com base em cada um deles comparando as
conclusões obtidas.

Exercício 1 – Efeito de piercing no trago sobre o tamanho da orelha

Um pesquisador interessado no efeito do uso de Piercing no Trago sobre o tamanho


da orelha das pessoas, desenvolveu uma pesquisa na qual selecionou 20 voluntários com
piercing no trago há no mínimo 1 ano e realizou a medida do comprimento desde o ponto
superior da Hélice até o ponto mais inferior do lóbulo (dados na tabela 2)

Exercício 2 – Efeito de tapa sobre a temperatura da face.

Um pesquisador efetuou a medida de temperatura da pele imediatamente antes e


imediatamente depois de voluntários serem atingidos por um tapa desferido por equipamento
onde um braço de madeira recoberto de silicone impactava na face do voluntário a partir da
energia acumulada em uma mola que se comprimia no momento em que o braço era armado.

Os dados são apresentados na tabela 5, mas atenção para a geração de um SAS data
set que esteja organizado apropriadamente para a realização da análise.

Tabela 5. Temperaturas na face antes e após o recebimento de um tapa.


Voluntário Fase Temp. (°C) Voluntário Fase Temp. (°C)
1 Antes 36,34 5 Antes 36,24
2 Antes 36,00 6 Antes 37,85
3 Antes 36,56 7 Antes 36,10
4 Antes 36,71 8 Antes 36,76
1 Depois 36,36 5 Depois 38,35
2 Depois 37,15 6 Depois 36,41
3 Depois 36,35 7 Depois 37,83
4 Depois 36,92 8 Depois 36,82
Fonte: Dados fictícios gerados aleatoriamente por meio de programa do sistema SAS.

USP/ESALQ/Seção Técnica de Informática Marcelo Corrêa Alves


Proc Ttest: Comparando duas médias 13

5 Duas amostras independentes


São consideradas amostras independentes amostras cujos dados não se associam de
maneira alguma, não havendo justificativa para qualquer tipo de pareamento. Nesse contexto,
a distribuição t também pode ser usada para testar a existência de diferença entre as médias
das duas amostras.

Caso estejam sendo comparadas duas amostras, justifica-se a aplicação do teste t de


Student, mas também pode ser aplicada a técnica de análise de variância que permite a
comparação de duas ou mais populações.

5.1 Exemplo de análise em aula

Uma ideia é a comparação das expectativas, por sexo, dentro do conjunto de dados
levantados em aula.

a) No data step, uma variável deve identificar o grupo (classificatória) e outra deve
identificar a resposta.

b) No proc ttest a variável classificatória será apontada no comando class e a variável de


resposta no comando var.

c) Suposição de normalidade pode ser testada no proc univariate e homogeneidade de


variâncias no próprio proc ttest, por meio do teste de F dobrado.

5.2 Um segundo exemplo de análise

Um pesquisador interessado no efeito do consumo de água sobre a felicidade das


pessoas, selecionou uma amostra homogênea de 20 pessoas que foram aleatoriamente
alocadas em dois grupos de 10 pessoas: um grupo que consomiu 3 l de água no dia enquanto
que o outro grupo consumiu 1 l de água no dia.

Ao final do dia, a felicidade de cada voluntário foi quantificada por meio de uma escala
visual analógica (EVA) que resultou em valores inteiros de 0 a 10 onde 0 significava muito infeliz
e 10 significa muito feliz. Os dados são apresentados na tabela 6.

Tabela 6. Felicidade quantificada por meio de escala visual analógica (0 – 10) para
comparação de grupos com diferentes consumos de água.
Quantidade de água Felicidade
consumida no dia
3l 5,9 7,4 5,8 5,8 4,5 6,2 5,2 5,1 4,0 6,0
1l 4,6 4,6 5,0 4,6 5,9 5,6 3,8 4,4 5,4 4,3
Fonte: Dados fictícios gerados aleatoriamente por meio de programa do sistema SAS.

Na construção do SAS data set há uma primeira mudança em relação ao teste para
dados pareados: há necessidade da criação de uma variável que identificará o grupo ao qual
pertence o dado e uma segunda variável que é a variável de resposta, nesse caso, a felicidade.

Como cada grupo é composto por pessoas diferentes, não há qualquer vínculo
razoável que possa ser criado entre os dados o que justificaria um pareamento. A pergunta a ser
respondida é a seguinte, com qual valor no grupo de 1 l deveria ser feito o pareamento do
primeiro dado do grupo de 3 l ?

Marcelo Corrêa Alves USP/ESALQ/Seção Técnica de Informática


14 Proc Univariate: Testando a normalidade

Se não houver resposta satisfatória para essa pergunta essa é uma indicação de que o
uso do teste para duas amostras independentes é a mais correto.

O programa para análise dos dados é apresentado em seguida.

data agua;
input grupo $ felicidade;
datalines;
3l 5.9
3l 7.4
3l 5.8
3l 5.8
3l 4.5
3l 6.2
3l 5.2
3l 5.1
3l 4.0
3l 6.0
1l 4.6
1l 4.6
1l 5.0
1l 4.6
1l 5.9
1l 5.6
1l 3.8
1l 4.4
1l 5.4
1l 4.3
;
proc sort data=agua;
by grupo;
run;
proc univariate data=agua normal plot;
by grupo;
run;
proc ttest data=agua;
var felicidade;
class grupo;
run;

Na análise foi usado o proc sort para ordenar os dados de forma que o proc univariate
pudesse ser usado em seguida para avaliação da normalidade das duas amostras (grupos). Por
fim, o proc ttest foi usado para execução do teste t de Student para duas amostras
independentes o que requereu o uso dos comandos var e class que identificam,
respectivamente a variável de resposta e a variável preditora.

5.3 Exercício

Exercício 3 – Efeito do álcool sobre a formação de placa bacteriana

Um pesquisador interessado em comparar os efeitos de enxaguantes bucais com e


sem álcool recrutou 40 voluntários os quais foram aleatoriamente designados para o uso de
enxaguante bucal de mesmo fabricante, com e sem álcool.

USP/ESALQ/Seção Técnica de Informática Marcelo Corrêa Alves


Proc Ttest: Comparando duas médias 15

Após o período de 30 dias o número de unidades formadoras de colônia (UFC) foi


quantificado na placa bacteriana coletada nos dentes dos voluntários e se encontra à disposição
no arquivo “Dados de UFC.xlsx”.

É interessante observar que o presente conjunto de dados não apresenta distribuição


gaussiana, o que pode ser testado por meio do proc univariate, o que deve ser feito
separadamente para cada amostra.

Diante desse fato, seria interessante encontrar uma solução para o problema e para
facilitar a busca por essa solução, adianto que os dados são aderentes à distribuição lognormal
e uma possível solução para esta situação pode ser encontrada no Help do Sistema SAS, no
capítulo inerente ao proc ttest.

Uma segunda possibilidade de solução passa pela transformação de dados, tema da


próxima aula. Outra possibilidade seria a aplicação do teste de Wilcoxon por meio do proc
npar1way.

Marcelo Corrêa Alves USP/ESALQ/Seção Técnica de Informática

Vous aimerez peut-être aussi