Vous êtes sur la page 1sur 70

UNIVERSIDADE FEDERAL DO CEARÁ

FACULDADE DE ECONOMIA, ADMINISTRAÇÃO


ATUÁRIA, CONTABILIDADE E SECRETARIADO

CURSO DE ESPECIALIZAÇÃO EM GESTÃO


UNIVERSITÁRIA - GUNI

Estatística Aplicada à Gestão Universitária

Professor: Daniel Barboza Guimarães

Março/2018
Fortaleza - Ce
1 INTRODUÇÃO
A Estatística é uma ciência cujo campo de aplicação estende-se a muitas áreas do
conhecimento humano. Entretanto, um equívoco comum que deparamos nos dias atuais é
que, em função da facilidade que o advento dos computadores nos proporciona, permitindo
desenvolver cálculos avançados e aplicações de processos sofisticados com razoável
eficiência e rapidez, muitos pesquisadores consideram-se aptos a fazerem análises e
inferências estatísticas sem um conhecimento mais aprofundado dos conceitos e teorias. Tal
prática, em geral, culmina em interpretações equivocadas e muitas vezes errôneas.
Em sua essência, a Estatística é a ciência que apresenta processos próprios para
coletar, apresentar e interpretar adequadamente conjuntos de dados sejam eles numéricos
ou não. Pode-se dizer que seu objetivo é o de apresentar informações sobre dados em
análise para que se tenha maior compreensão dos fatos que os mesmos representam. A
Estatística subdivide-se em três áreas: descritiva, probabilística e inferencial. A estatística
descritiva, como o próprio nome já diz, se preocupa em descrever os dados. A estatística
inferencial, fundamentada na teoria das probabilidades, se preocupa com a análise destes
dados e sua interpretação.
A palavra estatística tem mais de um sentido. No singular se refere à teoria
estatística e ao método pelo qual os dados são analisados enquanto que, no plural, se refere
às estatísticas descritivas que são medidas obtidas de dados selecionados.
A estatística descritiva, cujo objetivo básico é o de sintetizar uma série de valores de
mesma natureza, permitindo dessa forma que se tenha uma visão global da variação desses
valores, organiza e descreve os dados de três maneiras: por meio de tabelas, de gráficos e
de medidas descritivas.
A tabela é um quadro que resume um conjunto de observações, enquanto os gráficos
são formas de apresentação dos dados, cujo objetivo é o de produzir uma impressão mais
rápida e viva do fenômeno em estudo.
Para ressaltar as tendências características observadas nas tabelas, isoladamente, ou
em comparação com outras, é necessário expressar tais tendências através de números ou
estatísticas. Estes números ou estatísticas são divididos em duas categorias: medidas de
posição e medidas de dispersão.
As probabilidades são úteis porque auxiliam a desenvolver estratégias, assim é que
uma empresa pode decidir a negociar seriamente com um sindicato quanto há forte ameaça
de greve, ou investirá em novo equipamento se há boa chance de recuperar o investimento.
O ponto central da probabilidade é a possibilidade de quantificar quão provável é
determinado evento.
Independente de qual seja a aplicação em particular, a utilização das probabilidades
indica que existe um elemento de acaso, ou de incerteza, quanto à ocorrência ou não de um
evento futuro. Assim é que em muitos casos, pode ser virtualmente impossível afirmar por
antecipação o que ocorrerá, mas é possível dizer o que pode ocorrer.
Tais decisões são tomadas com base em resultados obtidos em amostras geradas de
uma população. Tais decisões são chamadas de estatísticas. Por exemplo, com base em
resultados amostrais podemos decidir se irá ou não chover, se um candidato ganhará ou não
uma eleição, dentre muitos outros assuntos, com os quais nos deparamos em nossas vidas.
A inferência estatística é a parte da estatística que visa inferir sobre as propriedades
de uma população com base em alguns resultados obtidos através de uma amostra.
Antes de iniciarmos o estudo da Estatística em si, faz-se necessário a definição de
alguns conceitos, os quais serão apresentados a seguir.
.
1.1 CONCEITOS FUNDAMENTAIS E DEFINIÇÕES

A estatística trabalha com dados, os quais podem ser obtidos por meio de uma
população ou de uma amostra, definida como:
 População: conjunto de elementos que tem pelo menos uma característica
em comum. Esta característica deve delimitar corretamente quais são os
elementos da população que podem ser animados ou inanimados.
 Amostra: subconjunto de elementos de uma população. Este subconjunto
deve ter dimensão menor que o da população e seus elementos devem ser
representativos da população.
A seleção dos elementos que irão compor a amostra pode ser feita de várias
maneiras e irá depender do conhecimento que se tem da população e da quantidade de
recursos disponíveis. A estatística inferencial é a área que trata e apresenta a metodologia
de amostragem.
Em se tratando de conjuntos-subconjuntos, estes podem ser:
 Finitos: possuem um número limitado de elementos.
 Infinitos: possuem um número ilimitado de elementos.
Os elementos são representados por cada uma das unidades observadas no estudo.
Após a determinação dos elementos pergunta-se: o que fazer com estes? Pode-se medi-los,
observá-los, contá-los surgindo um conjunto de respostas que receberá a denominação de
variável.
 Variável: é a característica que vai ser observada, medida ou contada nos
elementos da população ou da amostra e que pode variar, ou seja, assumir
um valor diferente de elemento para elemento.
Não basta identificar a variável a ser trabalhada, é necessário fazer-se distinção
entre os tipos de variáveis:
 Variável qualitativa: é uma variável que assume como possíveis valores,
atributos ou qualidades. Também são denominadas variáveis categóricas.
 Variável quantitativa: é uma variável que assume como possíveis valores,
números.
Cada uma dessas variáveis pode ser sub-classificada em:
 Variável qualitativa nominal: é uma variável que assume como possíveis
valores, atributos ou qualidades e estes não apresentam uma ordem natural
de ocorrência. Exemplos: meios de informação utilizados pelos alunos da
disciplina de Estatística do GUNI: televisão, revista, internet, jornal.
 Variável qualitativa ordinal: é uma variável que assume como possíveis
valores atributos ou qualidades e estes apresentam uma ordem natural de
ocorrência. Exemplo: estado civil dos alunos da disciplina de Estatística do
GUNI: solteiro, casado, separado.
 Variável quantitativa discreta: é uma variável que assume como possíveis
valores números, em geral inteiros, formando um conjunto finito ou
enumerável. Exemplo: idade dos alunos da disciplina de Estatística do
GUNI: 30, 31, 32,...
 Variável quantitativa contínua: é uma variável que assume como possíveis
valores números, em intervalos da reta real e, em geral, resultantes de
mensurações. Exemplo: peso (quilogramas) dos alunos da disciplina de
Estatística do GUNI: 60; 62,5; 62,7;...
2. ESTATÍSTICA DESCRITIVA

Conforme mencionado anteriormente, a estatística descritiva tem como objetivo


sintetizar uma série de valores de mesma natureza, permitindo dessa forma que se tenha
uma visão global da variação desses valores. Essa organização e descrição dos dados
podem ser realizadas por três maneiras: por meio de tabelas, de gráficos e de medidas
descritivas.
A tabela é um quadro que resume um conjunto de observações, enquanto os gráficos
são formas de apresentação dos dados, cujo objetivo é o de produzir uma impressão mais
rápida e viva do fenômeno em estudo.
Para ressaltar as tendências características observadas nas tabelas, isoladamente, ou
em comparação com outras, é necessário expressar tais tendências através de números ou
estatísticas. Estes números ou estatísticas são divididos em duas categorias: medidas de
tendência central, medidas de dispersão, medidas de assimetria e medidas de curtose.
Antes de prosseguirmos na análise das estatísticas descritivas, faz-se necessário uma
breve revisão da notação sigma, pois muitos destes cálculos que serão apresentados exigem
o cálculo da soma de um conjunto de números. A letra grega Σ (sigma) é usada para
denotar uma soma. Um somatório é um operador matemático que nos permite representar
facilmente somas de um grande número de termos, até infinitos. Considere os valores
𝑥 𝑥 … 𝑥 então, temos que:

∑𝑥 = 𝑥 + 𝑥 + 𝑥 + ⋯+ 𝑥

O somatório apresenta as seguintes propriedades:


Propriedade 1:

∑(𝑥 + 𝑦 ) = ∑ 𝑥 + ∑ 𝑦

Propriedade 2:
∑ 𝑐𝑥 = 𝑐 ∑ 𝑥

Propriedade 3:

∑ 𝑐 = 𝑛𝑐 𝑜𝑛𝑑𝑒 𝑐 é 𝑢𝑚𝑎 𝑐𝑜𝑛𝑠𝑡𝑎𝑛𝑡𝑒

Propriedade 4:

∑𝑥 𝑦 = 𝑥 𝑦 + 𝑥 𝑦 + ⋯+ 𝑥 𝑦

Propriedade 5:

(∑ 𝑥 ) = (𝑥 + 𝑥 + ⋯ + 𝑥 )

Propriedade 6:

∑𝑥 = 𝑥 + 𝑥 + ⋯+ 𝑥

Propriedade 7:

(∑ 𝑥 ) (∑ 𝑦 ) = (𝑥 + 𝑥 + ⋯ + 𝑥 )(𝑦 + 𝑦 + ⋯ + 𝑦 )

2.1. MEDIDAS DE TENDÊNCIA CENTRAL


As medidas de tendência central são assim denominadas por indicarem um ponto
em torno do qual se concentram os dados. Este ponto tende a ser o centro da distribuição
dos dados.
Para a obtenção e análise das medidas de tendência central, faz-se necessário o
entendimento da notação sigma, vista anteriormente, pois muitos destes cálculos que serão
apresentados exigem o cálculo da soma de um conjunto de números. O exemplo a seguir
ilustra tal problema.
Exemplo 2.1: Os valores de 𝑥 são e e os de 𝑦 são e então teremos:

 ∑ 𝑥 = + + + = 0
 ∑ 𝑥 = + + + = +1 + + 81 = 1
 (∑ 𝑥 ) = ( + + + ) = 0 = 00
 ∑ 𝑥𝑦 = × + × + × + × = +1 + 0+
= 11
 (∑ 𝑥 )(∑ 𝑦 ) = ( + + + )( + + + ) = 0 ×
0 = 00

A seguir, são definidas as principais medidas de tendência central: média, mediana e


moda.
2.1.1. Média aritmética
__
A média aritmética (X ) é a soma de todos os valores observados da variável
dividida pelo número total de observações. Sob uma visão geométrica a média de uma
distribuição é o centro de gravidade, representa o ponto de equilíbrio de um conjunto de
dados. É a medida de tendência central mais utilizada para representar a massa de dados.
Seja (𝑥 𝑥 … 𝑥 ) um conjunto de dados. A média de uma amostra é representada
pelo símbolo ̅ e seu cálculo é efetuado da seguinte maneira:

𝑥 𝑥 + 𝑥 + ⋯+ 𝑥
̅=∑ =
𝑛 𝑛

O cálculo da média populacional é realizado da mesma maneira, no entanto,


utiliza-se a letra grega para representar a média de uma população de tamanho :
𝑥 𝑥 + 𝑥 + ⋯+ 𝑥
=∑ =

Citam-se a seguir, algumas propriedades da média aritmética:


1. a média é um valor calculado facilmente e depende de todas as observações;
2. é única em um conjunto de dados e nem sempre tem existência real, ou seja, nem
sempre é igual a um determinado valor observado;
3. a média é afetada por valores extremos observados;
4. por depender de todos os valores observados, qualquer modificação nos dados
fará com que a média fique alterada. Isto quer dizer que somando-se, subtraindo-se,
multiplicando-se ou dividindo-se uma constante a cada valor observado, a média ficará
acrescida, diminuída, multiplicada ou dividida desse valor.
5. a soma da diferença de cada valor observado em relação à média é zero, ou seja, a
soma dos desvios é zero.

∑(𝑥 ̅) = 0

A propriedade 5 é de extrema importância para a definição de variância, uma


medida de dispersão a ser definida posteriormente.
Destaca-se, ainda, que a propriedade 3, quando se observam no conjunto, dados
discrepantes, faz da média uma medida não apropriada para representar os dados. Neste
caso, não existe uma regra prática para a escolha de uma outra medida. O ideal é, a partir da
experiência do pesquisador, decidir pela moda ou mediana. Para ilustrar, considere o
número de filhos, por família, para um grupo de 8 famílias: 0, 1, 1, 2, 2, 2, 3, 4. Neste caso,
a média é 1,875 filhos por família. Entretanto, incluindo ao grupo uma nova família com 10
filhos, a média passa a ser 2,788, o que eleva em 48,16% o número médio de filhos por
família. Assim, ao observar a média, pode-se pensar que a maior parte das famílias deste
grupo tem três filhos quando, na verdade, apenas uma tem três filhos.

2.1.2. Moda
A moda (Mo) é o valor que apresenta a maior freqüência da variável entre os valores
observados, ou seja, a moda é o valor que mais aparece na amostra de valores. Para o caso
de valores individuais, a moda pode ser determinada imediatamente observando-se o rol ou
a freqüência absoluta dos dados. Por outro lado, em se tratando de uma distribuição de
freqüência de valores agrupados em classes, primeiramente é necessário identificar a classe
modal, aquela que apresenta a maior freqüência.
É relevante salientar que um conjunto de dados pode apresentar todos seus
elementos com a mesma freqüência absoluta, e neste caso não existirá um valor modal, o
que significa que a distribuição será classificada como amodal. Pode ocorrer, também,
casos em que a seqüência de observações apresente vários elementos com freqüência
iguais, implicando numa distribuição plurimodal.
O uso da moda é mais indicado quando se deseja obter, rapidamente, uma medida
de tendência central. Um outro aspecto que favorece a utilização da moda é que seu valor
não é afetado pelos valores extremos do conjunto de dados analisado.
Exemplo 2.2: A moda da idade dos alunos da disciplina de Estatística do GUNI,
determinada pontualmente, é Mo= 30 anos. Isto significa que a idade mais freqüente entre
estes alunos é de 30 anos.

2.1.3. Mediana

A mediana (Md) é o valor que ocupa a posição central da série de observações de


uma variável, em rol, dividindo o conjunto em duas partes iguais, ou seja, a quantidade de
valores inferiores à mediana é igual à quantidade de valores superiores à mesma. Vale
ressaltar, que o primeiro passo para o cálculo da mediana é organizar todos os valores
da amostra ou em ordem crescente ou em ordem decrescente.
Exemplo 2.3: Retomando o exemplo do número de filhos por famílias, verifica-se
que:
Para o caso de oito famílias, 𝑛 = 8, a mediana é determinada como a seguir:

Se 𝑛 = , então a mediana é:
Se tivermos uma amostra com tamanho par, a mediana é a média dos dois valores
centrais da amostra, se tivermos uma amostra de tamanho ímpar, a mediana é o valor
central da amostra.

2.2. MEDIDAS DE DISPERSÃO

Fenômenos que envolvem análises estatísticas caracterizam-se por suas


semelhanças e variabilidades. As medidas de dispersão auxiliam as medidas de tendência
central a descrever o conjunto de dados adequadamente. Indicam se os dados estão, ou não,
próximos uns dos outros.
Desta forma, não há sentido calcular a média de um conjunto onde não há variação
dos seus elementos. Existe ausência de dispersão e a medida de dispersão é igual a zero.
Por outro lado, aumentando-se a dispersão, o valor da medida aumenta e se a variação for
muito grande, a média não será uma medida de tendência central representativa.
Faz-se necessário, portanto, ao menos uma medida de tendência central e uma
medida de dispersão para descrever um conjunto de dados.
As quatro medidas de dispersão que serão definidas a seguir são: amplitude total,
desvio médio, desvio padrão e variância. Com exceção à primeira, todas as outras têm a
média como ponto de referência.

2.2.1. Amplitude Total

A amplitude total de um conjunto de dados é a diferença entre o maior e o menor


valor observado. A medida de dispersão não leva em consideração os valores
intermediários perdendo a informação de como os dados estão distribuídos e/ou
concentrados. A amplitude total (AT) será dada por:

=
Exemplo 2.4: A amplitude total da idade dos alunos que cursam a disciplina de
Estatística a do GUNI é,
= 0 0 = 0 𝑎𝑛𝑜𝑠,
isto é, as idades dos alunos diferem em 20 anos.

2.2.2. Desvio-médio

A diferença entre cada valor observado e a média é denominado desvio e é dado por
(𝑥 ) se o conjunto de dados é populacional, ou por (𝑥 𝑥̅ ) se os dados são amostrais.
Ao somar todos os desvios, ou seja, ao somar todas as diferenças de cada valor
observado em relação à média, o resultado é igual a zero (propriedade 5 da média). Isto
significa que esta medida não mede a variabilidade dos dados. Para resolver este problema,
pode-se desconsiderar o sinal da diferença, considerando-as em módulo e a média destas
diferenças em módulo é denominada desvio médio:

̅
=∑ (Amostra)

=∑ (População)

para dados populacionais ou amostrais, respectivamente.

2.2.3. Variância e desvio padrão


Enquanto não há nada conceitualmente errado em se considerar o desvio médio,
segundo Pagano (2004), esta medida não tem certas propriedades importantes e não é muito
utilizada. O mais comum é considerar o quadrado dos desvios em relação à média e então
calcular a média. Obtém-se, assim a variância que é definida por:

( ̅)
=∑ (Amostra)
( )
=∑ (População)

se os dados são populacionais ou amostrais, respectivamente.


Uma maneira mais fácil de escrever a fórmula da variância é:
∑ 𝑥 𝑥̅
=
1
Nos livros, você também pode encontrar a seguinte fórmula:

∑ 𝑥 ((∑ 𝑥 ) ⁄ )
=
1

Entretanto, ao calcular a variância observa-se que o resultado será dado em unidades


quadráticas, o que dificulta a sua interpretação. O problema é resolvido extraindo-se a raiz
quadrada da variância, definindo-se, assim, o desvio padrão:

(𝑥 𝑥̅ )
= √∑
𝑛 1

2.3. Distribuição de Freqüência


Como já mencionado no início deste capítulo, dependendo do volume de dados,
torna-se difícil ou impraticável tirar conclusões a respeito do comportamento das variáveis
e, em particular, de variáveis quantitativas.
Pode-se, no entanto, colocar os dados brutos de cada uma das variáveis quantitativas
em uma ordem crescente ou decrescente, denominado rol. A visualização de algum padrão
ou comportamento continua sendo de difícil observação ou até mesmo cansativa, mas
torna-se rápido identificar maiores e menores valores ou concentrações de valores no caso
de variáveis quantitativas. Estes números (menor e maior valor observado) servem de ponto
de partida para a construção de tabelas para estas variáveis. Vale destacar que para as
variáveis qualitativas, pode-se também construir um rol em ordem temporal ou alfabética,
por exemplo.
É a diferença entre o menor e o maior valor observado da variável , denominada
amplitude total ( = 𝑚𝑎𝑥 – 𝑚 𝑛), que definirá a construção de uma distribuição de
freqüência pontual ou em classes.
O ideal é que uma distribuição de freqüência resuma os dados em um número de
linhas que varie de 5 a 10.

2.3.1. Distribuição de freqüência pontual – sem perda de


informação

A construção de uma distribuição de freqüência pontual é equivalente à construção


de uma tabela simples, onde se listam os diferentes valores observados da variável, com
suas freqüências absolutas, denotadas por , onde o índice i corresponde ao número de
linhas da tabela, como é mostrado na Tabela 1.
Tabela 2.1. Número de Filhos dos Alunos da Disciplina de Estatística do GUNI
Número de Filhos Freqüência ( )
0 5
1 7
2 12
3 15
Fonte: Elaboração própria do professor.

Observa-se que esta variável foi resumida em 4 linhas. Assim, = 1 , e,


portanto, tem-se 4 valores para as freqüências absolutas. A freqüência absoluta da segunda
linha, = , por exemplo, indica que sete alunos têm apenas um filho. A soma de todas
as freqüências absolutas deve ser igual ao número total de observações da variável, neste
caso, 39.
Ainda, como colunas complementares em uma distribuição de freqüências e
considerando i, a ordem da linha na tabela, tem-se:
• a freqüência relativa, denotada por , e definida como:

=
𝑛

onde 𝑛 é o tamanho da amostra, devendo ser substituída por se os dados forem


populacionais. A soma das freqüências relativas de todas as categorias é igual a 1;
• a freqüência relativa em percentual, denotada por , e definida como:

= × 100
𝑛

representando, o percentual de observações que pertencem àquela categoria. A soma das


freqüências deve, agora, ser igual a 100%;
• a freqüência absoluta acumulada, denotada por . Estas freqüências são
obtidas somando-se a freqüência absoluta do valor considerado, às freqüências absolutas
anteriores a este mesmo valor.
• a freqüência acumulada relativa, denotada por e definida como:

= × 100
𝑛
Uma tabela contendo todas estas freqüências é dita uma distribuição de freqüências
completa. Desta forma, a Tabela 2 pode ser apresentada como:

Tabela 2.2. Número de Filhos dos Alunos da Disciplina de Estatística do GUNI.


Número de
Fi fi % Fai fai%
Filhos
0 5 12,82 5 12,82
1 7 17,94 12 30,76
2 12 30,76 24 61,53
3 15 38,46 39 100,00
Total 39 100,00
Fonte: Elaboração própria do professor.

2.3.2. Distribuição de freqüência em classes – com perda de


informação

A distribuição de freqüências em classes é apropriada para apresentar dados


quantitativos contínuos ou discretos com um número elevado de possíveis valores. É
necessário dividir os dados em intervalos ou faixas de valores que são denominadas classes.
Uma classe é uma linha da distribuição de freqüências. O menor valor da classe é
denominado limite inferior ( ) e o maior valor da classe é denominado limite superior ( ).
O intervalo ou classe pode ser representado das seguintes maneiras:
– , onde o limite inferior da classe é incluído na contagem da
frequência absoluta, mas o superior não;
– , onde o limite superior da classe é incluído na contagem, mas o
inferior não;
– , onde tanto o limite inferior quanto o superior são incluídos na
contagem;
– , onde os limites não fazem parte da contagem.
Pode-se escolher qualquer uma destas opções sendo o importante tornar claro no
texto ou na tabela qual está sendo usada. Se houver muitos intervalos, o resumo não
constituirá grande melhoria com relação aos dados brutos. Se houver muito poucos, um
grande volume de informação se perderá. Embora não seja necessário, os intervalos são
freqüentemente construídos de modo que todos tenham larguras iguais, o que facilita as
comparações entre as classes.
Milone (2004, p.36) apresenta os seguintes critérios para a determinação do número
de intervalos, denotado por k:
– Determinar a Amplitude Total dos valores;
– Determinar o número de classes: = √𝑛 ;
– Calcular a amplitude da classe: = ⁄ , fazendo o arredondamento
conveniente ( × 𝑎 𝑎 𝑜𝑠 𝑎 𝑜 𝑒𝑠 𝑒𝑥𝑡 𝑒𝑚𝑜𝑠 𝑠𝑒 𝑒𝑚 𝑛𝑐 𝑢 𝑑𝑜𝑠 )
onde n é o número de elementos da amostra e AT é a amplitude total dos dados.
Deve-se lembrar que sendo k o número de classes, o resultado obtido por cada um
dos critérios deve ser o número inteiro mais próximo ao obtido.
No caso de uma distribuição de freqüência contínua, ou em classes, uma outra
coluna pode ser acrescentada à tabela. É a coluna dos pontos médios, denotada por x i e
definida como a média dos limites da classe:
+
𝑥 = =1 …

Exemplo 09: Considere a tabela abaixo.


Tabela 2.3. Idade dos Alunos de Estatística do GUNI.
Idade Fi
25 4
27 6
28 3
33 5
35 3
36 2
37 3
39 1
40 1
42 1
Total 29
Fonte: Elaboração própria do professor

Segundo Montgomery (2003), ao passar dos dados brutos, que é o mesmo que os
dados apresentados numa distribuição de freqüências pontual, para uma distribuição de
freqüência em classes, algumas informações são perdidas, pois não se tem mais as
observações individuais. Por outro lado, essa perda é pequena quando comparada ao ganho
de concisão e de facilidade de interpretação da distribuição de freqüência.
Assim, para a idade, tem-se:

= =1
=√ = 8
1
= =
e, a distribuição de freqüência é dada na Tabela 2.4.

Tabela 2.4. Idade dos Alunos de Estatística do GUNI.

Idade xi Fi fi% Fai fai%


25 |--- 28 26,5 10 34,48 10 34,48
28 |--- 31 29,5 3 10,34 13 44,83
31 |--- 34 32,5 5 17,24 18 62,07
34 |--- 37 35,5 5 17,24 23 79,31
37 |--- 40 38,5 4 13,79 27 93,10
40 |--- 43 41,5 2 6,90 29 100,00
Total - 29 100,00 - -
Fonte: Elaboração própria do professor.

Nota-se que cada um dos valores observados deve pertencer a uma e somente uma
classe. É usual que o limite inferior da primeira classe seja igual ao menor valor observado
e que o maior valor pertença à última classe. Quando o limite superior da última classe
coincidir com o maior valor observado é mais apropriado fechar este intervalo, contando o
elemento nesta classe, do que abrir uma nova classe contendo apenas uma freqüência
absoluta. Por outro lado, se o maior valor observado for inferior ao limite superior da
classe, não há problemas, pois fixamos todas as classes com a mesma amplitude.
As medidas de tendência central que foram apresentadas anteriormente sofrem uma
pequena modificação caso os dados estejam apresentados segundo uma distribuição de
freqüência. Portanto poderemos expressar a média e a variância como:

̅=∑ =∑ 𝑥

(𝑥 ̅) 𝑥 𝑛̅ 𝑥 ̅
=∑ =∑ =∑
𝑛 1 𝑛 1 𝑛 1
Observe que no caso de dados agrupados a média é obtida a partir de uma
ponderação, onde os pesos são as freqüências absolutas de cada classe e 𝑥 é o ponto médio

da classe .
Para o cálculo da moda, em se tratando de uma distribuição de freqüência de valores
agrupados em classes, primeiramente é necessário identificar a classe modal, aquela que
apresenta a maior freqüência, e a seguir a moda é calculada aplicando-se a fórmula:

= + ×
( + )
onde:
 é o limite inferior da classe modal;
 é a frequência da classe anterior à classe modal;
 é a frequência da classe posterior à classe modal;
 é a amplitude do intervalo da classe.
É relevante salientar que um conjunto de dados pode apresentar todos seus
elementos com a mesma freqüência absoluta, e neste caso não existirá um valor modal, o
que significa que a distribuição será classificada como amodal. Pode ocorrer, também,
casos em que a seqüência de observações apresente vários elementos com freqüência
iguais, implicando numa distribuição plurimodal.
Para a mediana, quando os dados estiverem em distribuição de freqüências em
classes, teremos:
𝑛
= + ×
Onde:
 é o limite inferior da classe mediana;
 𝑛 é o número de elementos da série;
 é a frequência acumulada da classe anterior à mediana;
 é a frequência da classe mediana e é a amplitude do intervalo da
classe
3. TEORIA DAS PROBABILIDADES

Hoje, os governos, as empresas, as organizações profissionais incorporam a teoria


das probabilidades em seus processos diários de deliberações. Independente de qual seja a
aplicação em particular, a utilização das probabilidades indica que existe um elemento de
acaso, ou de incerteza, quanto à ocorrência ou não de um evento futuro. Assim é que em
muitos casos, pode ser virtualmente impossível afirmar por antecipação o que ocorrerá, mas
é possível dizer o que pode ocorrer.
As probabilidades são úteis porque auxiliam a desenvolver estratégias, assim é que
uma empresa pode decidir a negociar seriamente com um sindicato quanto há forte ameaça
de greve, ou investirá em novo equipamento se há boa chance de recuperar o investimento.
O ponto central da probabilidade é a possibilidade de quantificar quão provável é
determinado evento.

3.1. A Probabilidade de um Evento


As probabilidades dizem respeito a algum evento. O “evento” pode ser chuva, lucro,
notas na disciplina de estatística do GUNI e assim por diante. A probabilidade de um
evento ( ( )) é um número entre 0 e 1 (ou entre 0% e 100%). Quanto mais próxima a
probabilidade estiver de 1 (100%) maior é a chance de ocorrência de um evento. Então
quando dizemos que a probabilidade de um candidato ganhar uma eleição é de 0,9 (90%)
dizemos que maior é a chance de ele ganhar do que de ele perder a eleição.

3.2. Espaço Amostral e Eventos


Um dos conceitos matemáticos mais utilizados em probabilidade é o conceito de
conjunto. Um conjunto é uma coleção de objetos que possuem características comuns,
Como, por exemplo, os alunos de estatística do GUNI.
Mas a probabilidade só tem sentido no contexto de um espaço amostral, que é o
conjunto de todos os resultados possíveis de um experimento. O termo experimento sugere
a incerteza dos resultados antes de fazermos as observações. Os resultados de um
experimento chamam-se eventos.
O cálculo da probabilidade leva em conta a maneira como os vários eventos de
interesse podem relacionar-se entre si. Algumas dessas relações são descritas pelas
expressões “complemento”, “mutuamente excludente” e “coletivamente exaustivo”.
O complemento de um evento consiste de todos os resultados no espaço amostral
que não fazem parte do evento. Costuma-se denotar o complemento de um evento por ̅.
Os eventos são mutuamente excludentes se não tem elemento em comum, ou seja,
dois eventos mutuamente excludentes não podem ocorrer ao mesmo tempo, pois a
ocorrência de um elimina a possibilidade de ocorrência do outro.
Os eventos dizem-se coletivamente exaustivos se ao menos um tiver que ocorrer
durante um dado experimento. Um evento e seu complemento são coletivamente exaustivos
e mutuamente excludentes.
Exemplo: Suponha um lançamento de um dado, então teremos:
1. Experimento: Lançamento do dado.
2. Espaço Amostral: {1, 2, 3, 4, 5, 6}.
3. Evento: Sair um número par, ou sair um número ímpar, ou sair um número
menor que 3 e assim por diante.
4. Complemento: o complemento do evento sair um número par é o evento sair um
número ímpar, o complemento de sair um número menor que 3 é sair um
número maior ou igual a 3.
5. Mutuamente Excludente: os eventos sair um número par e sair um número
ímpar são mutuamente excludentes, pois a ocorrência de um exclui a ocorrência
do outro.
6. Coletivamente Exaustivos: os eventos sair um número par e sair um número
ímpar são coletivamente exaustivos, pois na realização do experimento tem que
ocorrer algum dos dois eventos.
Como o espaço amostral consiste de todos os resultados possíveis de um
experimento segue-se que ao menos um dos resultados deve ocorrer. O que se quer dizer é
que a probabilidade do espaço amostral é 100% ou 1. Além disso, porque qualquer evento e
seu complemento esgotam todas as possibilidades do espaço amostral segue-se também que
( ̅) + ( ) = 1.
3.3. Origens da Probabilidade
Nesta seção estudaremos dois métodos de se calcular a probabilidade de um evento,
onde um desses métodos é objetivo (método clássico) e o outro é subjetivo (método
subjetivo).

3.3.1. O Método Clássico


O método clássico aplica-se a situações que têm resultados igualmente prováveis,
como por exemplo, no caso do lançamento de uma moeda, onde só temos dois resultados
possíveis com a mesma probabilidade de ocorrência que é de 0,5 ou 50%. Quando os
resultados são igualmente prováveis, a probabilidade de cada resultado é simplesmente
uma função do número de resultados possíveis.

1
(𝑐𝑎𝑑𝑎 𝑒𝑠𝑢 𝑡𝑎𝑑𝑜) =
𝑛 𝑚𝑒 𝑜 𝑑𝑒 𝑒𝑠𝑢 𝑡𝑎𝑑𝑜𝑠 𝑜𝑠𝑠 𝑒 𝑠

O método clássico pode também aplicar-se a eventos que envolvam dois ou mais
resultados, como por exemplo, podemos querer determinar a probabilidade de extrair uma
das quatro damas de um baralho de 52 cartas. Em tais situações, é necessário identificar
primeiro o número de resultados favoráveis, e então dividir esse número pelo total de casos
possíveis no espaço amostral. Neste caso a probabilidade de um evento qualquer é:

𝑛 𝑚𝑒 𝑜 𝑑𝑒 𝑒𝑠𝑢 𝑡𝑎𝑑𝑜𝑠 𝑎𝑠𝑠𝑜𝑐 𝑎𝑑𝑜𝑠 𝑎𝑜 𝑒 𝑒𝑛𝑡𝑜


( )=
𝑛 𝑚𝑒 𝑜 𝑡𝑜𝑡𝑎 𝑑𝑒 𝑒𝑠𝑢 𝑡𝑎𝑑𝑜𝑠 𝑜𝑠𝑠 𝑒 𝑠

A interpretação da probabilidade clássica, tal como 0,25, é que se o experimento for


repetido um número muito grande de vezes, um evento que tenha probabilidade de 0,25
ocorrerá cerca de 25% das vezes.
O caso da freqüência relativa que foi analisado no capítulo anterior é uma expansão
do caso clássico para as situações em que os resultados não são igualmente prováveis, ou
seja, não têm a mesma probabilidade de ocorrência.
3.3.2. O Método Subjetivo
A probabilidade subjetiva é uma avaliação pessoal do grau de viabilidade de um
evento, ou seja, as pessoas fazem atribuições subjetivas de probabilidade, levando em conta
as suas intuições. A probabilidade subjetiva é, então, o resultado de um esforço para
quantificar nossa crença a respeito de algo.

3.4. A Matemática da Probabilidade


Muitas aplicações da estatística exigem a determinação da probabilidade de
combinações de eventos. Há duas categorias de combinações de relevante interesse em
probabilidade. Suponha dois eventos e presentes no espaço amostral. Já foi visto como
se calcular a probabilidade do evento e a probabilidade do evento , mas possa ser que
queiramos calcular a probabilidade de ocorrência de e conjuntamente ( e ), ou
então a probabilidade de ocorrência de ou , ( ou ).
O cálculo da probabilidade de ocorrência de dois eventos ( ( e )) varia conforme
os eventos sejam ou não independentes. Dois eventos são independentes se a ocorrência
de um não influencia na ocorrência do outro. Por outro lado, se os eventos são
dependentes, então o conhecimento da ocorrência de um pode auxiliar a predizer a
ocorrência do outro. Se dois eventos são independentes, então a probabilidade da
ocorrência de ambos é igual a:
( e )= ( ) ( )

Se dois eventos não são independentes, o cálculo de ( e ) deve levar em conta


esse fato. Se por acaso, o evento B seja dependente do evento A então termos que:

( e )= ( ) ( )

onde ( ) indica a probabilidade de ocorrência de dado que tenha ocorrido.


Quando dois eventos são mutuamente excludentes, suas probabilidades condicionais
são iguais a zero, ou seja, se e são mutuamente excludentes, então ( ) =
( ) = 0, pois estes dois eventos não podem ocorrer simultaneamente. Quando dois
eventos são independentes, o fato de sabermos que um deles ocorreu nada nos diz sobre a
ocorrência do outro, logo:

( )= ( ) e ( )= ( )

Para o cálculo da probabilidade de ocorrência de um ou outro evento, utilizamos a


regra da adição. Neste caso, o cálculo das probabilidades difere se os eventos forem ou não
mutuamente excludentes. Quando os eventos
são mutuamente excludentes, a probabilidade de ocorrência de qualquer um deles é
a soma das duas probabilidades:

( ou ) = ( ) + ( )

Quando dois eventos não são mutuamente excludentes, é possível a ocorrência


conjunta de ambos. Então o cálculo da probabilidade de ocorrência de um ou outro deve
levar em conta o fato de que um, ou outro, ou ambos, podem ocorrer. Neste caso, a
probabilidade será dada por:

( ou ) = ( ) + ( ) ( 𝑒 )
4. VARIÁVEL ALEATÓRIA

Definição: Uma variável aleatória (VA) é uma função com valores numéricos, cujo
valor é determinado por fatores relacionados com a chance.
Geralmente representamos uma VA pela letra . Uma VA pode ser discreta ou
contínua.
Definição: Seja uma VA, se o número de valores de for finito ou infinito
enumerável, denominaremos de VA discreta.
Uma VA é denominada discreta se toma valores que podem ser contados, como por
exemplo, o número de acidentes em um cruzamento, número de clientes atendidos em um
período de tempo, número de defeitos em sapatos...
Definição: Uma VA é considerada contínua quando toma qualquer valor dentro de
determinado intervalo.
Exemplo: a altura dos alunos de uma classe, duração de uma conversa telefônica,
salário dos funcionários de uma empresa...

4.1. Distribuição de Probabilidades


Definição: Uma distribuição de probabilidades é uma distribuição de frequências
relativas para os resultados de um espaço amostral, ou seja, mostra a proporção de vezes
em que uma VA tende a assumir cada um dos diversos valores.
Definição: Se é uma VA discreta, então a cada resultado possível de
associaremos um número (𝑥 ) = ( = 𝑥 ), denominado probabilidade de 𝑥 , que deve
satisfazer as seguintes condições:
(𝑥 ) 0

∑ (𝑥 ) = 1

A função é definida como função de probabilidade de .


Exemplo: Uma urna tem 4 bolas brancas e 3 pretas. Retiram-se 3 bolas sem
reposição. Seja = . Determine a distribuição de probabilidade
de .
Definição: Se é uma VA contínua, então existe uma função , denominada função
densidade de probabilidade (fdp) que satisfaz as seguintes condições:

1. (𝑥) 0 𝑎 𝑎 𝑡𝑜𝑑𝑜 𝑥
2. ∫ (𝑥)𝑑𝑥 = 1

3. 𝑎 𝑎 𝑢𝑎 𝑠 𝑢𝑒 𝑎 𝑐𝑜𝑚 𝑎 + 𝑡𝑒𝑚𝑜𝑠 𝑢𝑒

(𝑎 )=∫ (𝑥)𝑑𝑥

Como é uma VA contínua então assume qualquer valor dentro de um


dado intervalo, portanto ( = 𝑎) = 0, onde 𝑎 é um valor numérico qualquer.
Exemplo: Para qual valor de , (𝑥) = 𝑥 0 𝑥 1 é uma fdp? Calcule (

1 ). Calcule ( ).

4.2. Função de Distribuição Acumulada


Definição: Seja uma VA discreta ou contínua. Define-se a função como a
função de distribuição acumulada da VA como (𝑥) = ( 𝑥)
1. Se for uma VA discreta, então:

(𝑥) = ( 𝑥) = ∑ (𝑥 ) 𝑎 𝑎 𝑡𝑜𝑑𝑜 𝑥 𝑥

2. Se for uma VA contínua com fdp , então:

(𝑥) = ( 𝑥) = ∫ (𝑥)𝑑𝑥

4.3. O Operador Esperança Matemática e o Conceito de Momento


Definição: Seja uma VA discreta, assumindo os valores 𝑥 𝑥 … 𝑥 … Seja
(𝑥 ) = ( = 𝑥 ) = 1 … 𝑛 … Então o valor esperado de será:
( ) = ∑𝑥 (𝑥 )

Definição: Seja uma VA contínua com fdp . O Valor Esperado de será:

( )=∫ 𝑥 (𝑥)𝑑𝑥

Se ∑ 𝑥 (𝑥 ) ou ∫ 𝑥 (𝑥)𝑑𝑥 , ou seja, se a série convergir,


então este número é conhecido como valor médio de . A esperança matemática ou valor
esperado apresenta as seguintes propriedades:

1. Se = , onde é uma constante qualquer, então: ( ) = .


2. Suponha que seja uma constante e seja uma VA. Então:
( )= ( )
3. Sejam e duas VA’s quaisquer, então:
( + ) = ( ) + ( ).
OBS: Esta propriedade pode ser generalizada para um número 𝑛 de
funções.
4. (𝑎 + ) = 𝑎 ( ) +
Outras características da distribuição de probabilidade de podem ser expressas por
meio das esperanças das potências de (assim como a variância). As esperanças dessas
potências constituem o conceito de momento da VA.
Definição: A esperança de é denominada de momento de ordem da VA
para =1 …
Se for uma VA discreta, temos:

( ) = ∑𝑥 (𝑥 )

Se for uma VA contínua, temos:

( )=∫ 𝑥 (𝑥)𝑑𝑥
Desse modo, o valor esperado seria o primeiro momento. Obtendo o segundo
momento ( ( )), podemos encontrar a variância da variável aleatória.
Definição: Seja uma VA. Definiremos a variância de , denotada por ( ) ou
como:

( )= ( ( )) = ( ) ( ( ))

A variância apresenta as seguintes propriedades:

1. Se for uma constante, então:


( + ) = ( ).
2. Se for uma constante, então:
( )= ( )
3. Se e forem duas VA’s, então:
( + )= ( )+ ( )+ 𝑜 ( )
4. (𝑎 + ) = 𝑎 ( )

Outro conceito bastante importante, uma vez que ele nos informar uma relação entre
duas variáveis aleatórias é o de covariância. A covariância entre duas variáveis aleatórias,
e , é dada por:

𝑜 ( ) = [( ( ))( ( ))] = ( ) ( ) ( )

4.4. Distribuição de Probabilidade Multivariada


Se = (𝑠) = (𝑠) … = (𝑠) forem 𝑛 funções, cada uma associando um
número real a cada resultado 𝑠 denominaremos ( … ) de VA n-dimensional.
Trabalhemos, portanto somente com o caso de duas dimensões, bidimensional.
Definição: Sejam um experimento e um espaço amostral associado a . Sejam
(𝑠) = e (𝑠) = duas funções, cada uma associando um número real a cada resultado
𝑠 . Denominaremos ( ) uma VA bidimensional.
Definição: 1. ( ) será uma VA discreta bidimensional se os
valores possíveis de ( ) forem finitos ou infinitos enumeráveis. Isto é, os valores
possíveis de ( ) possam ser representador por (𝑥 𝑦 ) =1 … =1 …
Definição: 2. ( ) será uma VA contínua bidimensional se ( )
puder tomar todos os valores em algum conjunto não-enumerável no plano.
Assim como no caso unidimensional, a variável bidimensional também terá a sua
correspondente distribuição de probabilidade.
Definição: Seja ( ) uma VA discreta bidimensional. A cada resultado possível
(𝑥 𝑦 ) associaremos um número (𝑥 𝑦 ) representando ( = 𝑥 = 𝑦 ) e satisfazendo
as condições:

a. (𝑥 𝑦 ) 0 (𝑥 𝑦)
b. ∑ ∑ (𝑥 𝑦 ) = 1

Onde é a função de probabilidade de ( ). O conjunto 𝑥 𝑦 (𝑥 𝑦 ) =


1 … é denominado distribuição de probabilidade de ( ).
Definição: Seja( ) uma VA contínua bidimensional se ( ) tomando todos os
valores em alguma região do plano. A fdp conjunta é uma função que satisfaz as
seguintes condições:

a. (𝑥 𝑦) 0 (𝑥 𝑦)

b. ∫ ∫ (𝑥 𝑦)𝑑𝑥𝑑𝑦 = 1
Quer a variável seja discreta, quer seja contínua, a sua função acumulada é definida
da seguinte maneira.
Definição: Seja ( ) uma VA bidimensional. A função de distribuição acumulada
da VA bidimensional ( ) é definida por:

(𝑥 𝑦) = ( 𝑥 𝑦)

Nesse caso, temos a probabilidade de que a variável assuma qualquer valor menor
ou igual a 𝑥 e assuma qualquer valor menor ou igual a 𝑦. Em termos práticos,
poderíamos estar analisando a probabilidade de um indivíduo receber um rendimento
menor ou igual a 3 salários mínimos e que ele possua menos de 8 anos de estudo.
Mesmo tratando com uma situação onde temos mais de uma variável aleatória,
poderemos estar interessados apenas nas características (média, variância...) de uma delas.
Nesse caso, precisamos das definições a seguir:
Definição: 1. No caso discreto procederemos assim: Desde que = 𝑥 deve ocorrer
junto com = 𝑦 para algum e pode ocorrer com = 𝑦 somente para um , teremos:

(𝑥 ) = ( = 𝑥 ) = ( = 𝑥 = 𝑦 𝑜𝑢 = 𝑦 𝑜𝑢 … ) = ∑ (𝑥 𝑦 )

a função é denominada de distribuição de probabilidade marginal de .


Analogamente:

(𝑦 ) = ( = 𝑦 ) = ( = 𝑦 = 𝑥 𝑜𝑢 = 𝑥 𝑜𝑢 … ) = ∑ (𝑥 𝑦 )

Como a distribuição de probabilidade marginal de .


Definição: No caso contínuo procederemos assim: Seja a fdp conjunta da VA
bidimensional ( ). Definiremos e , respectivamente, as funções densidade de
probabilidade marginal de e , assim:

(𝑥) = ∫ (𝑥 𝑦)𝑑𝑦

(𝑦) = ∫ (𝑥 𝑦)𝑑𝑥

Ao tratarmos com mais de uma variável, podemos também ter interesse em verificar
a probabilidade de ocorrência de um dado valor para uma variável (caso discreto) ou algum
intervalo de valores (caso contínuo) condicionado a algum resultado já obtido pela outra
variável. O conceito de probabilidade condicional é então introduzido da seguinte maneira.
Definição: 1.Caso Discreto:
( =𝑥 =𝑦) (𝑥 𝑦 )
(𝑥 𝑦 ) = ( = 𝑥 =𝑦)= =
( =𝑦) (𝑦 )

( =𝑥 =𝑦) (𝑥 𝑦 )
(𝑦 𝑥 ) = ( = 𝑦 =𝑥)= =
( =𝑥) (𝑥 )
Definição: 2.Caso Contínuo:
(𝑥 𝑦)
(𝑥 𝑦) =
(𝑦)
(𝑥 𝑦)
(𝑦 𝑥) =
(𝑥)
Em termos práticos, poderemos com isso analisar a probabilidade de um indivíduo
receber um rendimento menor ou igual a 3 salários mínimos dado que ele possua menos de
8 anos de estudo.

4.5. Distribuições de Probabilidade com Variável Aleatória Discreta

• Distribuição de Bernoulli
Uma VA terá distribuição de Bernoulli quando ela representar o número
de sucessos em uma única tentativa do experimento. Desse modo, a VA assume o valor 0
com probabilidade e o valor 1 com probabilidade , onde + = 1. Se apresenta
distribuição de Bernoulli, a sua função de probabilidade de será dada por:

( = 𝑥) =
Deduzimos ainda que essa VA apresenta as seguintes características:

( )=
( )=
(𝑡) = + 𝑒

• Distribuição Binomial
Considere agora o caso onde serão realizadas 𝑛 tentativas, independentes, de
um mesmo experimento aleatório. Assuma que em cada umas das 𝑛 tentativas são
admitidos apenas dois resultados: Sucesso com probabilidade e fracasso com
probabilidade , onde + = 1.
Além disso, como as tentativas são independentes, as probabilidades de
sucesso e fracasso permanecem as mesmas em cada uma das 𝑛 tentativas. Seja então a VA
que representa o número de sucessos nas 𝑛 tentativas do experimento. Nesse caso,
dizemos que tem distribuição Binomial e a sua função de probabilidade será:
𝑛
( = 𝑥) = ( )
𝑥
Temos ainda que:
( )=𝑛
( )=𝑛
(𝑡) = ( + 𝑒 )

• Distribuição de Poisson
Dizemos que uma VA apresenta distribuição de Poisson, quando ela se
referir ao número de ocorrências num campo ou intervalo (tempo ou espaço). Nesse caso, é
assumido que a probabilidade de um sucesso, em um determinado intervalo, é proporcional
ao tamanho deste intervalo, e que a probabilidade de mais de um sucesso neste intervalo é
bastante pequena. Para o cálculo da probabilidade do número de ocorrências em um
determinado campo ou intervalo, a função de probabilidade utilizada será:

𝑒
( = 𝑥) =
𝑥

Temos ainda que:


( )=
( )=
(𝑡) = 𝑒 ( )

Onde representa o número médio de ocorrências no respectivo campo ou


intervalo.

• Distribuição Geométrica
Considere agora tentativas sucessivas e independentes de um mesmo
experimento aleatório. Admita que em cada uma das tentativas, ou pode ocorrer sucesso
com probabilidade ou fracasso com probabilidade , desta forma, + = 1. Além disso,
como as tentativas são independentes, em cada repetição e permanecem os mesmos.
Nesse contexto, uma VA , a qual representa o número de tentativas necessárias ao
aparecimento do primeiro sucesso, apresentará distribuição geométrica e a sua Função de
Probabilidade será:
( = 𝑥) =

Tal variável ainda apresentará as seguintes propriedades:

1
( )=

( )=

𝑒
(𝑡) =
1 𝑒

• Distribuição Hipergeométrica
Imagine agora uma situação onde tenhamos uma população composta por
elementos, dos quais têm uma determinada característica (a retirada de um desses
elementos corresponde ao sucesso). Diante disso, uma amostra de tamanho 𝑛 é retirada
dessa população de tamanho . Seja um VA que indicará o número de elementos
presentes na amostra que têm a determinada característica de interesse (sucessos presentes
na amostra de tamanho 𝑛). Nesse caso, a Função de Probabilidade será:

( )( )
( = 𝑥) =
( )

Da expressão acima, temos que: ( ) representa o número de amostras de

tamanho 𝑛 que podemos formar a partir de uma população de tamanho ; ( )


representa o número de grupos de tamanho 𝑥 que podemos formar a partir de uma
quantidade e ( ) representa o número de grupos de tamanho 𝑛 𝑥 que
podemos formar a partir de uma quantidade . Portanto, o numerador nos
informa, quantos grupos com 𝑥 sucessos e 𝑛 𝑥 fracassos podem ser formados a
partir de uma população composta por sucessos e fracassos. Temos ainda
que:
( )=𝑛
( )
( ) = 𝑛 (1 )( )

• Distribuição Multinomial
Considere um experimento aleatório e eventos ( … ) que
formam uma partição do espaço amostral do experimento. Sejam ( )= =
1 … (probabilidades de sucesso). Considere 𝑛 tentativas independentes do mesmo
experimento sendo que os permaneçam constantes durantes as repetições e que
∑ = 1. Sejam … os números de ocorrências de …
respectivamente, com ∑ = 𝑛. Então :

𝑛
( =𝑛 =𝑛 … =𝑛 )= …
𝑛 𝑛 …𝑛

Temos ainda que:


( )=𝑛
( )=𝑛

4.6. Distribuições de Probabilidade com Variável Aleatória Contínua

• Distribuição Uniforme
Uma VA contínua tem distribuição uniforme de probabilidade no intervalo
𝑎 se a sua fdp for dada por:

(𝑥) = { 𝑠𝑒 𝑎 𝑥
0 𝑐𝑎𝑠𝑜 𝑐𝑜𝑛𝑡 𝑜
Nesse caso, teremos = 1⁄( 𝑎), logo:

⁄(
(𝑥) = {1 𝑎) 𝑠𝑒 𝑎 𝑥
0 𝑐𝑎𝑠𝑜 𝑐𝑜𝑛𝑡 𝑜

Se tem distribuição uniforme em um intervalo de 𝑎 até então indicamos


𝑎 . Temos ainda que:

( )=
( )
( )=

• Distribuição Normal
A distribuição Normal ocupa posição de grande destaque, uma vez que com
bastante frequência, elas representam, com boa aproximação, as distribuições de
frequência observadas em muitos fenômenos naturais e físicos. Além disso,
verifica-se que as distribuições tanto das médias como das proporções, em grandes
amostras, tendem a ser distribuídas normalmente.
O gráfico de uma distribuição Normal se assemelha muito a um sino. É
suave, unimodal e simétrico em relação à sua média. A curva dessa distribuição se
prolonga de a+ e a medida que se distancia da média, esta tende para o eixo
horizontal, no entanto, este nunca será tocado. Isso significa que, valores distantes
da média apresentam uma menor probabilidade de ocorrência.
Uma VA contínua tem distribuição normal se a sua fdp for dada por:

1 ( )
(𝑥) = 𝑒 𝑥 +

Se apresenta distribuição Normal, então indicaremos por ( ).


Temos ainda que:

( )=
( )=

Conforme visto anteriormente, se quisermos calcular a probabilidade de uma VA


contínua apresentar algum valor em determinado intervalo, devemos integrar a fdp desta
VA neste intervalo. Sendo assim, se ( ), então (𝑎 ) é obtida da seguinte
maneira:
1 ( )
(𝑎 )=∫ 𝑒 𝑑𝑥

Pela expressão acima, percebe-se que tal cálculo é complexo. Uma consequência
importante do fato de a curva Normal depender apenas da sua média e do seu desvio padrão
é que a área sob a curva entre um ponto qualquer e a média é função somente do número de
desvios padrões que aquele ponto dista da média. Portanto, podemos converter a diferença
efetiva entre esse ponto e a média para uma diferença relativa exprimindo-a em termos de
desvios padrões a contar da média, ou seja:

𝑎
(𝑎 )= ( )= ( )

Os valores e são as contrapartidas padronizadas de 𝑎 e , os quais podem ser


obtidas na tabela da normal padrão. A variável é chamada de variável normal padrão,
especificada da seguinte maneira:
Teorema: Se ( ), então = (0 1).
4. INFERÊNCIA ESTATÍSTICA

Freqüentemente, devemos tomar decisões com base em resultados obtidos em


amostras geradas de uma população. Tais decisões são chamadas de estatísticas. Utilizar
amostras para se ter conhecimento sobre populações é realizado intensamente na
Agricultura, Política, Negócios, Marketing, Governo, etc., como se pode ver pelos
seguintes exemplos:
– Antes da eleição diversos órgãos de pesquisa e imprensa ouvem um
conjunto selecionado de eleitores para ter uma idéia do desempenho dos
vários candidatos nas futuras eleições.
– O IBGE faz levantamentos periódicos sobre emprego, desemprego, inflação,
etc.
– Redes de rádio e TV se utilizam constantemente dos índices de popularidade
dos programas para fixar valores da propaganda ou então modificar ou
eliminar programas com audiência insatisfatória.
– Biólogos marcam pássaros, peixes, etc. para tentar prever e estudar seus
hábitos.
Com a utilização da inferência estatística, desejamos inferir sobre as
propriedades de uma população com base em alguns resultados obtidos através de uma
amostra. Precisamos então, inicialmente dos seguintes conceitos:
Definição: Uma característica da população é denominada parâmetro. Um
parâmetro é uma constante, isto é, é um número que representa uma característica única da
população.
Definição: Um estimador é uma característica da amostra. Como a amostra é
aleatória um estimador é uma variável aleatória. Assim tudo o que foi visto em
probabilidade sobre variáveis aleatórias, aplica-se aos estimadores.
Definição: Uma estimativa é um valor particular de um estimador. O estimador é a
expressão (fórmula) enquanto que a estimativa é o valor particular que ele assume
(número).
Devemos, portanto, a partir de uma amostra, gerar números que representem os
parâmetros populacionais de interesse. O processo de escolha de uma amostra da população
é denominado de amostragem.
4.1. Amostragem
Recorde-se que o objetivo da estatística é fazer inferência sobre uma população
baseando-se em informações contidas em uma amostra. Esse mesmo objetivo motiva nossa
discussão sobre o problema da amostragem. Consideraremos em particular, o problema da
amostragem em populações finitas, embora ocasionalmente nos referiremos a populações
infinitas. Em muitos casos, a inferência consistirá na estimação de um parâmetro
populacional, tal como média, total, ou proporção, com um limite sobre o erro da
estimação.
Cada observação ou, item, retirado da população contém certa quantidade de
informação sobre o parâmetro populacional ou parâmetro de interesse. Como informação
custa dinheiro, o pesquisador deve determinar quanta informação poderá pagar. Pouca
informação o inibe de fazer boas estimativas, enquanto que, muita informação implicará em
altos gastos. A quantidade de informação obtida na amostra depende do número de itens
amostrados e da quantidade de variação nos dados. Este último fator pode ser controlado
pelo método de seleção da amostra, chamado de “plano amostral”; ele, juntamente com o
tamanho da amostra, determinam a quantidade de informação contida na amostra, a respeito
de um parâmetro populacional.

4.1.1. Como Selecionar a Amostra: O Plano Amostral


O objetivo da amostragem é estimar parâmetros populacionais a partir de
informações contidas na amostra, então, surge uma pergunta: como determinar que
procedimento usar e que número de observações (unidades amostrais) incluir na amostra?
A resposta depende de quanto desejamos pagar pela informação. A quantidade de
informação obtida da amostra pode ser controlada pelo número de unidades amostrais e
pelo plano amostral ou método de coleta usado. O melhor plano para um dado problema é
aquele que fornece a precisão necessária em termos de um limite sobre o erro de estimação
com um custo mínimo.
4.2. Tipos de Amostragem
A amostragem é probabilística quando cada unidade amostral na população tem
uma probabilidade conhecida e diferente de zero de pertencer à amostra. De outra forma a
amostragem é dita ser não-probabilística.
Admita-se, por exemplo, que seja definida uma população de dez grupos escolares.
Se o pesquisador decidiu simplesmente escolher os grupos, A, B, E, G, H, ter-se-ia uma
amostra não-probabilística. É possível, entretanto, que o pesquisador obtenha o número de
alunos de cada grupo escolar e faça um sorteio para a obtenção das cinco escolas, onde
cada escola tem uma probabilidade de ser escolhida proporcionalmente ao número de
alunos pertencentes a ela, portanto esta amostragem será probabilística.

4.2.1. Amostragem Probabilística


Neste curso estudaremos três tipos de amostragem probabilística: a casual simples, a
sistemática e a estratificada.
A amostragem simples destaca-se por ser um processo de seleção fácil e bastante
usado. Nesse processo, todos os elementos da população têm a mesma probabilidade de
serem escolhidos. Este processo consiste nos seguintes passos:
1. Devemos enumerar todos os elementos da população. Se, por exemplo, a nossa
população tiver 5000 elementos devemos enumerá-los de 0000 a 4999, ou como geralmente
acontece, usamos um número que já identifica o elemento.
2. Devemos efetuar sucessivos sorteios com reposição (ou não) até completar o
tamanho da amostra.
A amostragem sistemática trata-se de uma variação da amostragem casual simples,
muito conveniente quando a população está naturalmente ordenada. O procedimento neste
caso tem os seguintes passos:
1. Seja N o tamanho da população e n o tamanho da amostra. Então, calcula-se o
intervalo de amostragem N/n ou o inteiro mais próximo que chamaremos de “a”.
2. Sorteia-se um número entre 1 e “a” e seja “x” esse número.
3. Formamos, assim, a amostra dos elementos correspondentes aos números:
x; ( x  a); ( x  2a); ...; [ x  (n  1)a].
A amostragem estratificada é utilizada quando temos uma população heterogênea,
na qual podemos distinguir subpopulações mais ou menos homogêneas denominadas
estratos. Estratificar uma população é dividi-la em L subpopulações denominadas estratos,

tais que n1  n2  ...  nL  n , onde os estratos são mutuamente exclusivos. Após a


determinação dos estratos, seleciona-se uma amostra aleatória de cada subpopulação. A
amostra aleatória que é gerada em cada estrato é proporcional ao tamanho do estrato,
portanto quanto maior o número de observações em um estrato, maior será a amostra que
será gerada deste estrato.

4.3. Distribuições Amostrais


A finalidade da amostragem é obter uma indicação do valor de um ou mais
parâmetros de uma população, como por exemplo, a média. As estatísticas amostrais que
correspondem a esses parâmetros populacionais são usadas para aproximar os valores
desconhecidos dos parâmetros. Assim é que, por exemplo, a média amostral é utilizada para
estimar a média populacional.
Uma das realidades da amostragem aleatória é que as diversas amostras que são
obtidas de uma mesma população não são iguais, portanto, há uma tendência para que a
estatística calculada com base na amostra varie de amostra para amostra, essa tendência é
conhecida como variabilidade amostral.
A questão a responder para cada amostra é: quão próxima está a estatística amostral
do verdadeiro parâmetro populacional? A resposta depende de três fatores: um é a
estatística que está sendo considerada, outro é o tamanho da amostra e a variabilidade
existente na própria população.
Uma distribuição amostral é uma distribuição de probabilidades que indica até que
ponto uma estatística amostral tende a variar devido a variações casuais na amostragem
aleatória. As estatísticas produzidas pelas distribuições amostrais, apesar se possuírem certa
variabilidade, tendem a se aproximar dos parâmetros populacionais de forma bastante
satisfatória.
Exemplo: Suponha que uma sala de aula tenha apenas 5 alunos, onde suas idades
estão listadas na tabela abaixo.
Tabela – População dos Alunos de uma Sala de Aula
Aluno Idade Parâmetros Populacionais
A 25 Média = 30
B 27 Desvio Padrão = 4,12
C 30
D 33
E 35
Como a população é muito pequena, não teríamos problema algum para calcular os
parâmetros populacionais. No entanto, suponha que a população seja grande, e desse modo,
escolhe-se selecionar uma amostra de tamanho 2. Considere o caso onde os alunos A e C
tenham sido selecionados. Calculando-se a média amostral da idade, teríamos o valor de
27,5, o qual é diferente da média populacional (30). Por meio desse exemplo, surge a
seguinte indagação: Como confiar na estimativa gerada pelo estimador? É preciso então
que este estimador (e os demais também) apresentem algumas características para que
confiemos nele (s).
Seja uma população com um parâmetro de interesse e seja ( … ) uma
amostra aleatória simples extraída desta população. Seja ̂ um estimador do parâmetro .
Então:
– Se ( ̂) = se dirá que ̂ é um estimador não-tendencioso ou não viciado
ou não viesado do parâmetro populacional . Neste caso, a média do
estimador ̂ é o parâmetro populacional , ou ainda, pode-se dizer que o
estimador varia em torno do parâmetro populacional.
– Dados dois estimadores não viesados de , ̂ 𝑒 ̂ dizemos que ̂ é mais
eficiente que ̂ se ( ̂ ) (̂ )
– Se dirá que ̂ é consistente se à medida que o tamanho da amostra aumenta a
variabilidade do estimador diminui, isto é:
( ̂) = 0

Buscamos, portanto, por estimadores que sejam não-viesados e consistente.


Voltando para o exemplo acima, verificamos o seguinte:
Tabela – Resumo dos Parâmetros
Média Desvio Padrão
Poulação 30 4,12
Distribuições Amostrais:
n=2 30 2,52
n=3 30 1,68
n=4 30 1,03

Percebe-se que a média das médias amostrais é sempre igual à média populacional e
que a medida que o tamanho da amostra aumenta, o desvio padrão da distribuição amostral
diminui, indicando que amostras maiores sempre serão mais confiáveis. Estatisticamente
isto significa que a média aritmética é um estimador não-viesado (a média da média
aritmética é igual a média populacional) e consistente (quando n aumenta o desvio-padrão
ou variância tendem a zero). Portanto, a média aritmética apresenta características de um
bom estimador.

4.4. Estimação
A estimação é o processo que consiste em utilizar dados amostrais para estimar os
valores de parâmetros populacionais desconhecidos. Essencialmente, qualquer
característica de uma população pode ser estimada a partir de uma amostra aleatória. Há
inúmeras aplicações da estimação, como por exemplo os analistas do governo que estimam
a inflação futura, um auditor pode desejar estimar o déficit daqui a cinco anos de uma
prefeitura, e muitos outros casos.

4.4.1. Estimativas Pontuais e Intervalares


Uma estimativa é chamada de pontual quando ela é a única estimativa de um
parâmetro populacional, como por exemplo, a média amostral que foi estimada no tópico
passado. Na estimativa intervalar, nós temos um intervalo de valores possíveis no qual se
admite que esteja o parâmetro populacional, um exemplo deste caso é muito comum nas
pesquisas do ibope que diz que um candidato vai obter 45% dos votos com margem de erro
de 2 pontos percentuais para mais e para menos, logo o percentual de votos que o candidato
obterá estará entre o intervalo de 43% a 47%.
A capacidade de estimar parâmetros populacionais por meio de dados amostrais está
ligada diretamente ao conhecimento da distribuição amostral da estatística que está sendo
usada como estimador. Podemos encarar a estatística amostral como uma observação
daquela distribuição amostral. Suponhamos, por exemplo, que tenhamos extraído uma
amostra de alunos e que a idade média amostral é de 25,5 anos. Sabemos que este é um dos
valores da distribuição amostral, mas qual é deles? Isto é, quão próximo está 25,5 da
verdadeira média populacional?
Como nunca saberemos ao certo, devemos contentar-nos com a atribuição
probabilística do intervalo em que o verdadeiro valor (neste caso, a média populacional)
possa estar. Tal intervalo é chamado de intervalo de confiança, e nossa confiança é dada
por 1 – (𝑒 𝑜). Portando, um intervalo de confiança de 95% leva consigo um risco de
erro de 5%, ou seja, 5% dos intervalos assim fixados não contém o verdadeiro valor.

4.5. O Modelo de Regressão Linear Simples


A regressão e a correlação são duas técnicas estreitamente relacionadas que
envolvem uma forma de estimação. Mais especificamente, a análise de correlação e
regressão compreende a análise de dados amostrais para saber se e como duas ou mais
variáveis estão relacionadas uma com a outra em uma população.
A análise de correlação dá um número que resume o grau de relacionamento entre
duas variáveis e a análise de regressão tem como resultado uma equação matemática que
descreve o relacionamento. A correlação entre duas variáveis é medida por meio do
coeficiente de correlação. Sejam e duas variáveis quaisquer, definiremos , o
coeficiente de correlação entre e , da seguinte forma:

( ( ))( ( )) ( )
= =
√ ( )√ ( ) √ ( )√ ( )

Tal coeficiente nos informará um número que estará sempre entre 1 e 1. Se o


coeficiente de correlação for igual a zero, temos que não há relação alguma entre as
variáveis, e se o coeficiente for igual a 1 ( 1), teremos uma forte relação linear entre as
variáveis, relação essa que será positiva (negativa).
A análise de regressão consiste na realização de uma análise estatística com o
objetivo de verificar a existência de uma relação funcional entre uma variável dependente
com uma ou mais variáveis independentes. Em outras palavras consiste na obtenção de uma
equação que tenta explicar a variação da variável dependente pela variação do(s) nível(is)
da(s) variável(is) independente(s).
Quando pretendemos analisar a relação funcional entre uma variável dependente e
uma variável independente ou explicativa, temos o Modelo de Regressão Linear Simples, já
quando temos interesse em verificar a relação funcional entre uma variável dependente
mais de uma variável independente ou explicativa, temos o Modelo de Regressão Linear
Múltipla.
O comportamento da variável dependente ( ) em relação à variável independente
( ) ou às variáveis independentes ( … ) pode se apresentar de diversas maneiras:
linear, quadrático, cúbico, exponencial, logarítmico, etc... . Para se estabelecer o modelo
para explicar o fenômeno, deve-se verificar qual tipo de curva e equação de um modelo
matemático que mais se aproxime dos pontos representados no diagrama de dispersão.
O modelo escolhido deve ser coerente com o que acontece na prática. Para isto,
deve-se levar em conta as seguintes considerações no momento de se escolher o modelo:
 O modelo selecionado deve ser condizente tanto no grau como no aspecto da
curva, para representar em termos práticos, o fenômeno em estudo;
 O modelo deve conter apenas as variáveis que são relevantes para explicar o
fenômeno;
Mesmo tomando todos esses cuidados, verificaremos que os pontos do diagrama de
dispersão, não vão se ajustar perfeitamente à curva do modelo matemático proposto. Isto
acontece, devido ao fato do fenômeno que está em estudo, não ser um fenômeno
matemático (determinístico) e sim um fenômeno que está sujeito a influências que
acontecem ao acaso (aleatórios). Para ilustrar essa discussão, considere o seguinte gráfico:
No gráfico acima, temos no eixo 𝑥 a renda das famílias e no eixo 𝑦 o consumo das
famílias. Verificamos que, mesmo possuindo rendas iguais, as famílias não apresentam o
mesmo consumo, logo outras variáveis influenciam o consumo dessas famílias, variáveis
estas que não foram incorporadas no modelo. Dessa forma, várias observações estão fora da
reta (neste exemplo, propôs-se um modelo linear entre consumo e renda). Assim, o
objetivo da regressão é obter um modelo matemático que melhor se ajuste aos valores
observados de , ou seja, o modelo linear de regressão é a forma utilizada para calcular
médias condicionais de uma variável a partir de dados disponíveis sobre variáveis
supostamente relacionadas.
O Modelo de Regressão Linear apresenta as seguintes hipóteses:
 Os erros tem média zero, ou seja, não há erro de especificação no modelo;
 Relacionamento linear entre as variáveis (modelo linear nos parâmetros);
 Os erros tem variância constante (Homocedasticidade);
 Os erros são independentes entre si, ou seja, há ausência de autocorrelação entre os
erros;
 Os erros e as variáveis explicativas são independentes, ou seja, a covariância entre
elas é zero;
 A variáveis explicativas não podem ser combinações lineares entre si (somente no
modelo de regressão múltipla).
Um dos métodos que se pode utilizar para obter a relação funcional, se baseia na
obtenção de uma equação estimada de tal forma que as distâncias entre os pontos do
diagrama e os pontos da curva do modelo matemático, no todo, sejam as menores possíveis.
Este método é denominado de Método dos Mínimos Quadrados Ordinários (MQO). Tal
método busca minimizar a soma de quadrados das distâncias (resíduos ou desvios) entre os
pontos do diagrama e os respectivos pontos na curva da equação. Desta forma, busca-se
obter uma relação funcional, para o modelo escolhido, com um mínimo de erro possível.
Assumindo que o fenômeno em estudo possa ser representado por uma equação de
regressão linear simples, o modelo populacional (Função de Regressão Populacional) pode
ser representado por:
= + +

Onde: é uma variável dependente;


é a variável independente/regressor/explicativa;
 é o termo de erro aleatório com  (0 );
𝑜 são os parâmetros desconhecidos;
é um índice para observação ( = 1 … 𝑛).

A equação acima é chamada de Função de Regressão Populacional (FRP). Os


parâmetros e são desconhecidos, logo precisam ser estimados. A estimativa da FRP é
denominada de Função de Regressão Amostral, expressa da seguinte maneira:

̂ = ̂ + ̂
Da FRP, temos o seguinte:

Portanto, como e são desconhecidos, o erro também é desconhecido, e,


portanto, precisa ser estimado. O estimador do erro é chamado de resíduo e é indicado da
seguinte maneira:
𝑒 = ̂ ̂ = ̂

Portanto, o resíduo é a diferença entre o verdadeiro valor da variável dependente e o


seu valor estimado. Quanto menor o valor do resíduo, mais próximo o valor estimado está
do verdadeiro valor, ou seja, mais ajustado está o modelo. Dessa forma, é desejável que o
estimado ̂ assuma um valor, o mais próximo possível, do verdadeiro valor de
Diante disso, seria de grande utilidade para os nossos propósitos a existência de um
estimador que minimizasse tal diferença. O Método dos Mínimos Quadrados tal estimador,
uma vez que ele consiste em fornecer o estimador que minimiza a soma dos quadrados dos
desvios, ou seja:

𝑛 = 𝑛∑𝑒 = 𝑛 (∑( ̂ ̂ ) )

Resolvendo o problema de minimização, temos que:

̂ = ̅ ̂ ̅

∑ 𝑦𝑥
̂ =
∑ 𝑥

Onde 𝑥 = ̅e𝑦 = ̅ . Na expressão acima, ̂ não tem tanta importância


intuitiva, uma vez que este representa o intercepto, ou seja, qual o valor de quando o
valor de é zero. Já ̂ nos informa uma relação entre as variáveis e , uma vez que no
numerador temos a covariância entre estas variáveis.
̂ e ̂ são estimadores, sendo, portanto, variáveis aleatórias. Nesse caso, eles

apresentam uma distribuição, uma média e uma variância. Os estimadores de MQO, ̂ e


̂ , são não viesados. Além disso, dentre todos os outros estimadores lineares e não
viesados de , os estimadores de MQO são os que possuem a menor variância (Teorema de
Gauss-Markov). Reescreve ̂ da seguinte maneira:
∑ 𝑦𝑥 ∑ ( 𝑥 + )𝑥 ∑ ( 𝑥 + 𝑥) ∑ 𝑥 +∑ 𝑥
̂ = = = =
∑ 𝑥 ∑ 𝑥 ∑ 𝑥 ∑ 𝑥
∑ 𝑥
= +
∑ 𝑥

Calculando a esperança do estimador, temos:


∑ 𝑥 ∑ 𝑥 1
(̂ )= ( + )= ( )+ ( )= + (∑ 𝑥 )
∑ 𝑥 ∑ 𝑥 ∑ 𝑥

1 1
= + (∑ 𝑥 ) = + (∑ ( 𝑥 ))
∑ 𝑥 ∑ 𝑥

1
= + (∑ 𝑥 ( )) =
∑ 𝑥

A variância será:

∑ 𝑥 ∑ 𝑥 1
(̂ )= ( + )= ( )+ ( )= (∑ 𝑥 )
∑ 𝑥 ∑ 𝑥 (∑ 𝑥 )

1 1 ∑ 𝑥
= (∑ 𝑥 ( )) = (∑ 𝑥 )=
(∑ 𝑥 ) (∑ 𝑥 ) (∑ 𝑥 )

=
∑ 𝑥

Como é um parâmetro populacional, precisa ser estimado. O seu estimador será:

∑ 𝑒
̂ =
𝑛

Onde ̂ é o estimador de MQO não viesado de .

4.5.1. O Coeficiente de Determinação


O coeficiente de determinação, também conhecido como para o caso de
regressão linear simples, fornece uma informação auxiliar ao resultado da análise de
variância da regressão (apresentado a seguir), como uma maneira de se verificar se o
modelo proposto é adequado ou não para descrever o fenômeno. O é obtido por:

∑̂
= =

O valor de varia no intervalo de 0 a 1. Valores próximos de 1 indicam que o


modelo proposto é adequado para descrever o fenômeno. O indica a proporção (ou
porcentagem) da variação de que é “explicada” pela regressão, ou quanto da variação na
variável dependente está sendo “explicada” pela variável independente .
Para se utilizar o pressupõe-se que o modelo seja linear nos parâmetros, que o
método de MQO tenha sido utilizado e que o modelo tenha um intercepto. Dois ou mais
modelos só podem ser comparados quanto ao se as suas variáveis dependentes forem
iguais e se eles tiverem o mesmo número de variáveis explicativas.

4.6. Teste de Hipótese


O teste de significância (Hipótese) e a estimação são dois ramos principais da
inferência estatística. Enquanto que o objetivo da estimação é estimar alguns parâmetros, o
objetivo dos testes de significância é decidir se determinada afirmação sobre um parâmetro
populacional é verdadeira ou não.
O processo básico para testar a significância poderá ser melhor apreciado através de
um problema simples. Considere-se a seguinte situação: Inspeciona-se uma amostra de 142
peças de uma grande remessa, encontrando-se 8%. O fornecedor garante que não haverá
mais de 6% de peças defeituosas em cada remessa.
O primeiro passo consiste em formular duas hipóteses. O que estamos querendo
testar é se 6% ou mais de 6% das peças são defeituosas, logo esta é chamada de hipótese
nula, que é a hipótese a ser testada. Um fato que conhecemos é que em uma remessa 8%
das peças mostraram-se defeituosas, logo temos um fato, este fato será chamado de
hipótese alternativa, que vem para contrapor a hipótese nula.
Supondo que estamos interessados em testar a hipótese que afirma que a média
populacional ( ) seja igual a um determinado valor ( ), podemos representar um teste de
hipótese da seguinte maneira:
=
𝑜𝑢 𝑜𝑢 𝑜𝑢

Se em tivermos temos um teste bicaudal, se tivermos ou


temos um teste unicaudal.
A região de rejeição é um subconjunto do espaço amostral, tal que, se o
valor do escore da estatística cair dentro dele a hipótese nula será rejeitada. A região de
não-rejeição é um subconjunto do espaço amostral, tal que, se o valor do escore da
estatística cair dentro dele a hipótese nula não será rejeitada.
A divisão entre as duas regiões é determinada por informação anterior
relativa à distribuição do escore estatístico, pela especificação da e por considerações
dos custos incorridos de se chegar a uma conclusão incorreta.

4.6.1. Critério do Teste


Seja uma VA, tal que ( ), onde é conhecida e é a afirmação de
. Temos então que:
=

O critério óbvio a usar será o seguinte: se o valor de ̅ for muito diferente de ,


rejeita-se caso contrário não se rejeita É natural considerar como muito diferentes
de , aqueles valores de ̅ que (se fosse a verdadeira média) só ocorreriam por acaso
muito raramente, ou seja, com probabilidade pequena, como por exemplo =1 𝑜𝑢 0 01
Com a indicada ( ), tem-se que:
Conforme a figura acima, é o valor abaixo do qual ̅ será considerado
excessivamente baixo e é o valor acima do qual ̅ será considerado
excessivamente alto, ou seja:

(̅ ) = 0 00 𝑒 (̅ ) = 0 00

Logo, ( ̅ )=0 . Neste caso pode-se considerar ̅ como uma


estatística apropriada e o intervalo como a região de não rejeição. A
localização de 𝑒 é desconhecida, porém é possível determinar facilmente a
localização de suas contrapartidas numa distribuição normal padrão. Como

̅ ( ⁄𝑛), a variável normal padrão correspondente será:

̅
= (0 1)
√ ⁄𝑛

4.6.2. Teste de Hipótese Sobre a Média Quando Não é Conhecida


Quando não se conhece não é conhecida, e se deseja testar = ,
deve-se substituir por . Então a estatística de teste será:

̅
𝑡
√ ⁄𝑛
Temos que 𝑡 segue distribuição t-student com 𝑛 1 graus de
liberdade. A distribuição t é sempre simétrica com média 0 e variância
(𝑛 1)⁄(𝑛 ) , que se aproxima de 1 quando n é grande. À medida que n
aumenta (𝑛 0) a distribuição t se aproxima da normal padrão.

4.6.3. Teste de Hipótese Sobre os Parâmetro do Modelo de Regressão


Linear
Do mesmo modo como para um estimador simples, como a média, podemos
utilizar o conceito de teste de hipótese para testar o estimador de MQO do modelo
de regressão linear. Nesse caso, buscamos verificar se os parâmetros estimados a
partir da amostra são significativamente diferentes dos parâmetros hipotéticos da
população sendo desconhecido o desvio-padrão da população.

̂
𝑡
√ ̂( ̂ )

No contexto de um modelo de regressão linear, estamos basicamente


interessados em verificar se o parâmetro estimado é significante, ou seja, se
podemos rejeitar a hipótese nula de que este é igual a zero. Sendo assim, a estrutura
do teste será:

̂ 0 ̂
= 𝑡
√ ̂( ̂ ) √ ̂( ̂ )

Se rejeitarmos a hipótese nula dizemos que a variável é significante, caso


contrário ela será tratada como insignificante, para o modelo em questão.

4.7. O Modelo de Regressão Linear Múltipla

Consideraremos agora o caso onde a variável dependente é função de várias


variáveis explicativas. A função de regressão será:
= + +⋯+ +

Considerando uma amostra de tamanho 𝑛, podemos representar o modelo no


seguinte formato matricial:

1 …
1 …
[ ]=[ ][ ]+[ ]
1 …

Temos então = + . O estimador de Mínimos Quadrados Ordinários


será a função que minimizará a seguinte soma:

𝑒𝑒= ̂+ ̂ ̂

Resolvendo o problema de minimização, temos que:

̂ =( )

A variância do estimador será

( ̂) = ( )

E o estimador de será:

𝑒𝑒
̂ =
𝑛

Quando estamos trabalhando com um modelo de regressão múltipla,


podemos nos deparar com a situação em que uma variável dependente é função das
demais, ou seja:
No caso de multicolinearidade não perfeita, incorpora-se um termo na
expressão acima. Se a multicolinearidade é perfeita os coeficientes de regressão das
variáveis são indeterminados ( é não invertível) e seus erros-padrão são
infinitos. Se a multicolinearidade é menos que perfeita os coeficientes de regressão,
embora que determinados, possuem grandes erros-padrão, o que leva a problemas
de precisão em suas estimações.
Portanto, a presença da multicolinearidade afeta a variância do estimador, o
que por sua vez, acarretará em problemas no teste de hipótese. Se o nosso objetivo
for somente previsão, a multicolinearidade não é problema, mas se queremos
realizar inferência, temos um problema.
Quando em uma estimação, verificarmos um alto e poucas variáveis
explicativas significantes (baixos valores da estatística 𝑡), então temos um forte
indício da presença da multicolinearidade. Dessa forma precisamos corrigi-la, e para
isto, podemos utilizar as seguintes medidas:
 Uso de informações a priori (estimações realizadas em estudos
anteriores);
 Aumentar 𝑛 (amostra); Combinar dados de corte e séries temporais
(Painel);
 Eliminação de variável (variáveis): pode conduzir a um erro ou viés de
especificação;
 Transformação das variáveis (Primeira Diferença);
Outros dois pressupostos básicos do Modelo de Regressão (Simples ou
Múltiplo) são a homocedasticidade (os erros têm variância constante) e a ausência
de correlação serial (os erros não são correlacionados entre si (dados temporais)).
No caso da heterocedasticidade, o estimador de mínimos quadrados, ̂ ,
permanece linear e não viesado, entretanto, já não é mais eficiente. Assim, o
estimador de mínimos quadrados ordinários não é mais o MELNV na presença de
heterocedasticidade. Nesse caso deve-se fazer uso do método de mínimos quadrados
generalizados (MQG):

̂ =( )
Onde é uma matriz positiva definida que pondera as observações.
Os testes de Goldfeld-Quandt e White são métodos formais para detectar a
presença da heteroscedasticidade.
5. ANÁLISE MULTIVARIADA

A análise multivariada refere-se a um conjunto de métodos estatísticos que


torna possível a análise simultânea de medidas múltiplas para cada indivíduo ou
grupo de observação. Portanto, qualquer análise simultânea de mais de duas
variáveis pode ser considerada análise multivariada.
Diante disso, podemos então fazer o seguinte questionamento: Porque não
analisar de duas em duas, já que seria mais fácil ou menos difícil? A resposta para
tal questionamento seria: Somente as técnicas de estatística multivariada permitem
que se explore a performance conjunta das variáveis e se determine a influência ou
importância de cada uma delas, estando as demais presentes.
As técnicas de Análise Multivariada são:
 Regressão Múltipla
 Permite analisar a relação causal entre uma única variável
dependente quantitativa e duas ou mais variáveis independentes
quantitativas ou qualitativas (dummies). Além disso, há a
possibilidade de serem estimados os valores da variável
dependente a partir dos valores conhecidos ou fixados das
variáveis independentes.
 Análise Discriminante
 É uma técnica multivariada utilizada quando a única variável
dependente é qualitativa (dicotômica ou policotômica) e as
independentes são quantitativas ou qualitativas.
 O principal objetivo é entender as diferenças de grupos para
prever a possibilidade de que um indivíduo pertença a uma classe
ou grupo particular.
 Regressão Logística
 Permite estimar a probabilidade associada à ocorrência de
determinado evento em face de um conjunto de variáveis
explicativas. A variável dependente é de natureza dicotômica e as
independentes podem ser quantitativas ou qualitativas.
 Discriminante: classificar as empresas em solventes e
insolventes;
 Logística: classificar se a empresa encontra-se
(possibilidade) no grupo de solventes ou insolventes.
 Análise Fatorial
 É uma técnica multivariada de interdependência em que todas as
variáveis são simultaneamente consideradas, cada uma
relacionada com as demais, a fim de estudar as inter-relações
entre elas. O objetivo é encontrar um meio de condensar a
informação contida nas variáveis originais em um conjunto
menor de variáveis estatísticas com uma perda mínima de
informação.
 Análise de Conglomerados
 Grupo de técnicas multivariadas cuja finalidade primária é
agregar objetos com base nas características que eles possuem. O
objetivo é classificar uma amostra de objetos ou pessoas em um
pequeno número de grupos mutuamente excludentes observando
apenas as semelhanças ou diferenças entre eles. Diferentemente
das duas análises anteriores, esses grupos não são predefinidos.
 MDS
 É um procedimento que permite determinar a imagem relativa
percebida de um conjunto de objetos, transformando os
julgamentos de similaridade ou preferência em distâncias
representadas no espaço multidimensional. Pode ser aplicado
para identificar preferências dos consumidores em relação a
produtos ou marcas.
 Análise de Variância
 ANOVA: É um caso especial do modelo de regressão linear
utilizado muito frequentemente no tratamento de dados coletados
usando-se a experimentação. É especialmente útil quando se quer
determinar se um fator particular possui efeito sobre a variável
dependente de interesse. Na ANOVA uma variável dependente
contínua é relacionada a uma ou mais variáveis independentes
distintas e categóricas.
 ANCOVA: É um modelo de ANOVA com variáveis dependentes
contínuas.
 MANOVA E MANCOVA: São modelos com mais de uma
variável dependente.
 Análise de Dados em Painel
 É uma técnica de regressão linear utilizada quando a base de
dados combinam dados temporais e cross sections.

= + +
 Os casos de Dados em Painel são:
 Regressão Pooled;
 Efeitos Fixos;
 Efeitos Aleatórios.
 Séries Temporais
 Neste caso a análise é realizada em um conjunto de variáveis que
apresentam uma variação ao longo do tempo. A econometria de
séries temporais é particularmente interessante para as previsões
futuras porque é formulada de forma dinâmica, geralmente em
equações a diferenças. Uma série de tempo pode ser estacionária ou
não estacionária. A primeira coisa que deve ser feita é verificar se a
série é ou não estacionária. Após essa verificação deve ser realizada
a escolha da técnica.

5.1. Análise de Componentes Principais (Análise Fatorial)

A análise fatorial (AF), ou análise do fator comum, é uma técnica que busca
sintetizar as relações observadas entre um conjunto de variáveis inter-relacionadas,
buscando identificar fatores comuns.
A maior vantagem da AF é permitir a simplificação ou a redução de um
grande número de dados, por intermédio da determinação das dimensões latentes
(fatores). A AF busca identificar um número relativamente pequeno de fatores
comuns que podem ser utilizados para representar relações entre um grande número
de variáveis inter-relacionadas.
A partir das correlações observadas entre as variáveis originais a AF estima
os fatores comuns que são subjacentes às variáveis e não diretamente observáveis.
Nesse sentido a técnica transforma um conjunto de variáveis correlacionadas em
outro grupo que pode ser não correlacionado, de maneira a reduzir a complexidade e
facilitar a interpretação dos dados. Busca-se então verificar quantos fatores há no
modelo e o que eles representam.
 Exemplo de utilização da AF: Executivo de recursos humanos pode
desejar criar um indicador de desempenho dos funcionários em
função de características de produtividade, pontualidade, assiduidade
e relacionamento interpessoal.
Maroco (2007) destaca que o objetivo primordial da AF é atribuir um escore
a constructos, fatores, que não são diretamente observáveis. Esse novo escore é uma
representação parcimoniosa da informação presente nas diferentes variáveis e é
capaz de resumir a informação presente em muitas variáveis, em um número
reduzido de fatores não diretamente observáveis. As suposições em AF são:
 Normalidade e linearidade;
 Matriz de correlações com valores significativos.
Basicamente a AF pode ser dividida na seguintes etapas:
 Análise da matriz de correlações e adequação da utilização da AF;
 Extração dos fatores iniciais e determinação do número de fatores;
 Rotação dos fatores;
 Interpretação dos fatores.

5.1.1. Modelagem da Análise Fatorial


O modelo de análise fatorial considera que as variáveis observáveis
( … ), extraídas de uma população com vetor de média e matriz de
covariância , são linearmente dependentes de algumas variáveis não observáveis
… denominadas de fatores comuns, e de fontes adicionais de variação
… denominadas de erros ou fatores específicos.

= + + + ⋯+ + ( =1 … )

Onde é a carga fatorial (loading), representa o peso da variável no fator


, ou seja, o grau de correlação entre as variáveis originais e os fatores e e
representam os fatores comuns e específicos, respectivamente. Sem perda de
generalidade e por conveniência, podemos centrar e reduzir as variáveis como
=( )⁄ .

=𝑎 +𝑎 + ⋯+ 𝑎 + ( =1… )

Calculando então a variância de , temos que:

( )= +

Onde + + ⋯+ = (comunalidade) representa uma estimativa


da variância de que é explicada pelos fatores comuns. A comunalidade é um
índice da variabilidade total explicada por todos os fatores, para cada variável. E
é chamada de especificidade de

5.1.2. Adequação da Utilização da Análise Fatorial

Como a AF é baseada nas correlações, o primeiro passo deve ser examinar a


matriz de correlações para verificar se existem valores significativos para justificar
o uso da técnica. A matriz de correlações mede a associação linear entre as
variáveis, por meio do coeficiente de correlação de Pearson.
De acordo com Hair, Anderson, Tatham e Black (2005) se não houver um
número significativo de correlações superiores a 0,30, há fortes indícios de que a
utilização da AF não é apropriada.
Após a análise da matriz de correlações, deve-se realizar o teste de
esfericidade de Bartlett, o qual serve para examinar a matriz de correlações com
vistas a verificar a adequação da AF. Esse teste tem o intuito de avaliar a hipótese
de que a matriz de correlações pode ser a matriz identidade com determinante igual
a 1 ( ). Se não for rejeitada, isso significa que as inter-relações entre as
variáveis são iguais a zero (Não realiza a AF). Se for rejeitada haverá indícios da
existência de correlações significativas entre as variáveis originais (Realiza a AF).
Outra medida que pode ser verificada é a de kaiser-Meyer-Olkin (KMO),
uma estatística que compara as correlações simples com as parciais. Dependendo do
resultado desse teste, aconselha-se ou não a realização da AF.
Por fim, podemos utilizar a matriz de correlações anti-imagem, a qual
contém os valores negativos das correlações parciais e é uma forma de obter
indícios acerca da necessidade de eliminação de determinada variável do modelo.
A diagonal principal fornece os valores da MSA. Quanto maiores forem tais
valores, melhor será a utilização da AF. Se alguma variável apresentar baixo valor
na diagonal principal e alto valor fora dela, talvez haja a necessidade de excluí-la.
Baixa correlação com as demais variáveis não implica, necessariamente, exclusão,
pois a variável pode apresentar um fator isoladamente.

5.1.3. Extração dos Fatores Iniciais

Nesta etapa é determinado o número de fatores comuns necessários para


descrever adequadamente os dados. Assim, deve-se decidir:
 O método de extração dos fatores:
o Análise dos componentes principais (ACP): A ACP considera
a variância total dos dados cujos fatores são estimados com
base na variância comum. A variância pode ser decomposta
nos seguintes termos: Comum (comunalidade), é aquela
compartilhada entre as variáveis; Específica, é aquela ligada à
variável individual e Erro, é aquela ligada a fatores aleatórios.
A ACP procura uma combinação linear das variáveis
observadas, de maneira a maximizar a variância total
explicada.
o Análise dos fatores comuns (AFC): Na AFP busca-se
identificar fatores ou dimensões latentes que reflitam o que as
variáveis têm em comum. Os fatores são estimados apenas
com base na variância comum, desconsiderando-se assim a
parcela da variância específica e do erro. Este é um método
que deve ser utilizado quando o pesquisador possuir um bom
conhecimento das variáveis em análise, pois isso o capacitará
a fazer um maior número de inferências sobre os
relacionamentos criados pela AF.
 O número de fatores selecionados para representar a estrutura latente
dos dados, a partir dos seguintes critérios:
o Critério da raiz latente (critério de Kaiser): Escolhe-se o
número de fatores a reter em função do número de fatores
próprios acima de 1. Os valores próprios também são
chamados de autovalores e são ordenados por dimensão.
o Critério a priori: É o método mais simples, pois neste caso o
pesquisador já sabe quantos fatores extrair.
o Critério de percentagem de variância: Consiste em escolher,
como número de fatores, um número mínimo necessário para
que o percentual de variância explicada alcance o nível
satisfatório desejado (escolha do pesquisador).
o Critério do gráfico Scree: É utilizado para identificar o
número ótimo de fatores que podem ser extraídos antes que a
quantia de variância única comece a dominar a estrutura de
variância comum. Os autovalores são plotados no eixo-y e o
número de fatores no eixo-x, de acordo com a ordem de
extração. O ponto onde o gráfico começa a se tornar mais
horizontal reflete um indicativo do número máximo de fatores
a serem extraídos.

5.1.4. Rotação dos Fatores

Os fatores produzidos nem sempre são facilmente interpretados. Não são


raros os casos em que mais de um dos fatores explica muito bem o comportamento
de uma das variáveis do problema analisado.
O método de rotação tem como principal objetivo a transformação dos
coeficientes dos componentes principais retidos em uma estrutura simplificada.
Busca-se, então facilitar a interpretação. Existem diversos métodos de rotação:
Varimax (mais utilizado), Quartimax, Equimax, Promax...
A rotação dos fatores é possível, pois as cargas fatoriais podem ser
representadas como pontos entre eixos (que neste caso são os próprios fatores).
Estes eixos podem ser girados sem alterar a distância entre os pontos, todavia as
coordenadas dos pontos em relação aos eixos são alteradas, ou seja, as cargas
fatoriais são alteradas na rotação.

5.2. Análise de Cluster (Conglomerado)

A análise de conglomerados (cluster analysis), também conhecida como


análise de agrupamento de dados, é uma técnica estatística de interdependência que
permite agrupar casos ou variáveis em grupos homogêneos em função do grau de
similaridade entre os indivíduos, a partir de variáveis predeterminadas.
A ideia é agrupar objetos com base em suas próprias características. Deve
ser aplicada quando o objetivo for segmentar as observações em grupos
homogêneos internamente e heterogêneos entre si.
Exemplo: Aplicação desta técnica na área de marketing: Uma empresa pode
segmentar sua base de clientes de acordo com o perfil dos consumidores: aspectos
econômicos, sociais e comportamentais, e assim estabelecer estratégias adequadas a
cada segmento.
É uma técnica que visa segregar elementos ou variáveis em grupos
homogêneos internamente, heterogêneos entre si e mutuamente excludentes, a partir
de determinados parâmetros conforme uma medida similaridade ou de distância.
A análise de conglomerados é uma importante técnica exploratória, uma vez
que, ao estudar uma estrutura natural de grupos, possibilita avaliar a
dimensionalidade dos dados, identificar outliers e levantar hipóteses relacionadas à
estrutura (associações) dos objetos.
Esta técnica se assemelha à AF, pois ambas visam identificar grupos de
variáveis relacionadas. Entretanto, a AF se mostra mais robusta para o agrupamento
de variáveis em detrimento do agrupamento de observações, foco da análise de
clusters. Esta técnica é descritiva, sem base teórica e não inferencial, ou seja, não
possui fundamentos estatísticos. A análise de conglomerados pode ser dividida nas
seguintes etapas:
 Análise das variáveis e dos objetos a serem agrupados: Deve ser feita
com extremo cuidado, pois os grupos a serem formados refletirão a
estrutura inerente das variáveis escolhidas. A inclusão de variáveis não
representativas ou a presença de multicolinearidade (interfere na
ponderação das medidas de similaridade) podem distorcer os resultados
do estudo. A análise de conglomerados é altamente sensível à inclusão
de outliers (comportamento atípico). Cabe ao pesquisador decidir se os
outliers serão excluídos. A utilização de variáveis com medidas/escalas
diferentes pode distorcer a estrutura de agrupamentos. A maior parte das
medidas de distância sofre influência das diferentes escalas ou
magnitudes das variáveis, sendo esse problema contornado com a
padronização das variáveis. Então, a variável que apresentar maior
dispersão teria um peso mais elevado no cálculo das medidas de
distância. A forma mais utilizada consiste em transformar cada variável
em escore padrão (Padronizar a Variável).
 Seleção da medida de distância ou semelhança entre cada par de objetos:
O conceito de similaridade é de vital importância, uma vez que a
identificação de agrupamentos só é possível com a adoção de alguma
medida de semelhança que permita a comparação. As observações são
agrupadas segundo algum tipo de métrica de distância, e as variáveis são
agrupadas conforme medidas de associação ou correlação. Para mais de
duas variáveis é necessário usar as medidas de distância ou similaridade,
as quais podem ser classificadas em três tipos: Medidas de Distância;
Medidas Correlacionais e Medidas de Associação. Tanto as medidas de
distância quanto as correlacionais requerem dados métricos, já as
medidas de associação são destinadas a dados não métricos.
 Seleção do algoritmo de agrupamento: Basicamente, há dois métodos de
agrupamento: hierárquico e não hierárquico. Podemos afirmar que os
diversos métodos visam responder, de maneira diferente às seguintes
questões: Distância entre indivíduos do mesmo grupo e entre indivíduos
de grupos diferentes; Dispersão dos indivíduos dentro do grupo e
Densidade dos indivíduos dentro e fora dos grupos.
 Escolha da quantidade de agrupamentos formados;
 Interpretação e validação dos agrupamentos.

5.3. Análise Discriminante

A análise discriminante (AD) é uma técnica multivariada utilizada quando a


variável dependente é categórica, ou seja, qualitativa (não métrica) e as variáveis
independentes são quantitativas (métricas). O objetivo principal é oferecer a
possibilidade de elaborar previsões a respeito de a qual grupo certa observação
pertencerá, uma vez que se caracteriza como uma técnica de previsão e
classificação. Para isso, são geradas funções discriminantes (combinações lineares
das variáveis).
Exemplos: Uma companhia de seguros pode querer prever quais clientes
estão mais predispostos à falência; pode-se desejar avaliar a percepção do
departamento de vendas de uma empresa sobre o fato de um novo produto estar
destinado ao sucesso ou fracasso no seu lançamento.
A AD envolve a relação entre o conjunto de variáveis independentes
quantitativas e uma variável dependente qualitativa. Em muitos casos verificam-se
três ou mais classificações para a variável dependente (multicotômica). Quando a
análise envolve somente dois grupos de variáveis dependentes temos a AD Simples.
Quando temos mais de dois grupos (maioria dos casos) a técnica é denominada de
AD Múltipla (Mutiple-group discriminant analysis – MDA). Os objetivos principais
desses dois tipos de análise são parecidos:
 Identificar as variáveis que mais discriminam dois ou mais grupos;
 Utilizar estas variáveis para desenvolver funções discriminantes que
representam as diferenças entre os grupos;
 Fazer uso das funções discriminantes para o desenvolvimento de
regras de classificação de futuras observações nos grupos.
A AD Simples requer somente uma função discriminante, já a MDA oferece
funções adicionais, logo também tem como objetivo:
 Identificar o número mínimo de funções discriminantes que melhor
proporciona as diferenças entre os grupos.
Antes da modelagem é pertinente esclarecer os pressupostos inerentes à esta
técnica. Tais testes permitem avaliar se a AD caracteriza-se por estar em um nível
confiável de aplicação. Há dois pressupostos principais:
 Existência de normalidade multivariada das variáveis explicativas: A
combinação linear das variáveis explicativas apresenta uma
distribuição normal. Caso isso não ocorra a AD pode causar
distorções nas avaliações, principalmente se a amostra for pequena.
Se essa violação somente ocorrer pela existência de assimetria da
distribuição, a decisão sobre a aplicação da técnica não sofrerá
alteração. Se a distribuição não for mesocúrtica a aplicação da AD
será prejudicada, sendo pior o caso em que a distribuição for
platicúrtica (SHARMA, 1996). Na página do livro há a rotina para o
teste de normalidade no SAS.
 Presença de homogeneidade das matrizes de variância e covariância
para os grupos: refere-se à existência de homogeneidade das matrizes
de variância e covariância, o qual é verificado pela estatística Box’s
M.
A AD é bastante robusta à violação desses pressupostos, desde que: A
dimensão do menor grupo (categoria) seja superior ao número de variáveis em
estudo e As médias dos grupos não sejam proporcionais às suas variâncias. Além
desses pressupostos, também são considerados como pressupostos da AD: A
inexistência de outiliers; Presença de linearidade das relações e Ausência de
multicolinearidade entre as variáveis explicativas.
A análise discriminante permite o conhecimento das variáveis que mais se
destacam na discriminação dos grupos. Para isso, diversos outputs são gerados a
partir de testes e estatísticas:
 Lambda de Wilks: Varia entre 0 e 1 e propicia a avaliação de
diferenças de médias entre os grupos para cada variável. É a razão
entre a soma dos quadrados dos erros dentro dos grupos e a soma dos
quadrados dos erros totais. Valores elevados indicam ausência de
diferenças entre os grupos. Geralmente apresenta distribuição
 Correlação canônica: Corresponde à razão entre a variação entre os
grupos e a variação total e mede o grau de associação entre os
escores discriminantes e os grupos.
 Qui-quadrado;
 Eigenvalue: É a razão entre a soma dos quadrados entre os grupos e
dentro dos grupos, respectivamente. Assim, eigenvalues altos
resultam em boas funções discriminantes.
No SPSS existem dois procedimentos para a realização da Análise
Discriminante:
 Simultâneo: considera a inclusão de todas as variáveis explicativas
conjuntamente no modelo, mesmo quando não forem significativas;
 Stepwise: é utilizado quando se deseja avaliar a significância
estatística das variáveis por meio da inclusão passo a passo apenas
das significantes.
O procedimento stepwise oferece diversos métodos de seleção de variáveis
discriminantes:
 Lambda de Wilks;
 de Mahalanobis;
 Razão F entre os grupos;
 V de Rao;
 Unexplained Variance.
REFERÊNCIAS BIBLIOGRÁFICAS

BUSSAB, W. e MORETIN, E. Estatística Básica. Editora Saraiva, 2008.

CASSELA, G. e BERGER, R. Inferência Estatística. Campus, 2012.

CORRAR, Luiz J.; PAULO, Edilson; DIAS FILHO, José (coord.). Análise Multivariada para os
cursos de Administração, Ciências Contábeis e Economia, 1ª ed. São Paulo: Atlas, 2007.

FÁVERO, Luiz; BELFIORE, Patrícia; CHAN, Betty; SILVA, Fabiana. Análise de dados:
modelagem multivariada para tomada de decisões. Rio de Janeiro: Campus/Elsevier, 2009.

GUJARATI, Damondar N. Econometria Básica. 3ª ed., São Paulo: MAKRON Books,


2000.

HAIR, Joseph F.; TATHAM, Ronald L.; ANDERSON, Rolph E.; BLACK, William. Análise
multivariada de dados, 6ª ed. Porto Alegre: Bookman, 2009.

MEYER, Paul. Probabilidade: Aplicações à estatística. Livro Técnico, 2009.

ROSS, Sheldon. Probabilidade: Um curso moderno com aplicações. 8ª Ed. Bookman, 2010.

STEVENSON, W. Estatística aplicada à administração. São Paulo: Harbra, 2001.

TOLEDO, G. e OVALLE, I. Estatística Básica. São Paulo: Atlas, 1985.

Vous aimerez peut-être aussi