Académique Documents
Professionnel Documents
Culture Documents
Março/2018
Fortaleza - Ce
1 INTRODUÇÃO
A Estatística é uma ciência cujo campo de aplicação estende-se a muitas áreas do
conhecimento humano. Entretanto, um equívoco comum que deparamos nos dias atuais é
que, em função da facilidade que o advento dos computadores nos proporciona, permitindo
desenvolver cálculos avançados e aplicações de processos sofisticados com razoável
eficiência e rapidez, muitos pesquisadores consideram-se aptos a fazerem análises e
inferências estatísticas sem um conhecimento mais aprofundado dos conceitos e teorias. Tal
prática, em geral, culmina em interpretações equivocadas e muitas vezes errôneas.
Em sua essência, a Estatística é a ciência que apresenta processos próprios para
coletar, apresentar e interpretar adequadamente conjuntos de dados sejam eles numéricos
ou não. Pode-se dizer que seu objetivo é o de apresentar informações sobre dados em
análise para que se tenha maior compreensão dos fatos que os mesmos representam. A
Estatística subdivide-se em três áreas: descritiva, probabilística e inferencial. A estatística
descritiva, como o próprio nome já diz, se preocupa em descrever os dados. A estatística
inferencial, fundamentada na teoria das probabilidades, se preocupa com a análise destes
dados e sua interpretação.
A palavra estatística tem mais de um sentido. No singular se refere à teoria
estatística e ao método pelo qual os dados são analisados enquanto que, no plural, se refere
às estatísticas descritivas que são medidas obtidas de dados selecionados.
A estatística descritiva, cujo objetivo básico é o de sintetizar uma série de valores de
mesma natureza, permitindo dessa forma que se tenha uma visão global da variação desses
valores, organiza e descreve os dados de três maneiras: por meio de tabelas, de gráficos e
de medidas descritivas.
A tabela é um quadro que resume um conjunto de observações, enquanto os gráficos
são formas de apresentação dos dados, cujo objetivo é o de produzir uma impressão mais
rápida e viva do fenômeno em estudo.
Para ressaltar as tendências características observadas nas tabelas, isoladamente, ou
em comparação com outras, é necessário expressar tais tendências através de números ou
estatísticas. Estes números ou estatísticas são divididos em duas categorias: medidas de
posição e medidas de dispersão.
As probabilidades são úteis porque auxiliam a desenvolver estratégias, assim é que
uma empresa pode decidir a negociar seriamente com um sindicato quanto há forte ameaça
de greve, ou investirá em novo equipamento se há boa chance de recuperar o investimento.
O ponto central da probabilidade é a possibilidade de quantificar quão provável é
determinado evento.
Independente de qual seja a aplicação em particular, a utilização das probabilidades
indica que existe um elemento de acaso, ou de incerteza, quanto à ocorrência ou não de um
evento futuro. Assim é que em muitos casos, pode ser virtualmente impossível afirmar por
antecipação o que ocorrerá, mas é possível dizer o que pode ocorrer.
Tais decisões são tomadas com base em resultados obtidos em amostras geradas de
uma população. Tais decisões são chamadas de estatísticas. Por exemplo, com base em
resultados amostrais podemos decidir se irá ou não chover, se um candidato ganhará ou não
uma eleição, dentre muitos outros assuntos, com os quais nos deparamos em nossas vidas.
A inferência estatística é a parte da estatística que visa inferir sobre as propriedades
de uma população com base em alguns resultados obtidos através de uma amostra.
Antes de iniciarmos o estudo da Estatística em si, faz-se necessário a definição de
alguns conceitos, os quais serão apresentados a seguir.
.
1.1 CONCEITOS FUNDAMENTAIS E DEFINIÇÕES
A estatística trabalha com dados, os quais podem ser obtidos por meio de uma
população ou de uma amostra, definida como:
População: conjunto de elementos que tem pelo menos uma característica
em comum. Esta característica deve delimitar corretamente quais são os
elementos da população que podem ser animados ou inanimados.
Amostra: subconjunto de elementos de uma população. Este subconjunto
deve ter dimensão menor que o da população e seus elementos devem ser
representativos da população.
A seleção dos elementos que irão compor a amostra pode ser feita de várias
maneiras e irá depender do conhecimento que se tem da população e da quantidade de
recursos disponíveis. A estatística inferencial é a área que trata e apresenta a metodologia
de amostragem.
Em se tratando de conjuntos-subconjuntos, estes podem ser:
Finitos: possuem um número limitado de elementos.
Infinitos: possuem um número ilimitado de elementos.
Os elementos são representados por cada uma das unidades observadas no estudo.
Após a determinação dos elementos pergunta-se: o que fazer com estes? Pode-se medi-los,
observá-los, contá-los surgindo um conjunto de respostas que receberá a denominação de
variável.
Variável: é a característica que vai ser observada, medida ou contada nos
elementos da população ou da amostra e que pode variar, ou seja, assumir
um valor diferente de elemento para elemento.
Não basta identificar a variável a ser trabalhada, é necessário fazer-se distinção
entre os tipos de variáveis:
Variável qualitativa: é uma variável que assume como possíveis valores,
atributos ou qualidades. Também são denominadas variáveis categóricas.
Variável quantitativa: é uma variável que assume como possíveis valores,
números.
Cada uma dessas variáveis pode ser sub-classificada em:
Variável qualitativa nominal: é uma variável que assume como possíveis
valores, atributos ou qualidades e estes não apresentam uma ordem natural
de ocorrência. Exemplos: meios de informação utilizados pelos alunos da
disciplina de Estatística do GUNI: televisão, revista, internet, jornal.
Variável qualitativa ordinal: é uma variável que assume como possíveis
valores atributos ou qualidades e estes apresentam uma ordem natural de
ocorrência. Exemplo: estado civil dos alunos da disciplina de Estatística do
GUNI: solteiro, casado, separado.
Variável quantitativa discreta: é uma variável que assume como possíveis
valores números, em geral inteiros, formando um conjunto finito ou
enumerável. Exemplo: idade dos alunos da disciplina de Estatística do
GUNI: 30, 31, 32,...
Variável quantitativa contínua: é uma variável que assume como possíveis
valores números, em intervalos da reta real e, em geral, resultantes de
mensurações. Exemplo: peso (quilogramas) dos alunos da disciplina de
Estatística do GUNI: 60; 62,5; 62,7;...
2. ESTATÍSTICA DESCRITIVA
∑𝑥 = 𝑥 + 𝑥 + 𝑥 + ⋯+ 𝑥
∑(𝑥 + 𝑦 ) = ∑ 𝑥 + ∑ 𝑦
Propriedade 2:
∑ 𝑐𝑥 = 𝑐 ∑ 𝑥
Propriedade 3:
Propriedade 4:
∑𝑥 𝑦 = 𝑥 𝑦 + 𝑥 𝑦 + ⋯+ 𝑥 𝑦
Propriedade 5:
(∑ 𝑥 ) = (𝑥 + 𝑥 + ⋯ + 𝑥 )
Propriedade 6:
∑𝑥 = 𝑥 + 𝑥 + ⋯+ 𝑥
Propriedade 7:
(∑ 𝑥 ) (∑ 𝑦 ) = (𝑥 + 𝑥 + ⋯ + 𝑥 )(𝑦 + 𝑦 + ⋯ + 𝑦 )
∑ 𝑥 = + + + = 0
∑ 𝑥 = + + + = +1 + + 81 = 1
(∑ 𝑥 ) = ( + + + ) = 0 = 00
∑ 𝑥𝑦 = × + × + × + × = +1 + 0+
= 11
(∑ 𝑥 )(∑ 𝑦 ) = ( + + + )( + + + ) = 0 ×
0 = 00
𝑥 𝑥 + 𝑥 + ⋯+ 𝑥
̅=∑ =
𝑛 𝑛
∑(𝑥 ̅) = 0
2.1.2. Moda
A moda (Mo) é o valor que apresenta a maior freqüência da variável entre os valores
observados, ou seja, a moda é o valor que mais aparece na amostra de valores. Para o caso
de valores individuais, a moda pode ser determinada imediatamente observando-se o rol ou
a freqüência absoluta dos dados. Por outro lado, em se tratando de uma distribuição de
freqüência de valores agrupados em classes, primeiramente é necessário identificar a classe
modal, aquela que apresenta a maior freqüência.
É relevante salientar que um conjunto de dados pode apresentar todos seus
elementos com a mesma freqüência absoluta, e neste caso não existirá um valor modal, o
que significa que a distribuição será classificada como amodal. Pode ocorrer, também,
casos em que a seqüência de observações apresente vários elementos com freqüência
iguais, implicando numa distribuição plurimodal.
O uso da moda é mais indicado quando se deseja obter, rapidamente, uma medida
de tendência central. Um outro aspecto que favorece a utilização da moda é que seu valor
não é afetado pelos valores extremos do conjunto de dados analisado.
Exemplo 2.2: A moda da idade dos alunos da disciplina de Estatística do GUNI,
determinada pontualmente, é Mo= 30 anos. Isto significa que a idade mais freqüente entre
estes alunos é de 30 anos.
2.1.3. Mediana
Se 𝑛 = , então a mediana é:
Se tivermos uma amostra com tamanho par, a mediana é a média dos dois valores
centrais da amostra, se tivermos uma amostra de tamanho ímpar, a mediana é o valor
central da amostra.
=
Exemplo 2.4: A amplitude total da idade dos alunos que cursam a disciplina de
Estatística a do GUNI é,
= 0 0 = 0 𝑎𝑛𝑜𝑠,
isto é, as idades dos alunos diferem em 20 anos.
2.2.2. Desvio-médio
A diferença entre cada valor observado e a média é denominado desvio e é dado por
(𝑥 ) se o conjunto de dados é populacional, ou por (𝑥 𝑥̅ ) se os dados são amostrais.
Ao somar todos os desvios, ou seja, ao somar todas as diferenças de cada valor
observado em relação à média, o resultado é igual a zero (propriedade 5 da média). Isto
significa que esta medida não mede a variabilidade dos dados. Para resolver este problema,
pode-se desconsiderar o sinal da diferença, considerando-as em módulo e a média destas
diferenças em módulo é denominada desvio médio:
̅
=∑ (Amostra)
=∑ (População)
( ̅)
=∑ (Amostra)
( )
=∑ (População)
∑ 𝑥 ((∑ 𝑥 ) ⁄ )
=
1
(𝑥 𝑥̅ )
= √∑
𝑛 1
=
𝑛
= × 100
𝑛
= × 100
𝑛
Uma tabela contendo todas estas freqüências é dita uma distribuição de freqüências
completa. Desta forma, a Tabela 2 pode ser apresentada como:
Segundo Montgomery (2003), ao passar dos dados brutos, que é o mesmo que os
dados apresentados numa distribuição de freqüências pontual, para uma distribuição de
freqüência em classes, algumas informações são perdidas, pois não se tem mais as
observações individuais. Por outro lado, essa perda é pequena quando comparada ao ganho
de concisão e de facilidade de interpretação da distribuição de freqüência.
Assim, para a idade, tem-se:
= =1
=√ = 8
1
= =
e, a distribuição de freqüência é dada na Tabela 2.4.
Nota-se que cada um dos valores observados deve pertencer a uma e somente uma
classe. É usual que o limite inferior da primeira classe seja igual ao menor valor observado
e que o maior valor pertença à última classe. Quando o limite superior da última classe
coincidir com o maior valor observado é mais apropriado fechar este intervalo, contando o
elemento nesta classe, do que abrir uma nova classe contendo apenas uma freqüência
absoluta. Por outro lado, se o maior valor observado for inferior ao limite superior da
classe, não há problemas, pois fixamos todas as classes com a mesma amplitude.
As medidas de tendência central que foram apresentadas anteriormente sofrem uma
pequena modificação caso os dados estejam apresentados segundo uma distribuição de
freqüência. Portanto poderemos expressar a média e a variância como:
̅=∑ =∑ 𝑥
(𝑥 ̅) 𝑥 𝑛̅ 𝑥 ̅
=∑ =∑ =∑
𝑛 1 𝑛 1 𝑛 1
Observe que no caso de dados agrupados a média é obtida a partir de uma
ponderação, onde os pesos são as freqüências absolutas de cada classe e 𝑥 é o ponto médio
da classe .
Para o cálculo da moda, em se tratando de uma distribuição de freqüência de valores
agrupados em classes, primeiramente é necessário identificar a classe modal, aquela que
apresenta a maior freqüência, e a seguir a moda é calculada aplicando-se a fórmula:
= + ×
( + )
onde:
é o limite inferior da classe modal;
é a frequência da classe anterior à classe modal;
é a frequência da classe posterior à classe modal;
é a amplitude do intervalo da classe.
É relevante salientar que um conjunto de dados pode apresentar todos seus
elementos com a mesma freqüência absoluta, e neste caso não existirá um valor modal, o
que significa que a distribuição será classificada como amodal. Pode ocorrer, também,
casos em que a seqüência de observações apresente vários elementos com freqüência
iguais, implicando numa distribuição plurimodal.
Para a mediana, quando os dados estiverem em distribuição de freqüências em
classes, teremos:
𝑛
= + ×
Onde:
é o limite inferior da classe mediana;
𝑛 é o número de elementos da série;
é a frequência acumulada da classe anterior à mediana;
é a frequência da classe mediana e é a amplitude do intervalo da
classe
3. TEORIA DAS PROBABILIDADES
1
(𝑐𝑎𝑑𝑎 𝑒𝑠𝑢 𝑡𝑎𝑑𝑜) =
𝑛 𝑚𝑒 𝑜 𝑑𝑒 𝑒𝑠𝑢 𝑡𝑎𝑑𝑜𝑠 𝑜𝑠𝑠 𝑒 𝑠
O método clássico pode também aplicar-se a eventos que envolvam dois ou mais
resultados, como por exemplo, podemos querer determinar a probabilidade de extrair uma
das quatro damas de um baralho de 52 cartas. Em tais situações, é necessário identificar
primeiro o número de resultados favoráveis, e então dividir esse número pelo total de casos
possíveis no espaço amostral. Neste caso a probabilidade de um evento qualquer é:
( e )= ( ) ( )
( )= ( ) e ( )= ( )
( ou ) = ( ) + ( )
( ou ) = ( ) + ( ) ( 𝑒 )
4. VARIÁVEL ALEATÓRIA
Definição: Uma variável aleatória (VA) é uma função com valores numéricos, cujo
valor é determinado por fatores relacionados com a chance.
Geralmente representamos uma VA pela letra . Uma VA pode ser discreta ou
contínua.
Definição: Seja uma VA, se o número de valores de for finito ou infinito
enumerável, denominaremos de VA discreta.
Uma VA é denominada discreta se toma valores que podem ser contados, como por
exemplo, o número de acidentes em um cruzamento, número de clientes atendidos em um
período de tempo, número de defeitos em sapatos...
Definição: Uma VA é considerada contínua quando toma qualquer valor dentro de
determinado intervalo.
Exemplo: a altura dos alunos de uma classe, duração de uma conversa telefônica,
salário dos funcionários de uma empresa...
∑ (𝑥 ) = 1
1. (𝑥) 0 𝑎 𝑎 𝑡𝑜𝑑𝑜 𝑥
2. ∫ (𝑥)𝑑𝑥 = 1
3. 𝑎 𝑎 𝑢𝑎 𝑠 𝑢𝑒 𝑎 𝑐𝑜𝑚 𝑎 + 𝑡𝑒𝑚𝑜𝑠 𝑢𝑒
(𝑎 )=∫ (𝑥)𝑑𝑥
1 ). Calcule ( ).
(𝑥) = ( 𝑥) = ∑ (𝑥 ) 𝑎 𝑎 𝑡𝑜𝑑𝑜 𝑥 𝑥
(𝑥) = ( 𝑥) = ∫ (𝑥)𝑑𝑥
( )=∫ 𝑥 (𝑥)𝑑𝑥
( ) = ∑𝑥 (𝑥 )
( )=∫ 𝑥 (𝑥)𝑑𝑥
Desse modo, o valor esperado seria o primeiro momento. Obtendo o segundo
momento ( ( )), podemos encontrar a variância da variável aleatória.
Definição: Seja uma VA. Definiremos a variância de , denotada por ( ) ou
como:
( )= ( ( )) = ( ) ( ( ))
Outro conceito bastante importante, uma vez que ele nos informar uma relação entre
duas variáveis aleatórias é o de covariância. A covariância entre duas variáveis aleatórias,
e , é dada por:
𝑜 ( ) = [( ( ))( ( ))] = ( ) ( ) ( )
a. (𝑥 𝑦 ) 0 (𝑥 𝑦)
b. ∑ ∑ (𝑥 𝑦 ) = 1
a. (𝑥 𝑦) 0 (𝑥 𝑦)
b. ∫ ∫ (𝑥 𝑦)𝑑𝑥𝑑𝑦 = 1
Quer a variável seja discreta, quer seja contínua, a sua função acumulada é definida
da seguinte maneira.
Definição: Seja ( ) uma VA bidimensional. A função de distribuição acumulada
da VA bidimensional ( ) é definida por:
(𝑥 𝑦) = ( 𝑥 𝑦)
Nesse caso, temos a probabilidade de que a variável assuma qualquer valor menor
ou igual a 𝑥 e assuma qualquer valor menor ou igual a 𝑦. Em termos práticos,
poderíamos estar analisando a probabilidade de um indivíduo receber um rendimento
menor ou igual a 3 salários mínimos e que ele possua menos de 8 anos de estudo.
Mesmo tratando com uma situação onde temos mais de uma variável aleatória,
poderemos estar interessados apenas nas características (média, variância...) de uma delas.
Nesse caso, precisamos das definições a seguir:
Definição: 1. No caso discreto procederemos assim: Desde que = 𝑥 deve ocorrer
junto com = 𝑦 para algum e pode ocorrer com = 𝑦 somente para um , teremos:
(𝑥 ) = ( = 𝑥 ) = ( = 𝑥 = 𝑦 𝑜𝑢 = 𝑦 𝑜𝑢 … ) = ∑ (𝑥 𝑦 )
(𝑦 ) = ( = 𝑦 ) = ( = 𝑦 = 𝑥 𝑜𝑢 = 𝑥 𝑜𝑢 … ) = ∑ (𝑥 𝑦 )
(𝑥) = ∫ (𝑥 𝑦)𝑑𝑦
(𝑦) = ∫ (𝑥 𝑦)𝑑𝑥
Ao tratarmos com mais de uma variável, podemos também ter interesse em verificar
a probabilidade de ocorrência de um dado valor para uma variável (caso discreto) ou algum
intervalo de valores (caso contínuo) condicionado a algum resultado já obtido pela outra
variável. O conceito de probabilidade condicional é então introduzido da seguinte maneira.
Definição: 1.Caso Discreto:
( =𝑥 =𝑦) (𝑥 𝑦 )
(𝑥 𝑦 ) = ( = 𝑥 =𝑦)= =
( =𝑦) (𝑦 )
( =𝑥 =𝑦) (𝑥 𝑦 )
(𝑦 𝑥 ) = ( = 𝑦 =𝑥)= =
( =𝑥) (𝑥 )
Definição: 2.Caso Contínuo:
(𝑥 𝑦)
(𝑥 𝑦) =
(𝑦)
(𝑥 𝑦)
(𝑦 𝑥) =
(𝑥)
Em termos práticos, poderemos com isso analisar a probabilidade de um indivíduo
receber um rendimento menor ou igual a 3 salários mínimos dado que ele possua menos de
8 anos de estudo.
• Distribuição de Bernoulli
Uma VA terá distribuição de Bernoulli quando ela representar o número
de sucessos em uma única tentativa do experimento. Desse modo, a VA assume o valor 0
com probabilidade e o valor 1 com probabilidade , onde + = 1. Se apresenta
distribuição de Bernoulli, a sua função de probabilidade de será dada por:
( = 𝑥) =
Deduzimos ainda que essa VA apresenta as seguintes características:
( )=
( )=
(𝑡) = + 𝑒
• Distribuição Binomial
Considere agora o caso onde serão realizadas 𝑛 tentativas, independentes, de
um mesmo experimento aleatório. Assuma que em cada umas das 𝑛 tentativas são
admitidos apenas dois resultados: Sucesso com probabilidade e fracasso com
probabilidade , onde + = 1.
Além disso, como as tentativas são independentes, as probabilidades de
sucesso e fracasso permanecem as mesmas em cada uma das 𝑛 tentativas. Seja então a VA
que representa o número de sucessos nas 𝑛 tentativas do experimento. Nesse caso,
dizemos que tem distribuição Binomial e a sua função de probabilidade será:
𝑛
( = 𝑥) = ( )
𝑥
Temos ainda que:
( )=𝑛
( )=𝑛
(𝑡) = ( + 𝑒 )
• Distribuição de Poisson
Dizemos que uma VA apresenta distribuição de Poisson, quando ela se
referir ao número de ocorrências num campo ou intervalo (tempo ou espaço). Nesse caso, é
assumido que a probabilidade de um sucesso, em um determinado intervalo, é proporcional
ao tamanho deste intervalo, e que a probabilidade de mais de um sucesso neste intervalo é
bastante pequena. Para o cálculo da probabilidade do número de ocorrências em um
determinado campo ou intervalo, a função de probabilidade utilizada será:
𝑒
( = 𝑥) =
𝑥
• Distribuição Geométrica
Considere agora tentativas sucessivas e independentes de um mesmo
experimento aleatório. Admita que em cada uma das tentativas, ou pode ocorrer sucesso
com probabilidade ou fracasso com probabilidade , desta forma, + = 1. Além disso,
como as tentativas são independentes, em cada repetição e permanecem os mesmos.
Nesse contexto, uma VA , a qual representa o número de tentativas necessárias ao
aparecimento do primeiro sucesso, apresentará distribuição geométrica e a sua Função de
Probabilidade será:
( = 𝑥) =
1
( )=
( )=
𝑒
(𝑡) =
1 𝑒
• Distribuição Hipergeométrica
Imagine agora uma situação onde tenhamos uma população composta por
elementos, dos quais têm uma determinada característica (a retirada de um desses
elementos corresponde ao sucesso). Diante disso, uma amostra de tamanho 𝑛 é retirada
dessa população de tamanho . Seja um VA que indicará o número de elementos
presentes na amostra que têm a determinada característica de interesse (sucessos presentes
na amostra de tamanho 𝑛). Nesse caso, a Função de Probabilidade será:
( )( )
( = 𝑥) =
( )
• Distribuição Multinomial
Considere um experimento aleatório e eventos ( … ) que
formam uma partição do espaço amostral do experimento. Sejam ( )= =
1 … (probabilidades de sucesso). Considere 𝑛 tentativas independentes do mesmo
experimento sendo que os permaneçam constantes durantes as repetições e que
∑ = 1. Sejam … os números de ocorrências de …
respectivamente, com ∑ = 𝑛. Então :
𝑛
( =𝑛 =𝑛 … =𝑛 )= …
𝑛 𝑛 …𝑛
• Distribuição Uniforme
Uma VA contínua tem distribuição uniforme de probabilidade no intervalo
𝑎 se a sua fdp for dada por:
(𝑥) = { 𝑠𝑒 𝑎 𝑥
0 𝑐𝑎𝑠𝑜 𝑐𝑜𝑛𝑡 𝑜
Nesse caso, teremos = 1⁄( 𝑎), logo:
⁄(
(𝑥) = {1 𝑎) 𝑠𝑒 𝑎 𝑥
0 𝑐𝑎𝑠𝑜 𝑐𝑜𝑛𝑡 𝑜
( )=
( )
( )=
• Distribuição Normal
A distribuição Normal ocupa posição de grande destaque, uma vez que com
bastante frequência, elas representam, com boa aproximação, as distribuições de
frequência observadas em muitos fenômenos naturais e físicos. Além disso,
verifica-se que as distribuições tanto das médias como das proporções, em grandes
amostras, tendem a ser distribuídas normalmente.
O gráfico de uma distribuição Normal se assemelha muito a um sino. É
suave, unimodal e simétrico em relação à sua média. A curva dessa distribuição se
prolonga de a+ e a medida que se distancia da média, esta tende para o eixo
horizontal, no entanto, este nunca será tocado. Isso significa que, valores distantes
da média apresentam uma menor probabilidade de ocorrência.
Uma VA contínua tem distribuição normal se a sua fdp for dada por:
1 ( )
(𝑥) = 𝑒 𝑥 +
√
( )=
( )=
Pela expressão acima, percebe-se que tal cálculo é complexo. Uma consequência
importante do fato de a curva Normal depender apenas da sua média e do seu desvio padrão
é que a área sob a curva entre um ponto qualquer e a média é função somente do número de
desvios padrões que aquele ponto dista da média. Portanto, podemos converter a diferença
efetiva entre esse ponto e a média para uma diferença relativa exprimindo-a em termos de
desvios padrões a contar da média, ou seja:
𝑎
(𝑎 )= ( )= ( )
Percebe-se que a média das médias amostrais é sempre igual à média populacional e
que a medida que o tamanho da amostra aumenta, o desvio padrão da distribuição amostral
diminui, indicando que amostras maiores sempre serão mais confiáveis. Estatisticamente
isto significa que a média aritmética é um estimador não-viesado (a média da média
aritmética é igual a média populacional) e consistente (quando n aumenta o desvio-padrão
ou variância tendem a zero). Portanto, a média aritmética apresenta características de um
bom estimador.
4.4. Estimação
A estimação é o processo que consiste em utilizar dados amostrais para estimar os
valores de parâmetros populacionais desconhecidos. Essencialmente, qualquer
característica de uma população pode ser estimada a partir de uma amostra aleatória. Há
inúmeras aplicações da estimação, como por exemplo os analistas do governo que estimam
a inflação futura, um auditor pode desejar estimar o déficit daqui a cinco anos de uma
prefeitura, e muitos outros casos.
( ( ))( ( )) ( )
= =
√ ( )√ ( ) √ ( )√ ( )
̂ = ̂ + ̂
Da FRP, temos o seguinte:
𝑛 = 𝑛∑𝑒 = 𝑛 (∑( ̂ ̂ ) )
̂ = ̅ ̂ ̅
∑ 𝑦𝑥
̂ =
∑ 𝑥
1 1
= + (∑ 𝑥 ) = + (∑ ( 𝑥 ))
∑ 𝑥 ∑ 𝑥
1
= + (∑ 𝑥 ( )) =
∑ 𝑥
A variância será:
∑ 𝑥 ∑ 𝑥 1
(̂ )= ( + )= ( )+ ( )= (∑ 𝑥 )
∑ 𝑥 ∑ 𝑥 (∑ 𝑥 )
1 1 ∑ 𝑥
= (∑ 𝑥 ( )) = (∑ 𝑥 )=
(∑ 𝑥 ) (∑ 𝑥 ) (∑ 𝑥 )
=
∑ 𝑥
∑ 𝑒
̂ =
𝑛
∑̂
= =
∑
(̅ ) = 0 00 𝑒 (̅ ) = 0 00
̅
= (0 1)
√ ⁄𝑛
̅
𝑡
√ ⁄𝑛
Temos que 𝑡 segue distribuição t-student com 𝑛 1 graus de
liberdade. A distribuição t é sempre simétrica com média 0 e variância
(𝑛 1)⁄(𝑛 ) , que se aproxima de 1 quando n é grande. À medida que n
aumenta (𝑛 0) a distribuição t se aproxima da normal padrão.
̂
𝑡
√ ̂( ̂ )
̂ 0 ̂
= 𝑡
√ ̂( ̂ ) √ ̂( ̂ )
1 …
1 …
[ ]=[ ][ ]+[ ]
1 …
𝑒𝑒= ̂+ ̂ ̂
̂ =( )
( ̂) = ( )
E o estimador de será:
𝑒𝑒
̂ =
𝑛
̂ =( )
Onde é uma matriz positiva definida que pondera as observações.
Os testes de Goldfeld-Quandt e White são métodos formais para detectar a
presença da heteroscedasticidade.
5. ANÁLISE MULTIVARIADA
= + +
Os casos de Dados em Painel são:
Regressão Pooled;
Efeitos Fixos;
Efeitos Aleatórios.
Séries Temporais
Neste caso a análise é realizada em um conjunto de variáveis que
apresentam uma variação ao longo do tempo. A econometria de
séries temporais é particularmente interessante para as previsões
futuras porque é formulada de forma dinâmica, geralmente em
equações a diferenças. Uma série de tempo pode ser estacionária ou
não estacionária. A primeira coisa que deve ser feita é verificar se a
série é ou não estacionária. Após essa verificação deve ser realizada
a escolha da técnica.
A análise fatorial (AF), ou análise do fator comum, é uma técnica que busca
sintetizar as relações observadas entre um conjunto de variáveis inter-relacionadas,
buscando identificar fatores comuns.
A maior vantagem da AF é permitir a simplificação ou a redução de um
grande número de dados, por intermédio da determinação das dimensões latentes
(fatores). A AF busca identificar um número relativamente pequeno de fatores
comuns que podem ser utilizados para representar relações entre um grande número
de variáveis inter-relacionadas.
A partir das correlações observadas entre as variáveis originais a AF estima
os fatores comuns que são subjacentes às variáveis e não diretamente observáveis.
Nesse sentido a técnica transforma um conjunto de variáveis correlacionadas em
outro grupo que pode ser não correlacionado, de maneira a reduzir a complexidade e
facilitar a interpretação dos dados. Busca-se então verificar quantos fatores há no
modelo e o que eles representam.
Exemplo de utilização da AF: Executivo de recursos humanos pode
desejar criar um indicador de desempenho dos funcionários em
função de características de produtividade, pontualidade, assiduidade
e relacionamento interpessoal.
Maroco (2007) destaca que o objetivo primordial da AF é atribuir um escore
a constructos, fatores, que não são diretamente observáveis. Esse novo escore é uma
representação parcimoniosa da informação presente nas diferentes variáveis e é
capaz de resumir a informação presente em muitas variáveis, em um número
reduzido de fatores não diretamente observáveis. As suposições em AF são:
Normalidade e linearidade;
Matriz de correlações com valores significativos.
Basicamente a AF pode ser dividida na seguintes etapas:
Análise da matriz de correlações e adequação da utilização da AF;
Extração dos fatores iniciais e determinação do número de fatores;
Rotação dos fatores;
Interpretação dos fatores.
= + + + ⋯+ + ( =1 … )
=𝑎 +𝑎 + ⋯+ 𝑎 + ( =1… )
( )= +
CORRAR, Luiz J.; PAULO, Edilson; DIAS FILHO, José (coord.). Análise Multivariada para os
cursos de Administração, Ciências Contábeis e Economia, 1ª ed. São Paulo: Atlas, 2007.
FÁVERO, Luiz; BELFIORE, Patrícia; CHAN, Betty; SILVA, Fabiana. Análise de dados:
modelagem multivariada para tomada de decisões. Rio de Janeiro: Campus/Elsevier, 2009.
HAIR, Joseph F.; TATHAM, Ronald L.; ANDERSON, Rolph E.; BLACK, William. Análise
multivariada de dados, 6ª ed. Porto Alegre: Bookman, 2009.
ROSS, Sheldon. Probabilidade: Um curso moderno com aplicações. 8ª Ed. Bookman, 2010.