Vous êtes sur la page 1sur 58

Instituto Tecnolgico de Aeronutica

Diviso de Engenharia Mecnica

MOQ-13/PO-210:
Probabilidade e Estatstica
Profa. Denise Beatriz Ferrari
www.mec.ita.br/denise
denise@ita.br

2o. semestre/2017
SEMANA 01: Roteiro

I Motivao
I Apresentao do Curso
I Plano da Disciplina
I Recursos Computacionais
Motivao
Data Revolution

Como nossas vidas (economia/sociedade) foram e esto sendo


transformadas pela recente disponibilidade (massiva) de todos
os tipos de dados?

4 / 57
Data Revolution

https://www.youtube.com/watch?v=r6v15Z60eUI
www.thehumanfaceofbigdata.com
5 / 57
Data Revolution

Big data
Small data
Linked data
Open data ...
... All Data!

6 / 57
From Big Data to Smart Data

Como gerar VALOR a partir de todos esses dados?

7 / 57
From Big Data to Smart Data

Como gerar VALOR a partir de todos esses dados?

Isto significa no apenas fazer as mesmas coisas de uma maneira melhor...

... significa fazer coisas completamente novas !

7 / 57
Como gerar valor?

Novas tecnologias prope novos desafios:


I obteno dos dados
I limpeza e organizao
I anlise e visualizao
I senso crtico para compreender limitaes e ciladas

8 / 57
Habilidades mais buscadas por
data active companies:

I Conhecimento da rea
Quais os processosreais que geram os dados?
Quais as limitaes dos dados?
Que perguntas os dados permitem responder?

I Combinao de habilidades
computacionais e analticas
programao (obteno e manipulao de dados)
anlise (extrao de significado)

I Experincia no tratamento de dados


ferramentas
tecnologias

http://www.nesta.org.uk/publications/skills-datavores-talent-and-data-revolution
9 / 57
Datavores Report (cont.)

10 / 57
Apresentao do Curso
O QUE ESTATSTICA?

12 / 57
O que Estatstica?
Uso comum...

O uso comum da palavra estatstica normalmente refere-se a uma coleo de


nmeros, valores relativos a nascimentos, mortes, populaes, acidentes,
esportes = sinnimo de "dados".

13 / 57
O que Estatstica?
Definies de livros...

Consiste no campo cientfico que se dedica coleta, organizao, anlise e


interpretao de dados.

Trata do desenvolvimento e aplicao de mtodos capazes de auxiliar o


processo de tomada de decises na presena de incertezas e variabilidade.

14 / 57
O que Estatstica?
Entendimento contemporneo...

Estatstica uma cincia incomumente abrangente:

15 / 57
ESTATSTICA

CINCIA

DO

APRENDIZADO PELA EXPERINCIA

(Frequentista Bayesiana)

16 / 57
Estatstica em Engenharia

Uma parte essencial da prtica em Engenharia consiste na tomada de decises na


presena de incertezas (informao incompleta, variabilidade de processos).

Tal prtica normalmente envolve as atividades:


I Descrever e analisar a aleatoriedade (incerteza) no fenmeno em estudo
I Planejar cursos de ao em situaes de incerteza

Exemplos:
I confiabilidade de aeronaves e seus subsistemas
I anlise do tempo de vida de componentes aeronuticos
I anlise de falhas
I limites de tolerncia

17 / 57
Estatstica Em Engenharia
O Mtodo Cientfico

Como a Estatstica contribui neste processo?

Em Engenharia emprega-se o Mtodo


Cientfico para inferir a natureza de
fenmenos de interesse.

fundamental notar que inferncias


realizadas com base em dados
amostrais so sujeitas a incertezas, pois
uma amostra, por mais representativa que
Mtodo Cientfico: seja, no capaz de fornecer uma imagem
Processo iterativo indutivo-dedutivo perfeita da populao de interesse.

18 / 57
Estatstica em Engenharia
Descrio e Anlise de Incertezas

A disciplina de Estatstica utiliza elementos de probabilidade para avaliar o


grau de confiabilidade, ou seja, quantificar a incerteza associada a inferncias
realizadas a partir de dados amostrais.

Desta forma, engenheiros podem realizar melhor inferncia (estimar, tomar


decises) e avaliar criticamente seus resultados.

Os procedimentos estatsticos dependem do tipo de problema investigado:

Problemas de Estatstica Descritiva:


caracterizar de um conjunto de dados

Problemas de Inferncia Estatstica (anlise matemtica/computacional):


inferir sobre as caractersticas de uma determinada populao a partir das
observaes em uma amostra.

19 / 57
Um pouco de histria

I Origem em 1763: publicao da


Regra de Bayes
Lado filosfico da disciplina
Os primeiros advogados da regra a consideravam um
argumento para a existncia de Deus.

Thomas Bayes, 1702-1761

20 / 57
Um pouco de histria

I 1950s - 1990s: perodo de transio (early computer age)


acelerado desenvolvimento de metodologia estatstica
. teoria
. prtica

I 1950s atualidade: computer age


Big Data
Data Science
Machine Learning

21 / 57
Neste curso...
MOQ-13 / PO-210 / MB-210

MTODOS DE INFERNCIA ESTATSTICA CLSSICA


(Frequentista, Bayesiana, Fisheriana)

22 / 57
Plano da Disciplina
Semana Contedo
1 Apresentao da disciplina. Recursos Computacionais.
2 Introduo teoria de probabilidades. Clculo de probabilidades.
3 Probabilidade condicional e independncia. Teoremas de Probabilidade (TP Total, T. Bayes).
4 Variveis aleatrias - parte I.
5 Variveis aleatrias - parte II.
6 1a. Prova Bimestral
7 Distribuies notveis - parte I.
8 Distribuies notveis - parte II.
9 Distribuies notveis - parte III.
10 2a. Prova Bimestral
11 Princpios de Estatstica. Distribuies amostrais. Teorema do Limite Central.
12 Inferncia estatstica: estimao pontual.
13 Inferncia estatstica: estimao via intervalos de confiana.
14 Inferncia estatstica: teoria da deciso (testes de hipteses).
15 Feriado
16 Tpicos adicionais. Encerramento do curso.
EX1 Exame final
24 / 57
Material de Estudo

Notas de aula
Sries de exerccios
Programas computacionais utilizando a linguagem R
Textos de apoio/vdeos

Bibliografia Principal:
1. Devore, JL (2014).
Probabilidade e Estatstica para Engenharia e Cincias,8a. Ed, Cengage Learning.
Bibliografia Complementar:
1. Zuur, AF; Ieno, EN; Meesters, EHWG (2009).
A Beginners Guide to R, Springer.
2. Verzani, J (2005).
Using R for Introductory Statistics, CRC Press.
3. Horton, NJ; Kleinman, K (2011).
Using R for Data Management, Statistical Analysis, and Graphics, CRC Press.

25 / 57
Equipe

Professores:

Aulas tericas/fundamentos: DENISE FERRARI


Exerccios/discusso: FILIPE RODRIGUES

Monitores:

?
?

Participaes Especiais:

Equipe do ITA
outros ?

26 / 57
Obrigaes dos Professores

I Educao
I Respeito
I Propenso ao Dilogo
I DC
I Esforo para fazer o melhor possvel
I Demais obrigaes tpicas da funo PROFESSOR

fonte: prof. Armando Milioni (uso com permisso)

27 / 57
Obrigaes dos Alunos

I Educao
I Respeito
I Propenso ao Dilogo
I DC
I Esforo para fazer o melhor possvel
I Demais obrigaes tpicas da funo ALUNO

fonte: prof. Armando Milioni (uso com permisso)

28 / 57
Avaliao

Provas Bimestrais:
B1: S06 (06/set/2017)
B2: S10 (11/out/2017)

Exame Final

Quizzes Semanais (online)

Composio das Notas Bimestrais:

NBi = 0, 90 Pi + 0, 10 MQi i = 1, 2

onde:

Pi : nota da prova do bimestre i


MQi : mdia dos quizzes propostos no bimestre i

29 / 57
Elementos Fundamentais em Estatstica
Elementos Fundamentais em Estatstica
Dados e Fontes de Dados

Dados
Populao: conjunto de dados (normalmente grande, ou apenas conceitual)
que caracteriza o fenmeno de interesse.
Amostra: subconjunto de dados selecionados a partir da populao de
interesse, de forma representativa.

Fontes de Dados
Primrias: a coleta dos dados faz parte do estudo
experimentos planejados
estudos observacionais
Secundrias: os dados so obtidos a partir de outras fontes publicadas
(relatrios, peridicos, publicaes oficiais etc.)

31 / 57
Elementos Fundamentais em Estatstica
Observaes e Variveis

Unidades Experimentais: objetos/indivduos a partir dos quais so coletadas as medidas que


compe o conjunto de dados.
Observao: toda informao a respeito de uma unidade experimental no
conjunto de dados (conjunto de variveis).
Variveis: caractersticas ou propriedades observadas nas unidades
experimentais.

Qualitativas (categricas) Quantitativas (numricas)


. Nominais . Contnuas
. Ordinais . Discretas

32 / 57
Fundamentos da Anlise Exploratria de Dados
Mtodos para Explorao, Resumo e Descrio de Dados

Tentar obter informao a partir de dados tabulados nem sempre uma tarefa simples
(especialmente para conjuntos de dados grandes big data).

Se o conjunto de dados representa uma populao, ferramentas grficas e resumos


numricos podem ser muito teis para caracterizar a populao (e apenas para este
propsito).

Frequentemente, os dados constituem uma amostra, e tais ferramentas descritivas


tambm podem ser utilizadas para auxiliar o processo de inferncia.

Os procedimentos mais adequados dependem da natureza das variveis analisadas.

34 / 57
Ferramentas Descritivas para Dados Qualitativos

I Tabelas de frequncia relativa


I Grfico de barras
I Diagrama de Pareto

Exemplo:

Acidentes em plantas nucleares (1977 2004)


Categoria Frequencia
Coal Mine Collapse 7
Dam Failure 4
Gas Explosion 28
Lightning 1
Nuclear Reactor 1
OilFire 4

Fonte: "Safety of nuclear power reactors". Nuclear Issues Briefing Paper 14, November 2004.
35 / 57
Ferramentas Grficas para Descrio de Dados Quantitativos

I Grfico de totais
I Histogramas
Nmero de classes em Histogramas
No. de observaes No. de classes
< 25 56
25 50 7 14
> 50 15 20

36 / 57
Ferramentas Numricas para Descrio de Dados Quantitativos

Estatsticas vs. Parmetros:


I Estatsticas: so calculadas com base em dados amostrais
I Parmetros: representam medidas descritivas de uma populao
normalmente desconhecidos
representados por letras gregas

37 / 57
Ferramentas Numricas para Descrio de Dados Quantitativos
Medidas de Localizao (Centro)

I mdia (aritmtica) Pn Pn
mdia amostral: X = n1 i=1 Xi mdia populacional: = n1 i=1 Xi
ponto de equilbrio (centro de massa) => sensvel a assimetrias (skewness, cauda)
I mediana
resistente presena de pontos extremos
I moda
uso menos frequente (exceto em situaes em que a frequncia relativa de
ocorrncia importante)

38 / 57
Ferramentas Numricas para Descrio de Dados Quantitativos
Medidas de Disperso (Variao)

I amplitude: A = Xmax Xmin


medida resistente: diferentes conjuntos de dados podem apresentar mesma
amplitude e diferentes variabilidades
til para amostras pequenas
I varincia Pn Pn
1 1
amostral: S 2 = n1 i=1 (Xi X )2 populacional: 2 = n i=1 (Xi )2
I desvio-padro
amostral: S = S populacional: = 2

39 / 57
Ferramentas Numricas para Descrio de Dados Quantitativos
Medidas de Posio Relativa

I Quantis/percentis I Escores-z
medida da posio de uma observao
em nmeros de desvio-padro com
relao mdia. amostral:

X X
z=
s
populacional:
X
z=

40 / 57
Deteco de Outliers (observaes extremas)

Uma observao atipicamente grande ou pequena, relativamente s demais observaes


no conjunto de dados considerado chamada outlier.

Outliers normalmente podem ter uma das possveis causas:


1. A observao foi incorretamente medida, registrada ou lida pelo computador.
2. A observao pertence a uma populao distinta.
3. A observao correta, mas representa um evento raro.

Mtodos comuns de deteco:


escore-z: |z| > 3
boxplots

41 / 57
Recursos Computacionais
Recursos Computacionais
Software Estatstico R

R uma linguagem computacional que permite que o usurio programe


algoritmos e utilize ferramentas que foram programadas por outras pessoas 1

Com o R podemos...
I fazer clculos
I realizar anlises estatsticas
I gerar grficos de excelente qualidade
I construir funes e programas para necessidades especficas

1
Zuur et al. (2009) A Beginners Guide to R. Use R! Springer
43 / 57
Por que aprender R?

I Custo ($0)
I Disponibilidade para as plataformas UNIX, Windows, MacOS, online
I Software Livre
I Possibilidade de criar e compartilhar pacotes
I Contm implementaes de mtodos avanados, no facilmente encontrados em
outros programas estatsticos (proprietrios)
I Capacidade de produo de grficos de qualidade
I amplamente utilizado no apenas na academia, mas em empresas e instituies
como NASA, Google, New York Times, Pfizer, Bank of America, Merck, Nestl,
Shell, Ebay, Samsumg, Honda, Hyundai, GE etc.

44 / 57
Preparando o Ambiente
Instalar R e RStudio

45 / 57
Preparando o Ambiente
Iniciando uma Sesso

46 / 57
Operaes aritmticas em R

R utiliza os seguintes smbolos para realizar operaes aritmticas:


+ : adio
() : ordenamento de operaes
: subtrao
%% : resto de diviso
: multiplicao
%/% : diviso inteira
/ : diviso

> (1 + 1/100)100 Em cada caso, uma expresso matemtica


[1] 2.704814 inserida, avaliada e o resultado da operao
impresso na tela.
> 5 %% 2
[1] 1
Note que cada resultado precedido por [1]. O
> 5 %/% 2 prefixo [1] indica que o resultado o primeiro
[1] 2 elemento do vetor de sada.

47 / 57
Operaes lgicas em R

R tambm realiza operaes lgicas:

!x : NO isTRUE(x) : (para vetor unitrio)


Operaes elemento a elemento: Operaes com apenas o primeiro
x & y : E elemento de um vetor:
x | y : OU x && y : E
xor(x,y) : OU exclusivo x || y : OU

48 / 57
Funes pr-definidas

R disponibiliza diversas funes pr-programadas, tais como sin(x), cos(x),


log(x), sqrt(x), entre muitas outras.

> exp(1)
[1] 2.718282 R calcula valores numricos com preciso elevada.
Porm, est pr-programado para representar apenas 7
> pi dgitos significativos. Esta opo pode ser modificada
[1] 3.141593 utilizando a funo options(digits=x):

> sin(pi/6) > options(digits=16)


[1] 0.5 > pi
[1] 3.141592653589793
> floor(exp(1))
[1] 2 As funes floor(x) e ceiling(x) arredondam,
respectivamente, para o menor e maior nmero inteiro
> ceiling(pi) mais prximo.
[1] 4

49 / 57
Constantes pr-definidas

Algumas constantes especiais esto disponveis.

I Lgicas: TRUE, FALSE (evite T e F)

I Valores especiais:
NaN not a number (0/0)
NA valor faltante (desconhecido)
NULL valor indefinido (objeto nulo)
Inf ou -Inf infinito (1/0, -1/0)
pi 3.141593...

I Outras:
LETTERS A, B, ..., Z
letters a, b, ..., z
month.abb Jan, Feb, ..., Dec
month.name January, February, ..., December

50 / 57
Buscando ajuda

Aprender a programar em R envolve lembrar funes e saber encontrar ajuda quando


necessrio.

Para obter detalhes a respeito da funo sqrt(x), por exemplo:


> ?sqrt

> help("sqrt")

> help.search("sqrt")

Obs. Por se tratar de um software livre, existe uma grande grande quantidade de
informao disponvel na internet, no entanto pode ser difcil encontr-la (R, alm de
ser o nome do software tambm uma letra do alfabeto, portanto presente em diversos
sites).
O buscador http://www.rseek.org/ restringe a busca para os sites que possuem
contedo relacionado apenas linguagem R.

51 / 57
52 / 57
Variveis

As operaes anteriores mostram o resultado da avaliao de comandos sendo


impressos em tela. No entanto, um resultado pode ser armazenado atravs da
atribuio do valor calculado a uma varivel.

A atribuio de valores se d atravs da utilizao do


> x <- 5 + 7 operador <-.
> x
[1] 12 Nomes de variveis podem incluir letras, nmeros e
caracteres . ou a, desde que iniciem com uma letra
> y <- sqrt(4)
ou ..
> y
[1] 2
Para visualizar o valor de uma varivel, basta digitar o
> z <- xy seu nome ou os comandos print(x) ou show(x) ou,
> z [1] 144 ainda, digitando a expresso de atribuio entre
parnteses.
> n <- 1
> (n <- n + 1)
Procure nomear suas variveis de maneira informativa,
[1] 2
afim de melhorar a inteligibilidade de seu cdigo.

53 / 57
Objetos

Toda informao armazenada em R na forma de objetos. Variveis so apenas um


tipo de objeto.

Durante uma sesso, todos os objetos so armazenados na rea de trabalho, ou


workspace.

Podemos visualizar o contedo da rea de trabalho utilizando as funes objects() ou


ls(). Para remover objetos utilizamos as funes remove() ou rm().

> x <- 5 + 7; y <- sqrt(4) Ponto e vrgula (;) separa comandos distintos.
> z <- xy
O comando rm(list=ls()) remove todos os
> ls()
objetos da rea de trabalho:
[1] x y z

> rm("x") > rm(list=ls())


> objects() > objects()
[1] y z character(0)

54 / 57
55 / 57
Statistical thinking will one day be as necessary for efficient citizenship as the
ability to read and write. (H.G. Wells, 1946)

56 / 57
OBRIGADA

Denise B. Ferrari
denise@ita.br
2017

Vous aimerez peut-être aussi