Vous êtes sur la page 1sur 49

A escolha do R como

software estatstico

Braslia
Novembro/2010

A escolha do R como software estatstico

Bruno Henrique Fernandes Fonseca

Perguntas freqentes nas listas de e-mail

Qual software estatstico devo aprender?

Quais softwares esto sendo exigidos nos


processos seletivos?

A escolha do R como software estatstico

Bruno Henrique Fernandes Fonseca

Perguntas freqentes nas listas de e-mail


O aprendizado de um software est vinculado a:

Necessidade por recursos computacionais para


realizar anlises estatsticas

Calculadora cientfica
SPSS
SAS
R

Disponibilidade dos softwares (licena)

Incentivo de terceiros e treinamento

A escolha do R como software estatstico

Bruno Henrique Fernandes Fonseca

Incio da Graduao em Estatstica


Estatstica Exploratria 1 Trabalho

Diversas medidas descritivas

Diversos Histograma

Usei as ferramentas do ensino mdio

Lpis

Calculadora

A escolha do R como software estatstico

Bruno Henrique Fernandes Fonseca

Incio da Graduao em Estatstica


Estatstica Exploratria 1 Trabalho
Uns

20 minutos para cada histograma

Muito

tempo revisando os clculos medidas

Baixa

qualidade de apresentao

PRECISO DO COMPUTADOR NAS


PRXIMAS VEZES!!

A escolha do R como software estatstico

Bruno Henrique Fernandes Fonseca

Incio da Graduao em Estatstica


Uso com computador:

A escolha do R como software estatstico

Bruno Henrique Fernandes Fonseca

Incio da Graduao em Estatstica


Incio da utilizao do Excel
Boa

interface com o usurio

Boas

funes grficas

Boas

funes de tabulao de dados

Fcil

utilizao das funes em portugus

A escolha do R como software estatstico

Bruno Henrique Fernandes Fonseca

Empresa Junior de Estatstica


Anlise Descritiva de muitas variveis
Muito

tempo para produzir relatrio usando


apenas os Excel e o Word

Dificuldade

para criao de macros no Excel

Regresso Linear mltipla


Anlise de Experimento
O Excel no atendia mais todas as
minhas necessidades

A escolha do R como software estatstico

Bruno Henrique Fernandes Fonseca

Empresa Junior de Estatstica

Incio da utilizao do SPSS


tima

Interface com o usurio (ingls)

Comandos
Boa

fceis com Point Click

exportao de resultados para Word

Boas

funes de tabulao

A escolha do R como software estatstico

Bruno Henrique Fernandes Fonseca

6 Semestre da Graduao
Na UnB, trs porquinhos:

Tcnicas de Amostragem

Anlise Multivariada 1

Planejamento e Pesquisa 1

O point click do SPSS comeou a parecer


um labirinto de opes estatsticas

Incentivo dos professores ao uso do SAS

7 Semestre da Graduao
Boa

Interface com o usurio (ingls)

Muitas
PROC
Boa

IML

opo de Point Click

Boas
Boa

opes nas PROCs (labirinto resolvido)

funes de exportao de resultados

documentao (help)

Grande

demanda do mercado de trabalho

A escolha do R como software estatstico

Bruno Henrique Fernandes Fonseca

8 Semestre da Graduao
Apresentado ao R no curso de
Estatstica No-Paramtrica
Teste

de Hiptese - bootstrap

Apenas

com scripts de programao

Utilizaram

poucas funes prontas

Resolvi que no utilizaria o R


Programao
Pobre

difcil

interface com o usurio

Poucos

colegas profissionais utilizavam

A escolha do R como software estatstico

Bruno Henrique Fernandes Fonseca

Incio do Mestrado
Primeiras disciplinas
Muita

teoria e pouca computao

No

entanto, constatei que todos os professores


usavam o SAS ou o R

Continue

usando o SAS

Estatstica Matemtica (Inferncia)


Trabalho

sobre propriedades de Estimadores

Simulao
No

consegui adaptar funes no SAS

A escolha do R como software estatstico

Bruno Henrique Fernandes Fonseca

Mestrado
Incio da utilizao do R
Resolvido

o problema de simulao e
propriedades de estimadores

Passei

a utilizar o SAS e o R conjuntamente

Dissertao
Modelos

geoestatsticos bivariados

Estimao
Nenhum

e predio complexa

software possui tudo implementado

TERMINEI O MESTRADO USANDO APENAS O R

A escolha do R como software estatstico

Bruno Henrique Fernandes Fonseca

1 Emprego como Estatstico


TST - Tribunal Superior do Trabalho
Possua

licenas de Minitab

Servidores

treinados para utilizar o software

Problemas

com renovao de contrato para o

Minitab
Problema

com licitao para outros softwares

Atualmente usamos o R para realizar:


Validao

de dados

Anlise

de sries temporais

Anlise

de Clusters e Anlise Fatorial

A escolha do R como software estatstico

Bruno Henrique Fernandes Fonseca

Qual software devo apreender?

O uso dos softwares vincula-se com:

Necessidade

Incentivo a utilizao (professores, colegas...)

Disponibilidade de licena

A escolha do R como software estatstico

Bruno Henrique Fernandes Fonseca

Qual software devo apreender?

APROVEITE AS OPORTUNIDADES E TENTE


APRENDER UM POUCO DE TODOS!!
Processos

seletivos com diversas exigncias


de conhecimento

Possibilidade

resultados

de comparao e crtica dos

A escolha do R como software estatstico

Bruno Henrique Fernandes Fonseca

Em qual software devo me especializar?

ESPECIALIZE-SE NO R
Por que?

A escolha do R como software estatstico

Bruno Henrique Fernandes Fonseca

Principais motivos para especializar-se no R

Software gratuito

Todos os cdigos so abertos, reproduzveis e adaptveis

Desenvolvido para Windows, diversas plataformas UNIX e MacOS

Comunidade acadmica disseminando conhecimento (Grupos muito


ativos; no Brasil, um bom grupo o R_STAT do yahoo)

Criao da revista The R Journal

Empresas privadas e pblicas esto se atentando ao R (diminuio


de despesas e flexibilidade de anlises)

Link com C, C++ e Fortran

tima documentao (alteraes de verses e helps)

No

pergunte se o R capaz de fazer algo!


Pergunte como ele faz! Bill Venables

A escolha do R como software estatstico

Baixando o R

Bruno Henrique Fernandes Fonseca

http://www.r-project.org

A escolha do R como software estatstico

Bruno Henrique Fernandes Fonseca

Baixando o R
http://www.r-project.org

A escolha do R como software estatstico

Bruno Henrique Fernandes Fonseca

Baixando o R
http://cran-r.c3sl.ufpr.br

A escolha do R como software estatstico

Bruno Henrique Fernandes Fonseca

Baixando o R
http://cran-r.c3sl.ufpr.br

A escolha do R como software estatstico

Bruno Henrique Fernandes Fonseca

Baixando o R
http://cran-r.c3sl.ufpr.br

A escolha do R como software estatstico

Bruno Henrique Fernandes Fonseca

Abrindo o R Usando demonstraes prontas

A escolha do R como software estatstico

Bruno Henrique Fernandes Fonseca

Exemplo de funo interativa Gincana do XXI ENEST

gincana <- function() {


cat(Digite o nome da universidade que ir ganhar a gincana (em letras minsculas)\n")

universidade <- readLines(n = 1)


if (universidade == unb")
cat(ACHO QUE VOC ACERTOU!!!\n")
else cat(IHHH, ESCOLHA ERRADA...\n")
return(invisible())

}
gincana()

A escolha do R como software estatstico

Bruno Henrique Fernandes Fonseca

Exemplo grfico Amor pela cidade


cidade=function(nome="Braslia"){
x=seq(-2,2,0.001)
y1=sqrt(1-((abs(x)-1)^2))
y2=-3*sqrt(1-(sqrt(abs(x))/sqrt(2)))
plot(main=paste("XXI ENEST\n",nome," achei uma frmula pra explicar o que sinto por
voc...",sep=""),
ylab="",xlab="",c(x,x),c(y1,y2),lwd=3,pch=20,cex=6)
grid()
cores=paste(c("green","yellow"),sort(rep(1:4,2)),sep="")
eq=c("( AM + BC ) * X = AM ( X + BOC ) - BCTE","AMX + BCX = AMX + AMBOC BCTE","BCX = AMX - AMX + BC (AMO - TE)","BCX = BC ( AMO - TE )","X = ???")
pos=c(-0.3,-0.6,-0.9,-1.2,-1.5)
cont=0
for (i in 1:30){
points(c(x,x),c(y1,y2),col=cores[sample(1:8,1)],lwd=sample(1:4,1),pch=20,cex=round(r
unif(1,1,4)))
if (i%%5 == 0 & i <=25) {
cont=cont+1
text(0,pos[cont],eq[cont])
}}
text(1.2,-2.5,"AMO-TE",col="red",cex=3)}
cidade()
## Caso queira trocar o nome da cidade, basta executar cidade(Nome da cidade)

A escolha do R como software estatstico

Bruno Henrique Fernandes Fonseca

Entendendo o sistema de pacotes do R

Ao instalar o R, diversos pacotes bsico so


automaticamente baixados e instalados

Ao iniciar a execuo do R, por default, alguns


pacotes ficam disponveis para utilizao

Os demais pacotes pr-instalados podem ser


carregados para o R com as funes:

library(nome do pacote)

require(MASS), obs.: MASS exemplo

Outros pacotes no so instalados ao baixar o R,


como por exemplo, o pacote Rcmdr, para installo utilize:

install.packages(Rcmdr)

A escolha do R como software estatstico

Bruno Henrique Fernandes Fonseca

Entendendo o sistema de pacotes do R

Todos os Pacotes
Pacotes Instalados
no Computador
Pacotes instalados
automaticamente

Pacotes carregados
automaticamente

Pacotes
carregados para
memria do R
(disponveis
para utilizao)

Pacotes de
instalao opcional:
install.packages()

Pacotes de
carregamento opcional:
require() ou library()

A escolha do R como software estatstico

Bruno Henrique Fernandes Fonseca

Preciso saber programar para iniciar o uso


do R?

Resposta: NO
O

pacote Rcmdr uma tima soluo

tima interface grfica

Menus de entrada em portugus

Janela de Output com scripts

Execute

nas linhas de comando do R:

install.packages(Rcmdr)

require(Rcmdr) ou library(Rcmdr)

A escolha do R como software estatstico

Bruno Henrique Fernandes Fonseca

Interface do pacote Rcmdr

A escolha do R como software estatstico

Bruno Henrique Fernandes Fonseca

Introduo aos scripts do R


Operaes

Aritmticas:

Funes

sqrt( ) raiz quadrada

abs( ) valor absoluto


sin( ) cos( ) tan( ) trigonomtricas
asin( ) acos( ) atan( ) trigonomtricas
inversas
inh( ) cosh( ) tanh( ) hiperblicas

> 5+4

[1] 9
> ((5+4)*25)/18

[1] 12.5
> 3^2
[1] 9
> 3**2
[1] 9

de operaes:

asinh( ) acosh( ) atanh( ) hiperblicas


inversas
exp( ) log( ) exponencial e logartmo
natural
log10( ) log2( ) logartmo base-10 e 2
gamma( ) funo Gamma de Euler
factorial( ) fatorial (n!)
choose( ) nmero de combinaes

A escolha do R como software estatstico

Bruno Henrique Fernandes Fonseca

Introduo aos scripts do R


Cada pacote possui diversas anlises implementadas via funes

Funcionamento bsico de uma funo:

Similar s funes do Excel

Possui basicamente um nome e argumentos de entrada

Os argumentos devem ser informados entre parnteses

Os argumentos devem ser separados por vrgula

Para executar o comando basta um clique no Enter

Exemplos:
> c(10,15,12,9,18) #criando um vetor sem armazenar em objeto
> dados <- c(10,15,12,9,18) #armazenando como objeto de nome dados
> quantile(x=dados,probs=c(0,0.25,0.5,0.75,1)) #calcula os quartis
> quartil_enest <- quantile(x=dados,probs=c(0,0.25,0.5,0.75,1))
#armazenando como objeto de nome quartil_enest

A escolha do R como software estatstico

Bruno Henrique Fernandes Fonseca

Introduo aos scripts do R

Objetos:

Linguagem orientada objetos

Os objetos so armazenados na memria ativa


do computador

O smbolo <- atribui algo para um objeto


> x <- sqrt(100)
>x
[1] 10

O smbolo = tambm atribui algo para um


objeto, mas cuidado com seu uso.

A escolha do R como software estatstico

Bruno Henrique Fernandes Fonseca

Introduo aos scripts do R

Tipos bsicos de objetos:

Escalar (numrico ou catacter)

Vetor (numrico ou catacter)

Matriz (numrico)

Data Frame (matriz de banco de dados,


numrico e/ou caracter)

Lista (combina diversos tipos de objetos)

A escolha do R como software estatstico

Bruno Henrique Fernandes Fonseca

Introduo aos scripts do R

Procurando funes na documentao interna:


(tomando como exemplo a palavra clusters)

> help.search(clusters);
ou

> ??clusters

disponibilizada uma lista:

Nome do pacote

Nome da funo

Breve descrio da funo

A escolha do R como software estatstico

Bruno Henrique Fernandes Fonseca

Introduo aos scripts do R


Procurando

funes na web (search no site do R):

(tomando como exemplo a palavra clusters)

>RSiteSearch("clusters");

Disponibiliza

uma lista de dvidas respondidas:

Palavra Chave

Frases

A escolha do R como software estatstico

Bruno Henrique Fernandes Fonseca

Introduo aos scripts do R


Acessando

o help de uma funo:

(tomando como exemplo a funo quantile)

> help(quantile)

ou
> ?quantile
O

arquivo da ajuda apresenta:

Uso dos argumentos de entrada para funo

Detalhes tcnicos (tratamento de desempates por exemplo)

Autor e referncias bibliogrficas

Lista funes relacionadas

Exemplos reproduzveis (com um simples Ctrl C; Ctrl V)

A escolha do R como software estatstico

Bruno Henrique Fernandes Fonseca

Como encontrar os pacotes do R que preciso?


http://cran-r.c3sl.ufpr.br

A escolha do R como software estatstico

Bruno Henrique Fernandes Fonseca

Como encontrar os pacotes do R que preciso?


http://cran-r.c3sl.ufpr.br

A escolha do R como software estatstico

Bruno Henrique Fernandes Fonseca

Como encontrar os pacotes do R que preciso?


http://cran-r.c3sl.ufpr.br

A escolha do R como software estatstico

Bruno Henrique Fernandes Fonseca

Introduo aos scripts do R


Algumas formas para entrada de dados:

Vetor diretamente na linha de comando:


> bd <- c(1,2,3,4,5) ou >bd <- 1:5 ou bd <- seq(1,5,1)

Importando arquivo de texto (.txt, .csv) :


>bd <- read.table(file=C:/Users/t/Desktop/enest/bd.txt,header=T)

Use o help(read.table) para detalhes, maior ateno aos


argumentos header e dec

Usando o teclado:
>bd <- scan()

Iro aparecer linhas para digitao dado por dado

Usando planilha do R:
>bd <- edit(data.frame())

Para alterar os dados use a funo fix() (no exemplo, fix(bd))

A escolha do R como software estatstico

Bruno Henrique Fernandes Fonseca

Introduo aos scripts do R


Algumas formas para entrada de dados:

Importando de outros softwares:

read.dbf() para arquivos DBASE

read.epiinfo() para arquivos .REC do Epi-Info

read.mtp() para arquivos "Minitab Portable Worksheet

read.S() para arquivos do S-PLUS

read.spss() para dados do SPSS

read.dta() para dados do STATA

read.octave() para dados do OCTAVE (similar ao MATLAB)

read.export() ou sas.get() para dados SAS, requer instalao


do sistema SAS.

A escolha do R como software estatstico

Bruno Henrique Fernandes Fonseca

Introduo aos scripts do R


Funes interessantes de ligao com outros
aplicativos:

Clculo de derivadas e integrais


>deriv()

# funo dos pacotes bsicos

>integrate()

# funo dos pacotes bsicos

Criando relatrios combinando R e Latex


>Sweave()

Enviando e-mail pelo R:


>sendmail()

# funo dos pacotes bsicos

# funo do pacote sendmailR

Utilizando o R para manipular o Twitter:

Pacote twitterR

Diversas funcionalidades

Enviar texto, encontrar usurios, administrar contatos...

A escolha do R como software estatstico

Bruno Henrique Fernandes Fonseca

Introduo aos scripts do R


Observaes importantes:

O linguagem do R case sensitive (exemplo: Dados dados)

O smbolo > o incio de uma linha de comando, para executar


o script da linha basta pressionar a tecla enter

O smbolo <- atribui algo a um objeto, um pouco diferente do =


> teste <- quantile(x=dados) # o mesmo que
> teste = quantile(x=dados) #porm, diferente de
> teste <- quantile(x<-dados) #alm de criar o objeto teste, cria o
objeto x

O smbolo == utilizado em funes lgicas (if, else...)

smbolo # introduz comentrio, que no executado

A escolha do R como software estatstico

Bruno Henrique Fernandes Fonseca

Introduo aos scripts do R


Observaes importantes:

O aspas diferenciam objetos de simples textos (caracteres)


> mu1 <- mean(x=c(1,2,3,4)) #mu1 recebe a mdia do vetor
> mu2 <- mean(x=c(5,6,7,8)) #mu2 recebe a mdia do vetor

> mu <- c(mu1,mu2) #mu recebe um vetor 2x1 com as duas


mdias
> mu <- c(mu1,mu2) #mu recebe um objeto 2x1 com uma
mdia e um texto

O . separa a parte inteira das casas decimais dos nmeros

Utilize help(options) para ver as configuraes do R

Utilize a options() para alterar as configuraes de interesse

A escolha do R como software estatstico

Bruno Henrique Fernandes Fonseca

Concluso
Necessidade por softwares

Todos que trabalham com estatstica possuem ou


possuiro

Disponibilidade de licena

O R livre e de cdigo aberto, ento nunca ir se


preocupar

Incentivo para utilizao do R

Espero ter motivado os futuros estatsticos para utilizar


oR
Se preocupe mais com seu conhecimento terico do
que com seu conhecimento sobre softwares
estatsticos

Contato:
bruno.fonseca@tst.jus.br
Slides disponveis em:
www.leg.ufpr.br/doku.php/pessoais:bruno

A escolha do R como software estatstico

XXI ENEST
Bem-vindos a Braslia
OBRIGADO