Guia R v1.0

Guia de referência R
www.siqueiracampos.com 12/02/2016 - Versão 1.0
1. Básicos 3. Data frames (quadro de dados)

Comandos objects() Lista os objetos do workspace Acesso aos Cria um data frame com os vetores 'altura' e
data.frame(altura, peso)
ls() Lista os objetos do workspace dados 'peso'.
rm(obj) Exclui o objeto 'obj '
infos$peso Seleciona o vetor 'peso' no data frame 'infos'
Exibe a estrutura interna de 'obj', informando o
str(obj) tipo de objeto, número de observações e classe Coloca o data frame no caminho de busca, isso
de cada variável. attach(infos) possibilita acessar as colunas do quadro
Atribuições <- Atribui um valor à variável diretamente pelos nomes.
= Atribui um valor à variável
detach(infos) Remove o data frame do caminho de busca.
Ajuda help(fun) Exibe o arquivo de ajuda da função fun()
?fun Exibe o arquivo de ajuda da função fun() Editando
Pesquisa todas as funções que tenham a string Abre o data frame 'infos' no editor de dados, e
??palavra infos2 <- Edit(infos)
“palavra” no nome ou descrição escreve a versão alterada de 'infos' em 'infos2'
args(fun) Lista os argumentos da função fun()
Bibliotecas e Adiciona à memória as funcionalidades do pacote
library(pact)
pacotes 'pact' Abre o data frame 'infos' no editor de dados, as
library(help=pact) Exibe a descrição do pacote 'pact' fix(infos) alterações serão feitas no próprio data frame
Baixa o pacote 'pact' do repositório de pacotes do 'infos'
install.packages("pact")
R
Resumindo
Dá o número de linhas e colunas do data frame
2. Vetores e tipos de dados dim(infos)
'infos', funciona também para vetores e matrizes
Geração seq(-3,3,0.1) Sequência: -3.0, -2.9, -2.8, ..., 2.9, 3.0
3:8 Mesmo que seq(3,8,1) Da o resumo estatístico de cada variável do data
summary(infos)
c(4,6,8,1:3) Concatenação de vetores: 4 6 8 1 2 3 frame 'infos'
rep(2,5) 22222
rep(3:5,1:3) 344555
Um fator com 3 níveis, repetindo cada nível em
gl(3,2,12) blocos de 2, até o comprimento 12. (1 1 2 2 3 3 1
1 2 2 3 3)
Coerção as.numeric(x) Converte para numérico
as.character(x) Converte para uma sequência de texto
as.logical(x) Converte para booleano
factor(x) Cria um fator com o vetor x
Converte uma lista ou um resultado de uma
unlist(x)
tabela para um vetor.
© Siqueira Campos Associados Página 1

4. Leitura e gravação de dados 5. Indexação / seleção / classificação

Geral Vetores
data(nome) Lê o data frame 'nome' do pacote datasets x[1] Primeiro Elemento
read.table(“arquivo.txt”) Le um arquivo externo ASCII
x[1:5] Subvetor contendo os primeiros cinco elementos
Argumentos do
header = TRUE Na primeira linha estão os nomes das variáveis
read.table() x[c(2,3,5)] Elementos de números 2, 3 e 5
x[y <= 25] Seleção por uma expressão lógica
row.names = 1 Na primeira coluna estão os nomes das colunas
x[sexo = = “feminino”] Seleção por variável fator
sep = “,” Os dados estão separados por vírgula i <-c(2,3,5); x[i] Seleção por variável numérica
sep = “\t” Os dados estão separados por tab k <- (y <=25); x[k] Seleção por variável lógica
dec = “,” O separador decimal é a vírgula length(x) Retorna o tamanho do vetor
Matrizes e data m[4, ] Quarta linha
na.strings = “.” Valores faltantes são representados por ponto
frames m[ ,3] Terceira coluna
Variações do read.csv(“arquivo.csv”) Vírgula como separador de dados Parte de um data frame (não funciona para
dados[dados$var <=25, ]
read.table() read.delim(“arquivo.txt”) Tab como separador de dados matrizes)
Escrevendo O mesmo mais simples (não funciona para
write.table() Exporta o conjunto de dados subset(dfr,var<=30)
matrizes)
Adicionando
names() Nomeia colunas de um data frame ou de uma lista m[m[ ,3]<=30, ] Parte de uma matriz (funciona para data frames)
nomes
dimnames() Nomeia linhas e colunas de uma matriz Classificação sort(c(8,9,10,6)) Retorna o vetor ordenado: 6, 8, 9, 10
Retorna os índices dos elementos quando
order(c(11,9,10,6))
ordenados em forma crescente: 4, 2, 3, 1
order(c(11,9,10,6), Faz o mesmo, mas ordenando os valores
decreasing = TRUE) decrescentemente: 1, 3, 2, 4
Retorna os índices dos elementos quando o vetor
rank(c(7,9,10,6)) é posto em ordem de valores ascendentes: 2, 3,
4, 1

6. Valores faltantes 7. Funções numéricas

Funções Matemáticas Logaritmo natural de x, ou seja, o logaritmo de
is.na(x) Retorna um vetor lógico com TRUE onde x for NA log(x)
base e
Retorna um vetor lógico indicando quais vetores log(x, 10) Logaritmo de x na base 10
complete.cases(x1, x2,...)
não possuem valores faltantes exp(x) Valor da função exponencial e^x
Argumentos sin(x) Seno
para outras Em funções estatísticas, se informa na.rm=TRUE
cos(x) Cosseno
funções na.rm = caso haja valores em falta no argumento. Caso
tan(x) Tangente
contrário o cálculo da função retorna NA.
asin(x) Arco seno (Inverso do seno)
min(x) Menor valor do vetor
Em ‘sort’ se na.last=TRUE, os valores faltantes
min(x1, x2, ...) Menor valor dentre vários vetores
na.last = ficam no final do ordenamento, se FALSE ficam no
max(x) Maior valor do vetor
início e se NA são descartados.
range(x) O mesmo que c(min(x), max(x))
Em ‘lm’, e outras funções, indica-se o que deve Retorna um vetor com o mínimo paralelo (o
pmin(x1, x2, ...)
na.action = acontecer com os valores em falta ‘na.fail’, mínimo indo elemento a elemento dos vetores)
‘na.omit’ ou ‘na.exclude’
length(x) Número de elementos do vetor
Em ‘summary()’ e ‘print()’ indica-se como sum(x) Soma dos valores do vetor
na.print = representar os valores faltantes na saída de cumsum(x) Soma cumulativa dos valores dos vetores
dados. sum(complete.cases(x)) Número de elementos não faltantes
Estatísticas mean(x) Média
Em ‘read.table() ’ indica-se o que serão
na.strings = median(x) Mediana
considerados casos faltantes na leitura de dados
quantile(x, p) Quartis: mediana = quantile(x, 0.5)
var(x) Variância
sd(x) Desvio Padrão
cor(x, y) Correlação de Pearson
cor(x, y, method =
“spearman”) Correlação de postos de Spearman

8. Programação 9. Operadores
Execução if(p< 0.5) Aritméticos + Adição
print(“Viva”) Imprime “Viva” se a condição for verdadeira
condicional - Subtração
* Multiplicação
if(p < 0.5) {
print(“Viva”) Se a condição for verdadeira, todos os comandos / Divisão
i = i + 1 dentro das chaves são executados { } ^ Elevar a potência
}
%/% Divisão inteira 5 %/% 3 = 1
if(p < 0.5) { %% Resto da divisão inteira: 5 %% 3 = 2
print(“Viva”) Lógicos ou == Igual
} else { Execução condicional com uma alternativa
i = i + 1 relacionais != Diferente
} < Menor
Laços de for(i in 1:10) { > Maior
repetição print(i) Repete 10 vezes a mesma instrução <= Menor ou igual
}
>= Maior ou Igual
i <- 1 is.na(x) Valor faltante?
while(i <= 10) { & Lógico E
print(i) Faz o mesmo de forma mais complicada
i = i + 1 | Lógico OU
} ! Lógico NÃO
Função definida Retorna os índices de 'a' que possuem conteúdo
fun <- function(a, b, fazer which(a>10)
pelo usuário = FALSE { maior que 10
if(fazer) { Define a função 'fun' que devolve a soma de 'a'
a + b com 'b' se o argumento 'fazer' for verdadeiro, ou
} zero se 'fazer' for falso.
else 0
}

10. Tabulação, agrupamento e recodificação 11. Manipulação de matrizes e listas

Geral Álgebra de m1 % * % m2 Produto de matrizes
table(x) Cria uma tabela de frequência com os dados de x
matrizes t(m) Matriz transposta
Cria uma tabela cruzada com as informações de x Retorna os valores da matriz triangular inferior de
table(x, y) m[lower.tri(m)]
ey m como um vetor
Interface de fórmula para a tabela cruzada: utilize diag(m) Retorna os elementos da diagonal da matriz m
xtabs(~ x + y)
summary() para o teste do chi-square
Utiliza o vetor x para preencher uma matriz com
matrix(x, dim1, dim2)
factor(x) Converte vetor em fator 'dim1' linhas e 'dim2' colunas
Operações Aplica a função 'fun' para cada linha (dim = 1) ou
cut(x, breaks) Quebra uma variável contínua em subgrupos. complementa- apply(m, dim, fun)
coluna ( dim = 2) da matriz m
res
Argumentos de Os valores de x para codificar. Utilize se alguns Pode ser usado para agregar colunas ou linhas
factor() levels = c() valores não estão presentes nos dados, ou se a dentro da matriz m, conforme definido pela f1,
tapply(m, list(f1, f2), fun)
ordem estiver errada. f2, usando a função 'fun' (por exemplo mean ou
max)
labels = c() Valores associados com os níveis (levels) do fator
Separa o vetor, a matriz ou o data frame 'f' pelo
Valores para excluir. O padrão é NA, defina como
fator 'x'. Produz um resultado diferente para
exclude = c() NULL para ter os valores em falta incluídos como split(x, f)
matriz e para data frame! O resultado é uma lista
um nível.
com um objeto para cada nível de 'f'.
Argumentos do
cut() São os pontos de quebra da variável contínua.
Aplica a função 'fun' para cada objeto de uma
Valores de breaks fora de x produzirão NA. sapply(list, fun)
breaks = c() lista, por exemplo como a criada através da
Também pode ser um único número que será a sapply(split(x,f), fun)
função split
quantidade de pontos de quebra na variável.
labels = c() Nomes dos grupos. O padrão é 1, 2, ...

Recodificando levels(f) <- names Novo nome para níveis
fatores Combinando os níveis: 'novcode', por exemplo,
factor(novcod [f]) c(1,1,1,2,3) junta os três primeiros dos 5 grupos
do fator 'f'

12. Métodos estatísticos padrão 13. Distribuições estatísticas

Testes t.test Teste t para uma e duas amostras Distribuição dnorm(x) Função densidade
paramétricos, normal
pnorm(x) Função de distribuição acumulada P(X<=x)
dados contínuos pairwise.t.test Teste de média para dados pareados
qnorm(p) Função quantil, retorna x em: P(X<=x) = p
var.test Teste de duas variâncias (F-test)
rnorm(n) n números aleatórios normalmente distribuídos
lm(y ~ x) Análise de Regressão
lm(y ~ f) Análise de Variância Simples (One-way) Distribuições pnorm(x, mean, sd) Normal
lm(y ~ x1 + x2 + x3) Regressão Múltipla plnorm*x, mean, sd) Lognormal
lm(y ~ f1 * f2) Análise de variância 2 fatores (Two-way) pt(x, df) t student
Não wilcox.test Teste Wilcox para uma e duas amostras pf(x, n1, n2) F
paramétricos kruskal.test Teste Kruskal-Wallis pchisq(x, df) Qui-quadrado
pbinom(x, n, p) Binomial
friedman.test Análise de variância de Friedman (Two-way)
ppois(x, lambda) Poisson
Variante de punif(x, min, max) Uniforme
method = “spearman” Correlação de postos de Spearman
cor.test pexp(x, rate) Exponencial
Resposta binom.test Teste binomial (inclui teste do sinal) pgamma(x, shape, scale) Gama
discreta prop.test Teste de proporções pbeta(x, a, b) Beta
fisher.test Teste exato em tabelas 2 x 2
chisq.test Teste qui-quadrado de independência
glm(y ~ x1+x2, binomial) Regressão Logística

14. Modelos Multivariada dist() Calcula distância, Euclidiana ou outras

Fórmulas de ~ Como explicado por hclust() Análise Cluster hierárquico
modelos + Efeitos Aditivos kmeans() Análise de Cluster k-means
: Interação
Realiza análise de componente principal PCA ou
rda()
* Efeitos principais + interação: a*b = a+b+a:b análise de redundância. Pacote ‘vegan’.
-1 Remove intercepto Realiza (canônica) análise de correspondência, CA

cca()
Modelos /CCA. Pacote: ‘vegan ’
lm.out <- lm(y ~ x) Ajusta o modelo e salva o resultado como ‘lm.out’
lineares
Calculo de índices de diversidade.
diversity()
summary(lm.out) Coeficientes etc. Pacote: ‘vegan ’
anova(lm.out) Tabela da analise de variância
fitted(lm.out) Valores ajustados
resid(lm.out) Resíduos
predict(lm.out, newdata) Previsões para um novo data frame
Outros modelos glm(y ~ x, binomial) Regressão Logística
glm(y ~ x, poisson) Regressão de Poisson
Modelo aditivo geral para regressão não-linear
gam(y ~ s(x))
com suavização. Pacote: Gam
Classificação (y = fator) ou regressão (y =
tree(y ~ x1+x2+x3)
numérico). Pacote: tree
Diagnósticos rstudent(lm.out) Resíduos Studentizados
Mudança na regressão padrão, coeficientes beta
dfbetas(lm.out)
se observação removida.
dffits(lm.out) Mudanças no ajuste se observação removida
Análise de
S <- Surv(time,ev) Cria objeto sobrevivência. Pacote: survival
sobrevivência
survfit(S) Estimativa de Kaplan-Meier
plot(survfit(S)) Curva de sobrevivência
(Log-rank) teste para igualdade de curvas de
survdiff(S ~ g)
sobrevivência
coxph(S ~ x1 + x2) Modelo de risco proporcional de Cox’s

15. Gráficos
Gráficos padrão Dispersão (ou outro tipo de gráfico se x e y não Símbolos dos pontos (pch)
plot(x, y)
são vetores numéricos)
plot(f, y) Conjunto de boxplots para cada nível do fator 'f'
hist() Histograma
boxplot() Boxplot Cores (col) Tipos de linha (lty)
barplot() Barra 1 - preto
dotplot() Dot plot 2 - vermelho
piechart() Pizza 3 - verde
interaction.plot()
4 - azul
Gráfico de interação (Análise de variância)
5 - azul claro
Desenhando lines() Linhas 6 - roxo
elementos abline() Linha de regressão 7 - amarelo
(adicionando ao
points() Pontos 8 - cinza
gráfico)
arrows() Setas (obs: angle = 90 gera erro)
box() Moldura do gráfico Fontes: Modificado do livro: P. Dalgaard (2002). Introductory Statistics with R. Springer, New York.
title() Título (acima do gráfico) R Development Core Team. R: A Language and Environment for Statistical Computing.
text() Texto no gráfico Vienna, Austria, 2016. Disponível em: http://www.R-project.org/
mtext() Texto da margem
legend() Lista de símbolos
Parâmetros pch Símbolos (veja ao lado)
gráficos: mfrow, mfcol Painel com múltiplos gráficos
argumentos de
xlim, ylim Limites do gráfico
par()
lty, lwd Tipo de linha / largura (veja ao lado)
col Cor das linhas ou símbolos (veja ao lado)

Guia R v1.0

Transféré par

Informations du document

Titre original

Copyright

Formats disponibles

Partager ce document

Partager ou intégrer le document

Options de partage

Avez-vous trouvé ce document utile ?

Ce contenu est-il inapproprié ?

Droits d'auteur :

Formats disponibles

Guia R v1.0

Transféré par

Droits d'auteur :

Formats disponibles

Guia de referência R

www.siqueiracampos.com 12/02/2016 - Versão 1.0

1. Básicos 3. Data frames (quadro de dados)

© Siqueira Campos Associados Página 1

4. Leitura e gravação de dados 5. Indexação / seleção / classificação

© Siqueira Campos Associados Página 2

6. Valores faltantes 7. Funções numéricas

© Siqueira Campos Associados Página 3

© Siqueira Campos Associados Página 4

10. Tabulação, agrupamento e recodificação 11. Manipulação de matrizes e listas

labels = c() Nomes dos grupos. O padrão é 1, 2, ...

© Siqueira Campos Associados Página 5

12. Métodos estatísticos padrão 13. Distribuições estatísticas

© Siqueira Campos Associados Página 6

14. Modelos Multivariada dist() Calcula distância, Euclidiana ou outras

-1 Remove intercepto Realiza (canônica) análise de correspondência, CA

dffits(lm.out) Mudanças no ajuste se observação removida

© Siqueira Campos Associados Página 7

plot(f, y) Conjunto de boxplots para cada nível do fator 'f'

© Siqueira Campos Associados Página 8

Vous aimerez peut-être aussi