Vous êtes sur la page 1sur 7

Lista de Funes do R

Esta apenas e to somente uma lista das funes utilizadas nesse curso introdutrio.

Glossrio
Antes da lista de funes per se, faz-se necessrio apresentar o glossrio dos termos mais utilizados no curso. - Pasta ou Diretrio de trabalho - local no computador onde todos os arquivos referentes a anlise de dados (i.e., banco de dados, grcos, output, . . . ) sero salvos. Sesso de trabalho - esta se inicia toda vez que o programa aberto e o usurio dene a pasta de trabalho em que a anlise de dados ser salva. A sesso de trabalho salva continuamente em arquivo com extenso .RData na pasta de trabalho. Este arquivo deve ser carregado ao incio de cada sesso. Para salvar a sesso de trabalho continuamente, deve-se utilizar a funo save.image() no Console. Console - janela dentro do programa que exibe a linha de comando iniciada pelo smbolo >. Nessa linha de comando, as funes do R so utilizadas por meio de escrita textual do cdigo seguido do boto ENTER (i.e., no jargo dos programadores isso equivalente a expresso rodar comando). Os comandos utilizados na linha de comando cam salvos temporariamente (i.e., at a sesso de trabalho anterior) em arquivo com extenso .RHistory na pasta de trabalho. Script - janela dentro do programa que exibe os comandos a serem rodados no Console utilizando CTRL+R. O Script pode ser salvo com extenso .R, o que permite visualiz-lo na pasta de trabalho dentro do programa. Este arquivo deve ser aberto no 1

incio de cada sesso de trabalho. Output - h dois tipos de output no R: primeiro, aquele que aparece no Console logo depois que rodamos um comando; segundo, a janela de grcos a qual aparece toda vez que rodamos comando de grco (e.g., utilizando a funo plot()). A janela de grcos pode ser salva em arquivos de extenso de imagem (.jpg, .tif, .png, . . . ) ou em .pdf. Funo do R - cdigo que executa aes em determinado objeto no R. No jargo de usurios do R, diz-se que funo ferramenta para manipular o objeto. H, tambm, quem invoque a metfora do marceneiro para explicar o que funo. O marceneiro utiliza ferramenta para esculpir a madeira e transform-la em algo til. Da mesma forma, o analista de dados utiliza funo do R para trabalhar seus dados os quais so objetos no R. Objetos no R - veja melhor explicao na subseo Criao de objetos no R.

Instalar o programa
O programa R pode ser instalado do website ocial http://www.r-project.org/: CRAN Mirror (e.g., Brazil -University of Sao Paulo, Sao Paulo) Download and Install R for Windows.

Como pedir ajuda?


As funes do R tm documentao online. help(lm) ou ?lm - ajuda da funo lm(). help.search("linear model") ou ??"linear model" - busca em todo sistema de ajuda a funo ou objeto que

possui em sua descrio a expresso linear model. help.start() - inicia-se a verso HTML do sistema de ajuda. Pode-se clicar em cima de packages para ver todos os pacotes instalados. Depois, pode-se clicar em cima de, por exemplo, stats para ver todas as funes estatsticas disponveis nesse pacote.

Instalar e carregar pacotes


Os pacotes podem ser instalados de servidor local (i.e., local mirror ) a partir do prprio programa em instalar pacotes no menu Pacotes ou utilizando a funo install.packages() no Console. require(epicalc) - carrega pacote previamente instalado no programa. DICA: carregar sempre o pacote no incio de cada sesso de trabalho.

Importar e exportar base de dados


possvel elaborar e armazenar bancos de dados como objetos dentro do R. Mas, neste curso, a recomendao que o banco de dados seja elaborado no EpiInfoTM (http://wwwn.cdc.gov/epiinfo/) e depois importado no R. Adicionalmente, possvel importar no R arquivos SAS, Stata, SPSS, Minitab, DBF e EpiInfo utilizando as funes do pacote foreign. A seguir esto as funes de importao e exportao utilizadas nesses curso. read.table(arquivo, header = TRUE, sep = ) - importa arquivo em formato de planilha e cria data.frame com o mesmo. O nome do arquivo tem de estar entre aspas e conter a extenso (e.g., .txt). Em geral, utiliza-se o argumento header = TRUE para utilizar a primeira linha da 2

tabela como cabealho (i.e., linha com o nome das colunas). Finalmente, utiliza-se o argumento sep = que indica espao em branco como separador de colunas para importar corretamente a estrutura da planilha. read.csv(arquivo, header = TRUE, sep =,) - importa arquivo .csv (i.e., arquivo com vrgula como separador de colunas). Esta a forma de importao mais utilizada nesse curso porque esse tipo de arquivo pode ser elaborado na planilha de dados mais utilizada do planeta (i.e., ExcelTM ). As mesmas regras de read.table() podem ser aplicadas com essa funo, mas importante enfatizar que o tipo de separador vrgula, sendo ento utilizado o argumento sep = ,. write.table(x, arquivo, row.names = TRUE, col.names = TRUE, sep = ) - exporta qualquer objeto do R o qual primeiramente transformado em uma planilha de dados antes da exportao. Assim, deve-se declarar dentro dessa funo o x (nome do objeto no R), o nome do arquivo (e.g., meus.dados.txt), primeira linha (row.names = TRUE ), primeira coluna (col.names = TRUE ) e o tipo de separador de colunas (sep = ).

Criao de objetos no R
No R, tudo objeto. A programao orientada a objetos um dos paradigmas modernos das linguagens de programao, sendo assim observada na maioria das linguagens contemporneas de alto nvel, e.g., Python, Java, . . . . No R, as bases de dados vo ser sempre transformadas em objetos para a anlise de dados. O nome de objeto (a gosto do fregus) atribudo (< ) por meio de determinada funo que cria

objetos (e.g., meu.objeto.do.R < c(1, 25, 74, 40)). H, pelo menos, 6 tipos dessas funes que criam objetos, sendo as quais frequentemente utilizados e ensinados nesse curso: vetor, planilha de dados, tabela, fator, lista e funo. c(...) - funo genrica que combina argumentos para formar um vetor. O vetor adimensional, podendo representar linha ou coluna de uma planilha de dados. data.frame(...) - cria-se uma planilha de dados com essa funo. Em epidemiologia, este um objeto muito utilizado, sendo pacientes representados nas linhas e variveis nas colunas. matrix(x, nrow = , ncol =, byrow = TRUE) - tabelas de contingncia so criadas com essa funo. Para criar uma tabela 2x2, deve-se declarar o x (vetor contendo os valores das 4 caselas), nmero de linhas e de colunas (nrow = 2, ncol = 2 ). factor(x, levels=) - transforma vetor (x ) em fator (i.e., varivel categrica) o qual possui categorias (levels = ) representadas por nomes. Ao fazer essa transformao, percebe-se que as categorias da varivel cam entre aspas (). por meio das aspas que o R reconhece que a varivel do tipo string (i.e., texto). list(...) - cria-se objeto lista que o mais recursivo de todos os objetos do R. Assim, a lista conhecida, popularmente, como o varal em que possvel pendurar todo e qualquer tipo de objeto. Por isso, a mesma utilizada para guardar o output da anlise de dados. Nesse output podem haver vrios tipos de objetos do R, por exemplo um vetor e uma tabela, os quais esto salvos dentro dessa lista. function(...) - esta a funo que cria novas funes no R. Mais explicaes sobre essa funo na subseo Programao.

Objetos criados na Sesso de trabalho


Para o iniciante no R, pode parecer que os objetos no foram criados utilizando os comandos acima. Utiliza-se a funo ls() para retornar todos os objetos criados e salvos na sesso de trabalho.

Visualizao de objetos no R
A visualizao simples. Uma vez que o objeto est criado, utiliza-se o nome do objeto para a visualizao. Entretanto, existem outras formas de ver o objeto. A mais utilizada nesse curso : str(x) - exibe a estrutura interna do objeto (x ), informando o tipo de objeto, nmero de observaes e classe de cada varivel. Exitem duas classes de variveis no R: primeira, categrica (e.g., factor, character ); segunda, numrica (e.g., integer, numeric ).

Indexao de objetos no R
A indexao utilizada para selecionar subconjuntos de valores do objeto no R. Para objeto adimensional como o vetor, utiliza-se: x[n] - seleciona-se o nensimo elemento do vetor x. Para objetos bi-dimensionais como a tabela e a planilha de dados, utiliza-se: x[i, j] - seleciona-se o elemento da linha i da coluna j. Para selecionar todas as linhas e determinada coluna j, utiliza-se x[ , j]. Adicionalmente, podem ser selecionadas as dez primeiras linhas de todas as colunas (i.e., x[1:10, ]). 3

Coero de objetos no R
A coero a transformao de um objeto em outro. Para transformar um factor em objeto numrico, utiliza-se: as.numeric(x) - esta funo transforma x que um factor em objeto numrico. Em adio, pode-se transformar uma tabela (matrix ) em planilha de dados (data.frame ) utilizando: as.data.frame - transforma-se tabela em planilha de dados. Para conhecer as demais funes de coero de objetos no R, utiliza-se method(as).

Produo de grcos

Estatstica descritiva
Aqui uma orientao simples e direta de procedimentos utilizados na anlise estatstica descritiva. Para variveis qualitativas (categricas) e discretas, utilizam-se as seguintes funes: table(x) - esta funo retorna a distribuio de frequncia absoluta das categorias na varivel x. prop.table(table(x)) - estas funes, uma dentro da outra, retornam a distribuio de frequncia relativa das categorias na varivel x. Para as variveis quantitativas contnuas, so utilizadas as funes a seguir: summary(x) - a funo retorna mdia, mediana, mnimo e mximo da varivel x. A mesma deve ser complementada com sd(x) para obter o desvio padro dessa varivel. 4

A produo de grcos pode ter dois objetivos: primeiro, complementar a anlise estatstica descritiva; segundo, apresentar os resultados de forma elegante e sinttica em manuscritos ou demais trabalhos acadmicos. Para saber se a varivel x tem Distribuio Normal, as funes de histograma e de grco Quantil-Quantil podem ser utilizadas: hist(x) - faz-se histograma da varivel x. qqnorm(x) - faz-se grco QuantilQuantil da varivel x. Frequentemente, combina-se esta funo com outra (qqline(x)) para obter a linha de referncia terica esperada se a varivel x fosse Normal. Para visualizar a relao entre duas variveis, so utilizadas as funes a seguir: barplot(table(x)) - exibe gracamente a relao das distribuies de frequncia de duas variveis qualitativas em uma tabela x. boxplot(y x) - exibe gracamente a distribuio de frequncia da varivel quantitativa contnua (y ) segundo as categorias da varivel x. plot(x, y) - exibe gracamente a relao entre variveis quantitativas contnuas, sendo x independente e y dependente. pairs(x) - esta funo pode ser utilizada para produzir, a partir de uma planilha de dados (data.frame x ), a matriz de disperso. Para exibir tambm a matriz de correlao, precisa-se da funo interna panel.cor que pode ser obtida no help da funo pairs() (i.e., ?pairs).

Customizao de grcos

Testes de hipteses
O R tem uma famlia de funes para fazer os testes de hipteses. Em geral, o nome dessas funes so bem intuitivos. Por exemplo, o teste no-paramtrico de Shapiro-Wilk representado pela funo shapiro.test(). Imaginem como chama a funo para fazer o teste exato de Fisher? S poderia ser a funo sher.test(). shapiro.test(x) - testa-se a hiptese nula de que a varivel x adere a Distribuio Normal. sher.test(x) - testa-se a hiptese nula de que h independncia de linhas e colunas na tabela de contingncia x de marginais xas. chisq.test(x) - esta funo calcula o teste de 2 de Pearson para a tabela de contingncia x. cor.test(x, y, alternative = c("two.sided", "less", "greater"), method = c("pearson", "kendall", "spearman"), ...) - esta funo testa a correlao entre variveis quantitativas contnuas x e y utilizando o coeciente de correlao de Pearson ou de Kendall ou de Spearman. A hiptese alternativa deve ser bi-caudal (i.e., two-sided ). Obviamente, existem outras funes disponveis no pacote stats para fazer os testes de hipteses mais utilizados em anlise estatstica. Na subseo Como pedir ajuda? est descrito como entrar nesse pacote e ver todas as suas funes.

A customizao de grcos muito particular. Entretanto, algumas regras bsicas devem ser seguidas. Por exemplo, torna-se imprescindvel disponibilizar o ttulo e os rtulos dos eixos X e Y dos grcos. Ainda, grcos coloridos so, em geral, preferveis. Portanto, seguem argumentos mais utilizadas na customizao de grcos. main = Ttulo do grco - argumento main serve em qualquer funo de grco (e.g., plot(x, y, main = Meu Primeiro Grco: no cou bacana?)). Esse argumento representa o ttulo do grco. xlab = Nome do Rtulo do Eixo X, ylab = Nome do Rtulo do Eixo Y - esses argumentos so bem gerais e servem em todas as funes de grco (e.g., plot(x, y, xlab = Nmero de dias de curso de R, ylab = Aprendizagem no R). Eles representam os rtulos dos eixos X e Y, respectivamente. col = red - esse argumento para colorir os smbolos internos do grco (e.g., plot(x, y, col = red)). Existem muitas cores disponveis no R (e.g., rode a funo colours() para v-las). Em adio, pode-se entrar no help de cada funo de grco (e.g., ?barplot) e ver todos os argumentos disponveis para customizao. Finalmente, pode-se entrar no help da lista de argumentos grcos disponveis (e.g., ?par). Por exemplo, utiliza-se frequentemente o comando par(mfrow(2,2)) para pedir janela com 4 espaos 2x2 de grcos. 5

Modelos de regresso
Os modelos de regresso linear so muito utilizados em anlise estatstica. No R, modelos lineares so representados pela funo a seguir: lm(y x1 + x2 + . . . + xn ) - esta

a funo para fazer modelo de regresso linear, sendo que lm(y x1 ) simples e lm(y x1 + x2 ) mltiplo. A varivel y dependente e a varivel x independente. Para ver os resultados do modelo, deve-se utilizar a funo summary() (e.g., summary(lm1), sendo lm1 um objeto da funo lm()). Em epidemiologia, o modelo de regresso logstica binomial tambm utilizado para, por exemplo, medir a associao entre variveis de desfecho e explanatria. No R, esse modelo est incluso na famlia de modelo lineares generalizados (i.e., generalized linear model ). Essa famlia representada pela funo glm() e a regresso logstica binomial explicitada dentro dessa funo (i.e., family = binomial()). glm(y x1 + x2 + . . . + xn , family = binomial()) - esta funo utilizada para fazer a regresso logstica binomial, sendo que glm(y x, family = binomial()) o modelo simples e glm(y x1 + x2 , family = binomial()) o mltiplo. A varivel de desfecho y a qual binomial (e.g., 0 = no-caso; 1 = caso). A varivel explanatria x que, em geral, deve ter sido transformada em dummy (e.g., 0 = baseline, 1 = presena de exposio ao risco). Para ver os resultados do modelo, deve-se utilizar a funo logistic.display() (e.g., logistic.display(glm1), sendo glm1 um objeto da funo glm()). A funo logistic.display() est disponvel no pacote epicalc (ver subseo Pacotes Epidemiolgicos).

obter valores aleatrios dessas distribuies tericas. Por exemplo, pode-se ver a seguir a funo: rnorm(x, mean = 0, sd = 1) - utilizada para obter valores aleatrios de uma Distribuio Normal em sua forma reduzida (i.e., = 0 e = 1). O argumento x o nmero de valores que se deseja obter. Os valores de mean e sd podem ser alterados (e.g., rnorm(x, mean = 18, sd = 7)).

Programao de novas funes


Uma das grandes vantagens do R em relao aos outros programas de anlise estatstica a criao de novas funes. No R, pode-se criar novas funes utilizando a funo function(). minha.funo < function(x, y, z) - esta funo (e.g., minha.funo) tem trs argumentos (e.g., x, y e z ). { ... return - aqui explicitado o output dessa funo (i.e., minha.funo) } - entre essas chaves (i.e., {. . . }) so explicitados os clculos envolvendo os trs argumentos x, y e z.

Pacotes Epidemiolgicos
O R possui muitos pacotes (http://www.r-project.org/). Aqui, ns utilizamos trs pacotes epidemiolgicos: epicalc, epiR e epibasix. epibasix - este pacote tem funes bsicas utilizadas em epidemiologia. epiR - este pacote tem funes avanadas utilizadas em epidemiologia. epicalc - este pacote tem funes utilizadas para modelos de regresso em 6

Distribuies
Alm da famosa Distribuio Normal, existem muitas outras distribuies de probabilidades (e.g., Exponencial, Gamma, Poisson, Weibull, t, F, . . . ). No R, pode-se

epidemiologia. Para ver o contedo de cada pacote, deve-se utilizar a funes help.start() (ver na subseo Instalar e carregar pacotes). Finalmente, termina-se aqui a lista de cdigos utilizados nesse curso introdutrio sobre a aplicao do ambiente R na anlise estatstica em epidemiologia.

Vous aimerez peut-être aussi