Académique Documents
Professionnel Documents
Culture Documents
Primero debe importar sus datos a R. Esto generalmente significa que toma
datos almacenados en un archivo, base de datos o API web y los carga en un
marco de datos en R. Si no puede obtener sus datos en R, puede No hagas
ciencia de datos en ello!
Una vez que haya importado sus datos, es una buena idea ordenarlos . Poner
en orden sus datos significa almacenarlos en una forma consistente que
coincida con la semántica del conjunto de datos con la forma en que se
almacena. En resumen, cuando sus datos están ordenados, cada columna es
una variable y cada fila es una observación. Los datos ordenados son
importantes porque la estructura consistente le permite enfocar su lucha en las
preguntas sobre los datos, no luchar para obtener los datos en la forma correcta
para diferentes funciones.
Una vez que tenga datos ordenados, un primer paso común
es transformarlos . La transformación incluye reducir las observaciones de
interés (como todas las personas en una ciudad o todos los datos del año
pasado), crear nuevas variables que son funciones de variables existentes
(como calcular la velocidad a partir de la velocidad y el tiempo) y calcular un
conjunto de resumen Estadísticas (como cuentas o medios). En conjunto, el
ordenamiento y la transformación se denominan disputas , porque poner sus
datos en una forma en la que es natural trabajar a menudo se siente como una
pelea.
Una vez que tenga datos ordenados con las variables que necesita, hay dos
motores principales de generación de conocimiento: visualización y
modelado. Estas tienen fortalezas y debilidades complementarias, por lo que
cualquier análisis real se repetirá entre ellas muchas veces.
Algunos temas se explican mejor con otras herramientas. Por ejemplo, creemos
que es más fácil entender cómo funcionan los modelos si ya conoce la
visualización, los datos ordenados y la programación.
Otra posibilidad es que su problema de big data sea en realidad un gran número
de problemas de data pequeña. Cada problema individual puede caber en la
memoria, pero tienes millones de ellos. Por ejemplo, es posible que desee
ajustar un modelo a cada persona en su conjunto de datos. Eso sería trivial si
tuviera solo 10 o 100 personas, pero en cambio tiene un
millón. Afortunadamente, cada problema es independiente de los otros (una
configuración que a veces se denomina vergonzosamente paralela), por lo que
solo necesita un sistema (como Hadoop o Spark) que le permita enviar
diferentes conjuntos de datos a diferentes computadoras para su
procesamiento. Una vez que haya descubierto cómo responder a la pregunta
para un solo subconjunto con las herramientas descritas en este libro,
aprenderá nuevas herramientas como sparklyr, rhipe y ddr para resolverlo con el
conjunto de datos completo.
2. Solo se puede usar una observación una vez para confirmar una hipótesis. Tan
pronto como lo usa más de una vez, vuelve a hacer un análisis
exploratorio. Esto significa hacer la confirmación de hipótesis que necesita para
"registrar previamente" (escribir de antemano) su plan de análisis, y no
desviarse de él incluso cuando haya visto los datos. Hablaremos un poco sobre
algunas estrategias que puede utilizar para facilitar el modelado .
1.4 Prerrequisitos
Hemos hecho algunas suposiciones sobre lo que ya sabe para aprovechar al
máximo este libro. En general, debe tener conocimientos numéricos, y es útil si
ya tiene alguna experiencia en programación. Si nunca has programado antes,
puedes encontrar Hands on Programming con R by Garrett como un
complemento útil de este libro.
Hay cuatro cosas que necesita para ejecutar el código en este libro: R, RStudio,
una colección de paquetes de R llamada tidyverse y un puñado de otros
paquetes. Los paquetes son las unidades fundamentales de código R
reproducible. Incluyen funciones reutilizables, la documentación que describe
cómo usarlas y datos de muestra.
1.4.1 R
Para descargar R, ir a CRAN, el c omprehensive R un rchive n R ed. CRAN se
compone de un conjunto de servidores espejo distribuidos en todo el mundo y
se utiliza para distribuir paquetes R y R. No intente elegir un espejo que esté
cerca de usted: en su lugar, use el espejo en la nube, https://cloud.r-project.org,
que automáticamente lo resuelve por usted.
Una nueva versión principal de R sale una vez al año, y hay 2-3 versiones
menores cada año. Es una buena idea actualizar regularmente. La actualización
puede ser un poco complicada, especialmente para las versiones principales,
que requieren la reinstalación de todos sus paquetes, pero su desactivación solo
empeorará las cosas.
1.4.2 RStudio
RStudio es un entorno de desarrollo integrado, o IDE, para la programación en
R. Descárgalo e instálalo desde http://www.rstudio.com/download . RStudio se
actualiza un par de veces al año. Cuando haya una nueva versión disponible,
RStudio le informará. Es una buena idea actualizar regularmente para poder
aprovechar las últimas y mejores funciones. Para este libro, asegúrese de tener
RStudio 1.0.0.
1.4.3 El tidyverse
También necesitarás instalar algunos paquetes R. Un paquete R es una
colección de funciones, datos y documentación que amplía las capacidades de
la base R. El uso de paquetes es clave para el uso exitoso de R. La mayoría de
los paquetes que aprenderá en este libro son parte de esta llamado
tidyverse. Los paquetes en el tidyverse comparten una filosofía común de datos
y programación R, y están diseñados para trabajar juntos de forma natural.
Si te quedas atascado, comienza con Google. Por lo general, agregar "R" a una
consulta es suficiente para restringirla a resultados relevantes: si la búsqueda
no es útil, a menudo significa que no hay ningún resultado específico de R
disponible. Google es particularmente útil para mensajes de error. Si recibe un
mensaje de error y no tiene idea de lo que significa, ¡intente googlearlo! Lo más
probable es que haya confundido a alguien más en el pasado, y habrá ayuda en
algún lugar de la web. (Si el mensaje de error no está en inglés,
ejecute Sys.setenv(LANGUAGE = "en")y vuelva a ejecutar el código; es más
probable que encuentre ayuda para los mensajes de error en inglés).
Si Google no ayuda, intente stackoverflow . Comience por dedicar un poco de
tiempo a buscar una respuesta existente, incluso [R]para restringir su búsqueda
a preguntas y respuestas que usen R. Si no encuentra nada útil, prepare un
ejemplo o reprex mínimo reproducible . Un buen reprex facilita la ayuda de otras
personas y, a menudo, usted mismo resolverá el problema en el curso de su
creación.
Hay tres cosas que debe incluir para que su ejemplo sea reproducible:
paquetes, datos y código requeridos.
Intente encontrar el subconjunto más pequeño de sus datos que aún revele el
problema.
3. Pase un poco de tiempo asegurándose de que su código sea fácil de leer para
otros:
o Asegúrese de que haya utilizado espacios y que los nombres de sus variables
sean concisos, pero informativos.
o Haz tu mejor esfuerzo para eliminar todo lo que no esté relacionado con el
problema.
Cuanto más corto sea el código, más fácil será comprenderlo y más fácil será
corregirlo.
1.7 Agradecimientos
Este libro no es solo el producto de Hadley y Garrett, sino el resultado de
muchas conversaciones (en persona y en línea) que hemos tenido con muchas
personas en la comunidad de R. Hay algunas personas a las que nos gustaría
agradecer en particular, porque han pasado muchas horas respondiendo a
nuestras preguntas tontas y ayudándonos a pensar mejor acerca de la ciencia
de datos:
Jenny Bryan y Lionel Henry para muchas discusiones útiles sobre cómo trabajar
con listas y columnas de listas.
Los tres capítulos sobre el flujo de trabajo fueron adaptados (con permiso),
dehttp://stat545.com/block002_hello-r-workspace-wd-project.html por Jenny
Bryan.
Bill Behrman por su cuidadosa lectura de todo el libro y por probarlo con su
clase de ciencia de datos en Stanford.
Tal Galili por aumentar su paquete de dendextend para apoyar una sección
sobre agrupamiento que no llegó al borrador final.
Este libro fue escrito a la vista, y muchas personas contribuyeron con solicitudes
de extracción para solucionar problemas menores. Un agradecimiento especial
a todos los que contribuyeron a través de GitHub:
1.8 Colofón
Una versión en línea de este libro está disponible
en http://r4ds.had.co.nz . Continuará evolucionando entre las reimpresiones del
libro físico. La fuente del libro está disponible
en https://github.com/hadley/r4ds . El libro está basado
en https://bookdown.org, lo que facilita la conversión de archivos de reducción
de R en HTML, PDF y EPUB.