Académique Documents
Professionnel Documents
Culture Documents
Course Description
Dans Introduction à R, vous maîtriserez les bases de ce langage open source
largement utilisé, y compris les facteurs, les listes et les blocs de données. Avec
les connaissances acquises dans ce cours, vous serez prêt à entreprendre votre
première analyse de données. Oracle a estimé plus de 2 millions d'utilisateurs de
R dans le monde en 2012, consolidant R comme un langage de programmation
de premier plan dans les statistiques et la science des données. Chaque année, le
nombre d'utilisateurs de R augmente d'environ 40 % et un nombre croissant
d'organisations l'utilisent dans leurs activités quotidiennes. Commencez votre
voyage pour apprendre R avec nous dès aujourd'hui !
Comment ça fonctionne
Dans l'éditeur de droite, vous devez taper le code R pour résoudre les exercices.
Lorsque vous appuyez sur le bouton « Envoyer la réponse », chaque ligne de
code est interprétée et exécutée par R et vous recevez un message indiquant si
votre code est correct ou non. La sortie de votre code R est affichée dans la
console dans le coin inférieur droit.
R utilise le # signe pour ajouter des commentaires, afin que vous et les autres
puissiez comprendre de quoi parle le code R. Tout comme Twitter ! Les
commentaires ne sont pas exécutés en tant que code R, ils n'influenceront donc
pas votre résultat. Par exemple, Calculer 3 + 4 dans l'éditeur de droite est un
commentaire.
Vous pouvez également exécuter des commandes R directement dans la console.
C'est un bon moyen d'expérimenter avec le code R, car l'exactitude de votre
soumission n'est pas vérifiée.
Instructions
Dans l'éditeur de droite, il y a déjà un exemple de code. Pouvez-vous voir
quelles lignes sont du code R réel et lesquelles sont des commentaires ?
Ajoutez une ligne de code qui calcule la somme de 6 et 12 et appuyez sur le
bouton « Envoyer la réponse ».
Vous voyez comment la console affiche le résultat du code R que vous avez
soumis ? Maintenant que vous êtes familiarisé avec l'interface, passons aux
affaires R !
Arithmétique avec R
Dans sa forme la plus basique, R peut être utilisé comme une simple
calculatrice. Considérons les opérateurs arithmétiques suivants :
Une addition: +
Soustraction: -
Multiplication: *
Division: /
Exponentiation : ^
Module : %%
Les deux derniers pourraient avoir besoin d'explications :
my_var <- 4
Instructions
A vous de jouer : complétez le code sous l'éditeur de telle sorte qu'il affecte la
valeur 42 à la variable x sous l'éditeur. Soumettez la réponse. Notez que lorsque
vous demandez à R d'imprimer x, la valeur 42 apparaît.
Avez-vous remarqué que R n'imprime pas la valeur d'une variable sur la console
lorsque vous avez effectué l'affectation ? x <- 42n'a généré aucune sortie, car R
suppose que vous aurez besoin de cette variable à l'avenir. Sinon, vous n'auriez
pas stocké la valeur dans une variable en premier lieu, n'est-ce pas ? Passez à
l'exercice suivant !
Affectation des variables (2)
Supposons que vous ayez une corbeille de fruits avec cinq pommes. En tant
qu'analyste de données en formation, vous souhaitez stocker le nombre de
pommes dans une variable portant le nom my_apples.
Instructions
Tapez le code suivant dans l'éditeur : my_apples <- 5. Cela affectera la valeur 5
à my_apples.
Tapez : my_apples sous le deuxième commentaire. Cela imprimera la valeur de
my_apples.
Soumettez votre réponse et regardez le résultat : vous voyez que le chiffre 5 est
imprimé. Donc R lie maintenant la variable my_apples à la valeur 5.
my_apples + my_oranges
Instructions
Attribuer à my_oranges la valeur 6.
Ajoutez les variables my_apples et my_oranges demandez à R d'imprimer
simplement le résultat.
Affectez le résultat de l'ajout my_apples et my_oranges à une nouvelle variable
my_fruit.
Affectation des variables (3)
Chaque panier de fruits savoureux a besoin d'oranges, vous décidez donc
d'ajouter six oranges. En tant qu'analyste de données, votre réflexe est de créer
immédiatement la variable my_oranges et de lui attribuer la valeur 6. Ensuite,
vous voulez calculer combien de morceaux de fruits vous avez au total. Puisque
vous avez donné des noms significatifs à ces valeurs, vous pouvez maintenant
coder ceci de manière claire :
my_apples + my_oranges
Instructions
Attribuer à my_oranges la valeur 6.
Ajoutez les variables my_apples et my_oranges demandez à R d'imprimer
simplement le résultat.
Affectez le résultat de l'ajout my_apples et my_oranges à une nouvelle variable
my_fruit.
Le grand avantage de faire des calculs avec des variables est la réutilisabilité. Si
vous changez simplement my_apples pour égaler 12 au lieu de 5 et réexécutez le
script, il se my_fruit mettra également à jour automatiquement. Passez à
l'exercice suivant.
Pommes et oranges
La connaissance commune vous dit de ne pas ajouter de pommes et d'oranges.
Mais bon, c'est ce que tu viens de faire, non :-) ? Les my_appleset les
my_orangesvariables à la fois contenait un certain nombre dans l'exercice
précédent. L' +opérateur travaille avec des variables numériques dans R. Si vous
essayiez vraiment d'ajouter des "pommes" et des "oranges", et affectiez une
valeur de texte à la variable my_oranges(voir l'éditeur), vous essaieriez
d'attribuer l'ajout d'un numérique et d'un variable de caractère à la variable
my_fruit. Ce n'est pas possible.
Instructions
Soumettez la réponse et lisez le message d'erreur. Assurez-vous de comprendre
pourquoi cela n'a pas fonctionné.
Ajustez le code pour que R sache que vous avez 6 oranges et donc une corbeille
de fruits avec 11 fruits.
Instructions
Modifiez la valeur de :
my_numeric variable à 42.
my_character variable à "universe". Notez que les guillemets indiquent qu'il
"universe" s'agit d'un caractère.
my_logicalvariable à FALSE.
Notez que R est sensible à la casse !
Passez au chapitre suivant pour vous immerger dans le monde des vecteurs !
2 – Vecteurs
Nous vous emmenons dans un voyage à Vegas, où vous apprendrez à analyser
vos résultats de jeu à l'aide de vecteurs dans R. Après avoir terminé ce chapitre,
vous serez en mesure de créer des vecteurs dans R, de les nommer, d'en
sélectionner des éléments et de comparer différents vecteurs.
Créer un vecteur
Se sentir chanceux? Vous feriez mieux, car ce chapitre vous emmène dans un
voyage dans la Cité des Péchés, également connue sous le nom de Paradis des
Statisticiens !
Instructions
Vous souvenez-vous encore de ce que vous avez appris dans le premier
chapitre ? Affectez la valeur "Go!"à la variable vegas. N'oubliez pas : R est
sensible à la casse !
Sur votre chemin de la misère à la richesse, vous ferez un usage intensif des
vecteurs. Les vecteurs sont des tableaux à une dimension qui peuvent contenir
des données numériques, des données de caractères ou des données logiques. En
d'autres termes, un vecteur est un outil simple pour stocker des données. Par
exemple, vous pouvez stocker vos gains et pertes quotidiens dans les casinos.
Dans R, vous créez un vecteur avec la fonction combine c(). Vous placez les
éléments vectoriels séparés par une virgule entre les parenthèses. Par example:
Instructions
Complétez le code de telle sorte qu'il boolean_vectorcontienne les trois éléments
: TRUE, FALSE et TRUE (dans cet ordre).
Notez que l'ajout d'un espace derrière les virgules dans la c()fonction améliore la
lisibilité de votre code. Pratiquons un peu plus la création de vecteurs dans le
prochain exercice.
Avant de faire une première analyse, vous décidez d'abord de collecter tous les
gains et pertes de la semaine dernière :
Pour poker_vector:
Lundi, vous avez gagné 140 $
Mardi tu as perdu 50$
Mercredi, vous avez gagné 20 $
Jeudi tu as perdu 120$
Vendredi, vous avez gagné 240 $
Pour roulette_vector:
Instructions
Attribuez les gains/pertes de la roulette à la variable roulette_vector. Vous avez
perdu 24 $, puis 50 $, gagné 100 $, perdu 350 $ et gagné 10 $.
Pour vérifier le contenu de vos vecteurs, n'oubliez pas que vous pouvez toujours
simplement taper la variable dans la console et appuyer sur Entrée. Passez à
l'exercice suivant !
Nommer un vecteur
En tant qu'analyste de données, il est important d'avoir une vue claire sur les
données que vous utilisez. Il est donc essentiel de comprendre à quoi se réfère
chaque élément.
Dans l'exercice précédent, nous avons créé un vecteur avec vos gains sur la
semaine. Chaque élément vectoriel fait référence à un jour de la semaine mais il
est difficile de dire quel élément appartient à quel jour. Ce serait bien si vous
pouviez montrer cela dans le vecteur lui-même.
Vous pouvez donner un nom aux éléments d'un vecteur avec la names()fonction.
Regardez cet exemple :
Name Profession
"John Doe" "poker player"
Instructions
Le code dans l'éditeur nomme les éléments poker_vectoravec les jours de la
semaine. Ajoutez du code pour faire la même chose pour roulette_vector.
Dans les exercices précédents, vous avez probablement constaté qu'il est
ennuyeux et frustrant de taper et de retaper des informations telles que les jours
de la semaine. Cependant, lorsque vous le regardez d'un point de vue plus élevé,
il existe un moyen plus efficace de le faire, à savoir affecter le vecteur des jours
de la semaine à une variable !
Tout comme vous l'avez fait avec vos retours de poker et de roulette, vous
pouvez également créer une variable qui contient les jours de la semaine. De
cette façon, vous pouvez l'utiliser et le réutiliser.
Instructions
Une variable days_vectorcontenant les jours de la semaine a déjà été créée pour
vous.
Utilisez days_vectorpour définir les noms de poker_vectoret roulette_vector.
Quel a été votre profit ou votre perte globale par jour de la semaine ?
Avez-vous perdu de l'argent sur la semaine au total ?
Gagnez/perdez-vous de l'argent au poker ou à la roulette ?
Pour obtenir les réponses, vous devez faire des calculs arithmétiques sur des
vecteurs.
Il est important de savoir que si vous additionnez deux vecteurs dans R, il faut la
somme par élément. Par exemple, les trois déclarations suivantes sont
complètement équivalentes :
c(1, 2, 3) + c(4, 5, 6)
c(1 + 4, 2 + 5, 3 + 6)
c(5, 7, 9)
Vous pouvez également faire les calculs avec des variables qui représentent des
vecteurs :
a <- c(1, 2, 3)
b <- c(4, 5, 6)
c <- a + b
Instructions
Prendre la somme des variables A_vectoret B_vectoret l' affecter à total_vector.
Inspectez le résultat en imprimant total_vector.
Après un court brainstorming dans le jacuzzi de votre hôtel, vous réalisez qu'une
explication possible pourrait être que vos compétences à la roulette ne sont pas
aussi développées que vos compétences au poker. Alors peut-être que vos gains
totaux au poker sont plus élevés (ou >) qu'à la roulette.
Instructions
Calculez total_pokeret total_roulettecomme dans l'exercice précédent. Utilisez la
sum()fonction deux fois.
Vérifiez si vos gains totaux au poker sont plus élevés qu'à la roulette en utilisant
une comparaison. Imprimez simplement le résultat de cette comparaison. Qu'en
concluez-vous, faut-il se concentrer sur la roulette ou sur le poker ?
Instructions
Calculez total_pokeret total_roulette comme dans l'exercice précédent. Utilisez
la sum()fonction deux fois.
Vérifiez si vos gains totaux au poker sont plus élevés qu'à la roulette en utilisant
une comparaison. Imprimez simplement le résultat de cette comparaison. Qu'en
concluez-vous, faut-il se concentrer sur la roulette ou sur le poker ?
Une autre voie d'enquête possible est votre performance au début de la semaine
de travail par rapport à la fin de celle-ci. Vous avez pris quelques cocktails
Margarita à la fin de la semaine…
Pour répondre à cette question, vous souhaitez uniquement vous concentrer sur
une sélection des fichiers total_vector. En d'autres termes, notre objectif est de
sélectionner des éléments spécifiques du vecteur. Pour sélectionner des éléments
d'un vecteur (et plus tard des matrices, des trames de données, …), vous pouvez
utiliser des crochets. Entre les crochets, vous indiquez les éléments à
sélectionner. Par exemple, pour sélectionner le premier élément du vecteur, vous
tapez poker_vector[1]. Pour sélectionner le deuxième élément du vecteur, vous
tapez poker_vector[2], etc. Notez que le premier élément d'un vecteur a l'indice
1, pas 0 comme dans de nombreux autres langages de programmation.
Instructions
Attribuez les résultats de poker du mercredi à la variable poker_wednesday.
R permet également de sélectionner plusieurs éléments d'un vecteur à la fois.
Apprenez comment dans le prochain exercice !
Sélection de vecteurs : les bons moments (2)
Que diriez-vous d'analyser vos résultats en milieu de semaine ?
Pour sélectionner plusieurs éléments d'un vecteur, vous pouvez ajouter des
crochets à la fin de celui-ci. Vous pouvez indiquer entre parenthèses quels
éléments doivent être sélectionnés. Par exemple : supposons que vous vouliez
sélectionner le premier et le cinquième jour de la semaine : utilisez le vecteur
c(1, 5)entre crochets. Par exemple, le code ci-dessous sélectionne le premier et
le cinquième élément de poker_vector:
poker_vector[c(1, 5)]
Instructions
Affectez les résultats de poker du mardi, mercredi et jeudi à la variable
poker_midweek.
Donc, une autre façon de trouver les résultats en milieu de semaine est
poker_vector[2:4]. Remarquez comment le vecteur 2:4est placé entre les
crochets pour sélectionner les éléments 2 à 4.
Instructions
Attribuez aux roulette_selection_vectorrésultats de la roulette du mardi au
vendredi ; utiliser :si cela vous facilite les choses.
L'opérateur deux-points est extrêmement utile et très souvent utilisé dans la
programmation R, alors souvenez-vous-en bien. Passez à l'exercice suivant.
Sélection de vecteurs : les bons moments (4)
Une autre façon d'aborder l'exercice précédent est d'utiliser les noms des
éléments vectoriels (lundi, mardi, …) au lieu de leurs positions numériques. Par
example,
poker_vector["Monday"]
sélectionnera le premier élément de poker_vectorpuisque "Monday"est le nom
de ce premier élément.
Tout comme vous l'avez fait dans l'exercice précédent avec des chiffres, vous
pouvez également utiliser les noms d'éléments pour sélectionner plusieurs
éléments, par exemple :
poker_vector[c("Monday","Tuesday")]
Instructions
Sélectionnez les trois premiers éléments en poker_vector utilisant leurs noms :
"Monday", "Tuesday"et "Wednesday". Affectez le résultat de la sélection à
poker_start.
Calculer la moyenne des valeurs poker_start avec la mean() fonction. Imprimez
simplement le résultat pour pouvoir l'inspecter.
Outre le sous-ensemble des vecteurs par index ou par nom, vous pouvez
également sous-ensemble des vecteurs par comparaison. Les prochains exercices
vous montreront comment !
c(4, 5, 6) > 5
[1] FALSE FALSE TRUE
Cette commande teste pour chaque élément du vecteur si la condition indiquée
par l'opérateur de comparaison est TRUE ou FALSE.
Instructions
Vérifiez quels éléments poker_vectorsont positifs (c'est-à-dire > 0) et attribuez-
les à selection_vector.
Imprimez-le selection_vectorpour pouvoir l'inspecter. L'impression vous indique
si vous avez gagné ( TRUE) ou perdu ( FALSE) de l'argent pour chaque jour.
poker_vector[selection_vector]
R sait quoi faire lorsque vous passez un vecteur logique entre crochets : il ne
sélectionnera que les éléments qui correspondent à TRUEin selection_vector.
Instructions
Utilisez selection_vectorentre crochets pour affecter les montants que vous avez
gagnés les jours rentables à la variable poker_winning_days.
Sélection avancée
Tout comme vous l'avez fait pour le poker, vous voulez également connaître les
jours où vous avez réalisé un retour positif pour la roulette.
Instructions
Créez la variable selection_vector, cette fois pour voir si vous avez fait des
bénéfices avec la roulette pour différents jours.
Attribuez les montants que vous avez gagnés les jours où vous avez terminé
positivement pour la roulette à la variable roulette_winning_days. Ce vecteur
contient donc les gains positifs de roulette_vector.
Cet exercice conclut le chapitre sur les vecteurs. Le chapitre suivant vous
présentera la version bidimensionnelle des vecteurs : les matrices.
3- Matrices
Dans ce chapitre, vous apprendrez à travailler avec des matrices dans R. À la fin
du chapitre, vous serez capable de créer des matrices et de comprendre comment
faire des calculs de base avec elles. Vous analyserez les chiffres du box-office
des films Star Wars et apprendrez à utiliser les matrices dans R. Que la force soit
avec vous !
Dans l'éditeur, trois vecteurs sont définis. Chacun représente les numéros du
box-office des trois premiers films Star Wars. Le premier élément de chaque
vecteur indique le chiffre d'affaires du box-office américain, le deuxième
élément fait référence au box-office non américain (source : Wikipédia).
Dans cet exercice, vous combinerez toutes ces figures en un seul vecteur.
Ensuite, vous allez construire une matrice à partir de ce vecteur.
Instructions
Utilisez c(new_hope, empire_strikes, return_jedi)pour combiner les trois
vecteurs en un seul vecteur. Appelez ce vecteur box_office.
Construisez une matrice avec 3 lignes, où chaque ligne représente un film.
Utilisez la matrix()fonction pour le faire. Le premier argument est le vecteur
box_office, contenant tous les chiffres du box-office. Ensuite, vous devrez
spécifier nrow = 3et byrow = TRUE. Nommez la matrice résultante
star_wars_matrix.
Semblable aux vecteurs, vous pouvez ajouter des noms pour les lignes et les
colonnes d'une matrice
Pour calculer le total des revenus du box-office pour les trois films Star Wars,
vous devez prendre la somme de la colonne des revenus américains et de la
colonne des revenus non américains.
rowSums(my_matrix)
Instructions
Calculez les chiffres du box-office mondial pour les trois films et placez-les
dans le vecteur nommé worldwide_vector.
Après avoir ajouté une colonne à une matrice, la prochaine étape logique
consiste à ajouter des lignes. Apprenez comment dans le prochain exercice.
Votre espace de travail R, où toutes les variables que vous avez définies « vivent
» ( vérifiez ce qu'est un espace de travail ), a déjà été initialisé et contient deux
matrices :
star_wars_matrix que nous avons utilisé tout au long, avec des données sur la
trilogie originale,
star_wars_matrix2, avec des données similaires pour la trilogie prequels.
Explorez ces matrices dans la console si vous souhaitez les regarder de plus
près. Si vous souhaitez consulter le contenu de l'espace de travail, vous pouvez
taper ls()dans la console.
Instructions
Utilisez rbind() pour coller ensemble star_wars_matrixet star_wars_matrix2,
dans cet ordre. Affectez la matrice résultante à all_wars_matrix.
Continuez avec l'exercice suivant et voyez comment vous pouvez combiner les
résultats de la rbind()fonction avec la colSums()fonction !
Après avoir regardé le résultat de l'exercice précédent, le grand patron Lucas fait
remarquer que les prix des billets ont augmenté avec le temps. Il demande de
refaire l'analyse en fonction des prix que vous pouvez trouver dans
ticket_prices_matrix (source : imagination).
Ceux qui sont familiers avec les matrices doivent noter qu'il ne s'agit pas de la
multiplication matricielle standard que vous devez utiliser %*% dans R.
Instructions
Divisez all_wars_matrix par ticket_prices_matrix pour obtenir le nombre estimé
de visiteurs américains et non américains pour les six films. Attribuez le résultat
à visitors.
Dans la visitors matrice, sélectionnez l'intégralité de la première colonne,
représentant le nombre de visiteurs aux États-Unis. Stockez cette sélection en
tant que us_visitors.
Calculez le nombre moyen de visiteurs américains ; imprimer le résultat.
C'est un fait : la force R est avec vous ! Cet exercice conclut le chapitre sur les
matrices. Prochaine étape de votre voyage à travers le langage R : les facteurs.
4 – les facteurs
Les données appartiennent souvent à un nombre limité de catégories. Par
exemple, la couleur des cheveux humains peut être classée en noir, marron,
blond, rouge, gris ou blanc, et peut-être quelques options supplémentaires pour
les personnes qui se colorent les cheveux. Dans R, les données catégorielles sont
stockées dans des facteurs. Les facteurs sont très importants dans l'analyse des
données, alors commencez dès maintenant à apprendre à les créer, les sous-
ensemble et les comparer.
Instructions
Convert the character vector sex_vector to a factor with factor() and assign the
result to factor_sex_vector
Print out factor_sex_vector and assert that R prints out the factor levels below
the actual values.
Si vous souhaitez en savoir plus sur la factor()fonction, n'hésitez pas à taper ?
factordans la console. Cela ouvrira une page d'aide. Passez à l'exercice suivant.
Une variable nominale est une variable catégorielle sans ordre implicite. Cela
signifie qu'il est impossible de dire que « l'un vaut plus que l'autre ». Par
exemple, pensez à la variable catégorielle animals_vectoravec les catégories
"Elephant", "Giraffe", "Donkey"et "Horse". Ici, il est impossible de dire que l'un
se situe au-dessus ou au-dessous de l'autre. (Notez que certains d'entre vous
pourraient ne pas être d'accord ;-) ).
Niveaux de facteur
Lorsque vous obtenez un ensemble de données pour la première fois, vous
remarquerez souvent qu'il contient des facteurs avec des niveaux de facteurs
spécifiques. Cependant, vous souhaiterez parfois modifier les noms de ces
niveaux pour plus de clarté ou pour d'autres raisons. R vous permet de le faire
avec la fonction levels():
Attention : l'ordre dans lequel vous attribuez les niveaux est important. Si vous
tapez levels(factor_survey_vector), vous verrez qu'il affiche [1] "F" "M". Si
vous ne spécifiez pas les niveaux du facteur lors de la création du vecteur, Rles
affectera automatiquement par ordre alphabétique. Pour mapper correctement
"F"vers "Female"et "M"vers "Male", les niveaux doivent être définis sur
c("Female", "Male"), dans cet ordre.
Instructions
Découvrez le code qui construit un vecteur de facteur à partir de survey_vector.
Vous devriez utiliser factor_survey_vectordans l'instruction suivante.
Modifiez les niveaux de facteur de factor_survey_vectorà c("Female", "Male").
Attention à l'ordre des éléments vectoriels ici.
Résumer un facteur
Après avoir terminé ce cours, l'une de vos fonctions préférées dans R sera
summary(). Cela vous donnera un aperçu rapide du contenu d'une variable :
summary(my_var)
Pour en revenir à notre enquête, vous aimeriez savoir combien de
"Male"réponses vous avez dans votre étude, et combien de "Female"réponses.
La summary()fonction vous donne la réponse à cette question.
Instructions
Demandez a summary()des survey_vectoret factor_survey_vector. Interpréter
les résultats des deux vecteurs. Sont-ils tous les deux également utiles dans ce
cas?
Jetez un œil à la sortie. Le fait que vous ayez identifié "Male"et "Female"comme
niveaux de facteur dans factor_survey_vectorpermet à R d'afficher le nombre
d'éléments pour chaque catégorie.
Facteurs ordonnés
Puisque "Male"et "Female"sont des niveaux de facteur non ordonnés (ou
nominaux), R renvoie un message d'avertissement, vous indiquant que
l'opérateur supérieur à n'a pas de sens. Comme vu précédemment, R attache une
valeur égale aux niveaux de ces facteurs.
Mais ce n'est pas toujours le cas ! Parfois, vous traiterez également de facteurs
qui ont un ordre naturel entre ses catégories. Si tel est le cas, nous devons nous
assurer que nous transmettons cette information à R…
Supposons que vous dirigez une équipe de recherche de cinq analystes de
données et que vous souhaitez évaluer leurs performances. Pour ce faire, vous
suivez leur vitesse, évaluez chaque analyste comme "slow", "medium"ou "fast",
et enregistrez les résultats dans speed_vector.
Instructions
Dans un premier temps, attribuez speed_vectorun vecteur avec 5 entrées, une
pour chaque analyste. Chaque entrée doit être soit "slow", "medium", soit "fast".
Utilisez la liste ci-dessous :
factor(some_vector,
ordered = TRUE,
levels = c("lev1", "lev2" ...))
En définissant l'argument ordered sur TRUE dans la fonction factor(), vous
indiquez que le facteur est ordonné. Avec l'argument, levels vous donnez les
valeurs du facteur dans le bon ordre.
Instructions
A partir de speed_vector, créez un vecteur de facteur ordonné :
factor_speed_vector. Réglez orderedsur TRUE, et réglez levels sur
c("slow", "medium", "fast").
Jetez un œil à la console. Il est maintenant indiqué que les Niveaux ont bien un
ordre associé, au <signe. Passez à l'exercice suivant.
Cependant, lorsque vous effectuez une étude de marché, vous vous posez
souvent des questions telles que :
Travailler avec de grands ensembles de données n'est pas rare dans l'analyse de
données. Lorsque vous travaillez avec des ensembles de données et des blocs de
données (extrêmement) volumineux, votre première tâche en tant qu'analyste de
données consiste à développer une compréhension claire de sa structure et de ses
principaux éléments. Par conséquent, il est souvent utile de n'afficher qu'une
petite partie de l'ensemble des données.
Alors, comment faire cela dans R? Eh bien, la fonction head() vous permet de
montrer les premières observations d'un bloc de données. De même, la fonction
tail() imprime les dernières observations de votre ensemble de données.
Les deux head()et tail() imprimez une ligne supérieure appelée « en-tête », qui
contient les noms des différentes variables de votre ensemble de données.
Instructions
Faites appel head()à l' mtcars ensemble de données pour consulter l'en-tête et les
premières observations.
Dans un premier temps, vous souhaitez construire une base de données décrivant
les principales caractéristiques de huit planètes de notre système solaire. Selon
votre bon ami Buzz, les principales caractéristiques d'une planète sont :
planets_df[1:3,2]
Un inconvénient possible de cette approche est que vous devez connaître (ou
rechercher) le numéro de colonne de type, ce qui devient difficile si vous avez
beaucoup de variables. Il est souvent plus facile d'utiliser simplement le nom de
la variable :
planets_df[1:3,"type"]
Instructions
Sélectionnez et imprimez les 5 premières valeurs de la "diameter"colonne de
planets_df.
planets_df[,3]
planets_df[,"diameter"]
Cependant, il existe un raccourci. Si vos colonnes ont des noms, vous pouvez
utiliser le $signe :
planets_df$diameter
Instructions
Utilisez le $signe pour sélectionner la ringsvariable dans planets_df. Stockez le
vecteur qui en résulte sous la forme rings_vector.
Imprimez rings_vectorpour voir si vous avez bien compris.
Tri
Faire et créer des classements est l'une des affaires préférées de l'humanité. Ces
classements peuvent être utiles (meilleures universités du monde), divertissants
(stars de cinéma les plus influentes) ou inutiles (meilleur sosie de 007).
Dans l'analyse des données, vous pouvez trier vos données en fonction d'une
certaine variable dans l'ensemble de données. Dans R, cela se fait à l'aide de la
fonction order().
order() est une fonction qui vous donne la position classée de chaque élément
lorsqu'il est appliqué sur une variable, comme un vecteur par exemple :
a <- c(100, 10, 1000)
order(a)
[1] 2 1 3
10, qui est le deuxième élément de a, est le plus petit élément, donc 2 vient en
premier dans la sortie de order(a). 100, qui est le premier élément dans aest le
deuxième plus petit élément, donc 1 vient en deuxième dans la sortie de
order(a).
a[order(a)]
[1] 10 100 1000
Instructions
Expérimentez avec la order() fonction dans la console. Soumettez la réponse
lorsque vous êtes prêt à continuer.
Utilisons maintenant la order() fonction pour trier votre bloc de données !
On pourrait dire qu'une liste est une sorte de super type de données : vous
pouvez y stocker pratiquement n'importe quelle information !
Instructions
Il suffit de soumettre la réponse pour commencer le premier exercice sur les
listes.
Tout comme sur votre liste de choses à faire, vous voulez éviter de ne pas savoir
ou de ne pas vous souvenir de ce que représentent les composants de votre liste.
C'est pourquoi vous devez leur donner des noms :
Commencez par créer une liste pour le film "The Shining". Nous avons déjà créé
les variables mov, actet revdans votre espace de travail R. N'hésitez pas à les
consulter dans la console.
Instructions
Complétez le code dans l'éditeur pour créer shining_list; il contient trois
éléments :
moviename: une chaîne de caractères avec le titre du film (stocké dans mov)
actors: un vecteur avec les noms des acteurs principaux (stocké dans act)
reviews: une base de données qui contient des avis (stockés dans rev)
N'oubliez pas de nommer les composants de la liste en conséquence (les noms
sont moviename, actorset reviews).
Sélection d'éléments dans une liste
Votre liste sera souvent construite à partir de nombreux éléments et composants.
Par conséquent, en extraire un seul élément, plusieurs éléments ou un composant
n'est pas toujours simple.
Notes commentaires
4.6 je le regarderais encore
5 Étonnante!
4.8 Je l'ai aimé
5 L'un des meilleurs films
4.2 Intrigue fascinante
Il serait utile de rassembler toutes les informations sur le film, comme le titre,
les acteurs et les critiques en une seule variable. Étant donné que ces données
sont de formes différentes, il est naturel de les combiner dans une variable de
liste.