Vous êtes sur la page 1sur 5

Manipulation des données avec le package dplyr:

Projet N°2

Dr. Zouaoui Haykel∗

2023-03-04

Contents
1 EXERCICES 3
1.1 Exercice 1: . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3
1.2 Exercice 2: . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4
1.3 Exercice 3: . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4


Institut Supérieur de Gestion de Bizerte, haykel.zouaoui@isgb.ucar.tn

1
2
1 EXERCICES

1.1 Exercice 1:
En se basant sur les jeux de données flights ; airports et airlines présentent dans le package
nycflights13, répondre aux requêtes suivantes en utilisant la ou les fonctions adéquates du
package dplyr.

1. Afficher les lignes 100 à 105 du tableau des vols (flights).


2. Afficher les vols du mois de juillet et de septembre (variable month).
3. Sélectionnez les vols avec un retard à l’arrivée (variable arr_delay) compris entre 10
et 15 minutes.
4. Afficher les vols des compagnies Delta, United et American Airlines (codes DL, UA et
AA de la variable carrier).
5. Triez la table flights en fonction du temps de retard au départ (variable dep_delay)
dans un ordre décroissant.
6. Sélectionnez les colonnes name, lat et lon du jeux de données airports.
7. Sélectionnez toutes les colonnes du jeux de données airports sauf les colonnes tz et
tzone.
8. Avec le jeu de données airports, la colonne alt contient l’altitude de l’aéroport mesurée
en pieds. Créer une nouvelle variable alt_m contenant l’altitude en mètres (on conver-
tit des pieds en mètres en les divisant par 3.2808). Sélectionner dans la table obtenue
uniquement les deux colonnes alt et alt_m puis afficher les 12 premières observations
9. Dans le jeu de données flights et en utilisant le pipe >%>, sélectionnez les vols à
destination de San Francico (code SFO de la variable dest) et triez-les selon le temps
de retard au départ décroissant (variable dep_delay).
10. Sélectionnez les vols des mois de Janvier et Mars, conservez seulement les colonnes dest
et dep_delay, créez une nouvelle variable retard_h contenant le retard au départ en
heures (*60), triez selon retard_h par ordre décroissant et conservez uniquement les
15 premières lignes.
11. Pour le jeux de données flights, affichez le nombre de vols par mois (utiliser la fonction
n=n()) et trier la table résultante selon le nombre de vols croissant.
12. Pour le jeu de données flights, calculer la distance moyenne des vols (variable distance)
selon l’aéroport de départ (variable origin).
13. Pour le jeu de données flights, calculer le nombre de vols sortant de l’aéroport JFK
(code JFK) pour chaque mois de l’année. (utiliser l’expression count(month))
14. Pour le jeu de données flights, calculer le nombre de vols selon le mois et la destination.
15. Pour le jeu de données flights, Calculer le nombre de vols selon le mois. Ajouter une
colonne comportant le pourcentage de vols annuels réalisés par mois.
16. Pour le jeu de données flights, calculer, pour chaque destination et chaque mois, le
retard moyen à l’arrivée. Pour chaque mois, trier les destinations selon ce retard moyen
d’une manière décroissante, et (toujours pour chaque mois) ne conserver que les trois
destinations avec le retard le plus élevé.

3
1.2 Exercice 2:
Dans cette exercice, nous allons mettre en application les fonctions de la manipulation des
données du package dplyr. Pour ce faire nous allons utiliser la base de données gapminder.

1. Commencer d’abord par charger la base de données et étudier sa structure (nombre


d’observations, nombre de variables, noms des variables, types des variables). (Noter
que la data frame gapminder se trouve dans le package portant le même nom gap-
minder).

Après avoir charger les données et étudier sa composition, réaliser les opération de manipu-
lation suivantes:

2. Commençons par quelque chose de simple. Par exemple, disons que vous voulez afficher
les données pour les États-Unis pour les années 1997, 2002 et 2007.

3. Calculer l’espérance de vie des états-Unis pour l’année 2007.

4. calculer l’espérance de vie moyenne par continent en 2007.

5. Calculer le niveau du produit interieur brute moyen par pays en 2007.

6. Calculer le niveau du produit interieur brute moyen par continent et par année.

7. Calculer la population total par contient pour l’année 2007, puis afficher le résultat par
ordre décroissant

8. Calculer le produit interieur brute total pour l’année 2007.

9. Calculer le percentile de l’espérance de vie pour l’année 2007. Utiliser la fonction


mutate() et la fonction ntile().

10. Trouver les 10 premiers pays ayant une espérance de vie situés dans le 90eme per-
centile et plus et ce pour l’année 2007. Utiliser la fonction mutate() et ntile() pour le
calcul des percentiles. Afficher seulement les variables continent, country, lifeExp et
percentile

11. Refaire le même calcul que précédemment, mais en reportant les 10 pays ayant
l’espérance de vie la moins faible et se situant dans le 10ème percentile.

1.3 Exercice 3:
Dans cet exercice nous utilisons le jeu de données hflights du package hflights.

1. Charger le package hflights (l’installer si nécessaire)


2. Charger le jeux de données hflights

4
3. Etudier la structure du jeu de données hflights

Exécuter les requêtes suivantes

4. Afficher la ligne N°325 du jeu de données hflights.


5. Afficher les lignes 400 à 650 du jeu de données hflights.
6. Sélectionner un échantillon aléatoire de taille 100 du jeu de données hflights.
7. Sélectionner les vols du mois de janvier.
8. Sélectionner les vols avec un retard au départ (variable dep_delay) compris entre 10
et 15 minutes.
9. Sélectionner les vols avec la plus grande distance parcourue
10. Sélectionner les colonnes dont le nom commence par “dep”.
11. Sélectionner les vols n’ayant pas un retard à l’arrivée.
12. Sélectionner les vols n’ayant pas un retard ni à l’arrivée ni au départ.
13. Sélectionner seulement les variables de type caractère. (utiliser le fonction where()).
14. Sélectionner seulement les variables de type numérique.
15. Afficher les 10 vols à destination de “LAX” ayant le temps de retard à l’arrivée et au
départ le plus élevé.
16. Calculer pour chaque mois et par compagnie le temps de retard maximal et minimal à
l’arrivée et au départ.
17. Calculer les retards moyens au départ et à l’arrivée pour l’ensemble des vols.
18. Calculer le temps de retard maximum, le temps de retard minimum et le temps de
retard moyen au départ pour chaque mois et par destination.

Vous aimerez peut-être aussi