Vous êtes sur la page 1sur 2

Matière : TP Analyse des données avec le langage R ISIMA

Enseignant : Nesrine Blel & Malak Zaouali 1er semestre


Niveau : LFI-GLSI3 Année :2023-2024

TP5 : Manipulation des données


1/ Objectifs :
 L’objectif du TP est d’utiliser des fonctions de manipulation de data-frame et de savoir
les bibliothèques nécessaires à installer dans le but de filtrer, sélectionner, arranger et
transformer les données.
 Remplir ou éliminer les valeurs manquantes.

2/ Installation de bibliothèques :
Les bibliothèques de manipulation de données sont :

Ces bibliothèques sont intégrées sous la bibliothèque « tidyverse ».


Soit la base de données à manipuler est la base « murders » sous la bibliothèque « dslabs ».

3/ utilisation de fonctions :
a. la fonction mutate :
La première fonction à utiliser est la fonction « mutate ». Nous allons ajouter les taux de
murders à notre murders data frame. Tapez :

*Nous avons multiplié le résultat par 100 000 pour obtenir un taux pour 100 000 habitants.
A quoi sert cette fonction ?
b. la fonction filter :
Tapez :

Que fait cette fonction ?


c. la fonction select :
Tapez :

Afficher par la suite les taux de murders inferieur ou égale à 0.55.

1
Tapez :

Y a – il de différence entre ce résultat et le résultat précédente ?


Définir la pipe : %>%.
d. la fonction arrange :

A quoi sert cette fonction ?

4/ les valeurs ou données manquantes :


Entrer dans ce lien et télécharger le fichier :
https://www.swisstransfer.com/d/aa7c2765-dc92-441a-970d-056e667932ba
NA (Not Available) sont les valeurs manquantes. Pour vérifier si un objet est de type
NA, on utilise la fonction is.na(). Si en effet, la variable ou l’objet est une valeur manquante,
alors la fonction renvoie TRUE sinon elle renvoie FALSE, c’est très intéressant de détecter
des NA surtout dans le traitement de données plus importantes en volume.
NB : toutes les opérations renvoient NA quand on mixe ce dernier avec n’importe quel type de
données.
Nous allons basculer vers une nouvelle data « missingdata » afin de manipuler les données
manquantes.
i- Lire la data frame
ii- Afficher le contenu de la data frame
iii- Vérifier s’il y a des données manquantes
iv- Changer les cases vides par NA en utilisant na.string() sous read.csv()
v- Tapez mean(missingdata$age), a quoi égale la moyenne et pourquoi ?
vi- Retapez la fonction mean en ajoutant l’argument na.rm=T
vii- Remplacez les NA par la moyenne d’âge.

TP Terminé! ¯\_(ツ)_/¯

Vous aimerez peut-être aussi