Vous êtes sur la page 1sur 5

Ministère de l'Enseignement supérieur et de la recherche scientifique

Université Abderrahmane Mira de Bejaïa


Faculté des Sciences Exactes
Département d’Informatique
Année universitaire: 2021-2022

Enseignante : Dr. BERMAD


TP 0: Introduction à R A l’intention de: M1-RN-SIA
Durée: 1h

1. Définition

R est à la fois un logiciel de statistique et un langage de programmation.


R est un logiciel de traitement statistique des données. Il fonctionne sous la forme d'un
interpréteur de commandes qui sont introduites dans un terminal (manipulation interactive).
Il dispose d'une bibliothèque très large de fonctions statistiques, d'autant plus large qu'il est
possible d'en intégrer de nouvelles par le système des "packages", des modules externes
compilés (sous forme de DLL sous Windows) que l'on peut télécharger gratuitement sur
internet. R propose également une palette étendue de fonctionnalités graphiques. Il est
possible d'utiliser R en mode interactif sans jamais avoir à programmer.
R est un langage de programmation (de script «.r») interprété dérivé de S (disponible
dans le logiciel S-PLUS). A ce titre, il en intègre toutes les caractéristiques: données simples
et structurées, opération d'entrée-sortie, branchements conditionnels, boucles indicées et
conditionnelles, récursivité, etc. En particulier, il nous sera possible de créer de nouvelles
fonctions de traitement de données avec le langage R.
R est un langage orienté objet: Toutes les variables sont stockés dans la mémoire de
l'ordinateur sous forme d'objets qui ont chacun un nom. L'utilisateur va agir sur ces objets via
des instructions en utilisant des opérateurs (arithmétiques, logiques, de comparaison, . . .) et
des fonctions. De plus, une bibliothèque très riche de fonctions permettant de manipuler ces
structures est disponible.
But de TPs: Cet enseignement est avant tout un cours de traitement exploratoire des
données. Il s'agit de montrer comment faire tel ou tel traitement statistique avec R et
d'apprendre à programmer des techniques de Machine Learning et de data Mining.

1
2. Installation
Le logiciel R est un freeware disponible sur le site http://cran.r-project.org/. Il existe des
versions :
 Windows
 MacOS X
 Linux
 ...

3. Mode d’utilisation
 Mode « terminal »

 Mode « script »

 Mode «éditeur externe»


Par exemple : R-Studio, Eclipse

2
4. Documentation
 Consulter l’aide en ligne:

Par exemple, pour consulter la rubrique d’aide de la fonction summary, on peut entrer la
ligne de commande:

> ?summary
Ou
> help("summary")

 Trouver de la documentation
La documentation officielle de R se compose de six guides accessibles depuis:
- Le site du projet R.
- An Introduction to R
- R Data Import/Export
- Bayesian Computation With R
- Applied Statistical Genetics With R
- http://www.rdatamining.com/docs.
- etc

5. Objet et opération sur R

 Les principaux types sont entier, réel, complexe caractère logique: TRUE, FALSE, NA
(données manquantes)
 Les objets de base sont vecteurs, matrices, data frames, listes
 Opérations élémentaires sur les scalaires :*, −, +, /, ˆ
>2+4
6

 Opérations avec affectation (avec ou sans affichage)


> x=2+4
>x
6
>(x=2+4) # avec affichage du résultat
6

3
6. Commandes R
La console de R attend une instruction, cela est indiqué par ">" en début de ligne. Chaque
instruction doit être validée par Entrée pour être exécutée.
 Repérez-vous sur R
Pour savoir le répertoire du travail, utilisez la fonction getwd():
> getwd() # [1] "C:/Users"
Pour changer le répertoire de façon manuelle :
> setwd("~ ")# créer un répertoire de travail
> setwd("C:Users") # notation typée windows
>setwd("/home/nabila/Desktop/mooc") # notation typée linux pour créer le répertoire
du travail
 Enregistrer et charger les données dans R
Les données dans R peuvent être enregistrées sous forme de fichiers .Rdata avec la
fonction save(). Après cela, ils peuvent être chargé dans R avec load(). Dans le code ci-
dessous, la fonction rm() supprime l'objet a de R:
> a <- 1:10 # créer un vecteur
> print(a) # afficher le contenu de a
> save(a, file="./data/dumData.Rdata")# sauver le vecteur a dans un fichier R
> rm(a)
> load("./data/dumData.Rdata")# charger le fichier R
 Charger les données – Structure data.frame
data.frame est un tableau de données constitue de variables quantitatives et/ou
qualitatives mesurées sur les mêmes individus. C’est d’ailleurs l’objet privilégié en
analyse statistique.
> smp<-read.csv2("/home/nabila/Desktop/mooc/smp1.csv") # permet d’importer un
tableau de données
Chemin d'accès au fichier smp1.csv
provenant d’un fichier
externe csv et stocker
le résultat dans le
data.frame smp

4
> heart<-read.table(file="nom de fichier.text",sep="\t", dec=".",header=T)
 Afficher un data.frame
> str(smp) # afficher le contenu du data.frame smp
> str(iris) # afficher le contenu du data set standard iris
> View(smp) # le même rôle que la fonction str

 Créer un data. frame


Considérons les deux vecteurs x et y suivants :
> x <- c("A","B","C","A")
> y <- 1:4
On peut utiliser ces derniers pour créer un data.frame assemblant ces deux vecteurs :

> mondf <- data.frame(x,y)


> mondf
# x y
#1 A 1
#2 B 2
#3 C 3
#4 A 4

 Convertir une matrice à un data.frame et vice versa


> x <- matrix(c(1:6),nrow=2,ncol=3,byrow=TRUE) # créer une matrice
>x
# [,1] [,2] [,3]
# [1,] 1 2 3
# [2,] 4 5 6

> DF<-as.data.frame(x) # Convertir une matrice à un dataframe DF


> DM <-data.matrix(DF) # Convertir le dataframe DF à une matrice DM

 Traitement sur les attribus du data.frame


> length(mondf) # afficher le nombre d’attributs
# [1] 2
> names(smp) # renvoyer les noms des attributs du data.frame smp
> smp$age # afficher tous les tuples
> smp$age[1] # afficher le premier tuple(observation)

 Chargement d’un package (à chaque utilisation)


Lancer l’installation du package
> library(nom du package) # permet de charger la bibliothèque
> library(help=nom de package) # permet de lister les fonctions du package

Vous aimerez peut-être aussi