Vous êtes sur la page 1sur 13

Cours d’Analyse de données

Master 1 MPM et LT

Projet 2019-2020

Recherche de données et analyse


1 Présentation
1.1 La problématique
Suite aux mesures de confinement, empêchant le déroulement normal des enseignements, avec notam-
ment l’impossibilité d’accéder au bâtiment de la Citadelle où se trouve le logiciel SPSS, le projet 2020 est
réorienté comme suit :
1. Il vous est demandé de vous former en binôme ou trinôme et de rechercher vos propres données
d’analyse selon votre parcours (MPM ou LT) ou selon votre préférence (un étudiant LT peut travailler
sur des données maritimes/portuaires tout comme un étudiant MPM peut travailler sur des données
Logistique/transport ou Achat)
2. Dans l’impossibilité d’accéder à SPSS, Il vous est proposé d’installer RStudio, un logiciel Statistique
« open source » (gratuit) mais tout aussi puissant, voire plus puisant, que SPSS. Le guide d’installation
de RStudio est en annexe de ce document.
3. Il vous est demandé d’effectuer les Statistiques de base (descriptions statistiques et descriptions
graphiques) sur des variables de vos données
4. Il vous est enfin demandé d’effectuer une analyse liminaire de vos résultats, à l’instar de ce qui a été
vu dans les deux premiers chapitres, et de ce qui a été fait en TD sur SPSS

1.1.1 Le cahier des charges


1. Recherche de données :
a) objectif : trouver des données fiables sur un sujet de votre choix (dans le domaine de la logistique,
du transport, du portuaire, du maritime, de l’achat, de l’approvisionnement, du transit, de la
douane, des coûts, de la manutention, des flux de marchandises, des tonnages de marchandises
dans les ports, de l’impact des activités portuaire ou logistique sur la ville ou la région, des délais
de livraison, etc.) comportant un certain nombre d’observations, sur un site officiel et sérieux
(INSEE, grosses Entreprises, Laboratoires de Recherche, etc.) et comportant un certain nombre
de variables quantitatives et éventuellement des variables qualitatives.
b) délai : jusqu’au 15 avril
c) Internet : bibliothèques virtuelles, sites d’organismes de recherche, Ministère de transport, Revues
scientifiques, Cabinets de conseils, etc)
d) notation : sur 10 points, avec pour barème
i. Si les données sont fiables, pertinentes et exploitables : 10/10
ii. Si les données sont moyennement fiables, moins pertinentes avec des difficultés sur les va-
riables : 7/10 ou 8/10
iii. Si le binôme ou trinôme ne trouve pas de données et qu’il est obligé de travailler sur des
données qui seront fournis sur SKAÏ à partir de 16 avril : 5/10
e) Format de données : .txt, .xls, .cvs, .dat, .RData, etc.
2. Exploitation des données par la génération de Statistiques descriptives
a) Objectif : produire les Statistiques de base pour chaque variable ou pour les variables que vous
estimez pertinentes : moyenne, médiane, quartiles, corrélations, graphiques, etc. (voir chapitre 1
du cours)
b) délai : du 15 avril au 30 avril

2
1 Présentation
c) Outil : RStudio (conseillé, voir installation et prise en main du logiciel en Annexe), Excel, Stata,
Eviews, SPSS, etc. selon disponibilité
d) Notation : sur 5 points
3. Analyse
a) Objectif : tirer des enseignements des résultats de vos Statistiques descriptives
b) délai : jusqu’au 5 mai
c) Outil : faire un petit rapport dactylographié sur Word ou autre, sauvegardé en format PDF à la
fin
d) Notation : sur 5 points

3
2 Résumé du travail à faire
2.1 Trouver la base de données
(à vos claviers et à vos connexions Internet : sélectionnez des sites sérieux, n’hésitez pas à aller sur des
sites en anglo-saxons, les Ports autonomes, les grandes sociétés de transport, les organismes internationaux,
etc.)

2.2 Importer les données dans un Logiciel et décrire la base de données,


les variables
1. Décrivez la distribution de données avec toutes les variables : qualitatives, quantitatives, continues,
discrètes, coût réel de la non fidélisation, etc.
a) Un tableau synoptique des types de variable
Variable 1 Variable 2 Variable 3 Variable 4 ... Variable k ...
Quantitative continue
Quantitative discrète
Qualitative ordinale Oui
Qualitative nominale
Justification dans la mesure où
les assurances
offrent des
protections
différentes selon le
montant de la
prime...
b) Identifier une variable cible dans les données : la variable d’intérêt
Par exemple sur une base de données comme la clientèle d’une compagnie d’assurance, il y a
le concept de profitabilité. Imaginons que ce concept soit représenté par une variable appelé
« Ratio_LP »
Si vous avez une telle base de données, la variable Ratio_LP par exemple peut être une variable
cible
c) Décrire la relation entre chaque variable et la variable cible
2. Faites les statistiques descriptives (commande « summary » dans R Commander) et commentez ces
résultats de façon exhaustive
3. Faites des graphiques (densité, bar-chart, etc.)
4. Effectuer une régression si vous avez des compétences (facultatif) : étude d’une relation linéaire entre
la variables cible et quelques autres variables, avec des résultats commentés

2.2.1 Le rapport du projet


Le document à rendre consiste en un rapport détaillé de vos résultats (document PDF). Il doit contenir
la présentation et la description de votre projet : données, étapes analyses statistiques, résultats, préconi-
sations...

Votre rapport doit être déposé en priorité sous format PDF sur Sakai dans votre espace du cours d’Analyse
de données, et à défaut expédié par email

4
ANNEXE

5
3 Installer R et RStudio
3.1 Installer R, la base de RStudio
R est un logiciel “libre” R présente un certain nombre d’avantages
1. Logiciel libre : téléchargeable gratuitement (http ://cran.r-project.org/)
a) S’installe et fonctionne aisément sur toutes les plateformes : Linux, MS Windows, Macintosh
b) Souplesse et flexibilité : présence de milliers de modules (Packages) adaptés à chaque problème
c) Système d’aide très riche, et multiplicité de ressources faciles à trouver sur Internet
d) Excellentes capacités à générer des graphiques de haute qualité
e) Logiciel puissant, avec des fonctions statistiques, d’économétrie et d’analyse de données équiva-
lentes à SAS

3.2 Installer RStudio


3.2.1 L’interface RStudio
 
RStudio est un interface graphique convivial pour l’utilisation de R
 
— Télécharger RStudio ici www.rstudio.com, après avoir choisit la version gratuite (Free) qui correspond
à votre OS (Windows, Mac ou Linux)
— Installez et lancez : lancez RStudio et non R : ci-dessous Rstudio à l’ouverture

6
3 Installer R et RStudio
3.2.2 Les trois panneaux à l’ouverture
 
L’interface RStudio présente 3 panneaux à l’ouverture
 
1. Le premier panneau qui comporte l’onglet « Console », et où est décrit la version du logiciel R, est le
panneau de base, où l’utilisateur doit saisir les commandes (Si vous mettez le curseur et vous saisissez
3+15 et vous validez par la touche Entrée, vous aurez le résultat immédiatement)
2. Le second panneau (en haut à droite) présente l’environnement, où s’afficheront tous les objets créés
(tableaux, vecteurs, etc). Vous avez également l’onglet « History » qui va contenir l’historique de
toutes vos commandes saisies
3. Le troisième panneau (en bas à droite) regroupe le répertoire et fichiers reconnus, les graphiques
générés, la liste des modules (packages) et l’onglet d’aide
4. NB : un dernier panneau surviendra en haut à gauche, au-dessus de la Console, dès que vous voudriez
afficher le premier tableau de données importées

3.3 Installer des « Packages » supplémentaires, d’emblée


Un « Package » est un module, un programme supplémentaire dédié à une fonction statistique particulière.
par exemple il y a des packages pour traiter des données financières, il y a des package pour traiter
des données géographiques, de ’l’optimisation des stocks, pour faire des graphiques sophistiqués. En cela
RStudio est très riche en modules, il suffit de les connaître et de les rajouter en téléchargeant.
1. Pour télécharger et installer des nouveaux packages :
a) Dans l’onglet « Package » du panneau en bas à droite, cliquer sur Install :

b) Une fenêtre apparaît, taper le nom du « Package », ici par exemple ggplot2, et une liste de package
défile et vous n’avez qu’à choisir celui qui vous intéresse
c) Puis cliquer sur « Install » et attendre l’installation complète, qui peut être long parfois. Il n’aura
terminé que si vous avez la ligne de commande > qui s’affiche dans la « Console »
2. Une fois le package installé, il s’affiche dans l’onglet « Package » du dernier panneau
3. Pour charger en mémoire un package installer il faudra le cocher dans la liste
Vous avez besoin des packages suivants, d’emblée à installer :
Package Fonction
Rcmdr Ajoute un menu contextuels comme dans SPSS, pour les fonctions statistiques essentielles
readxl Facilite l’importation des fichiers Excel
ggplot2 Permet de faire des graphiques sophistiqués
FactomineR Permet de faire des analyses factorielles et autres ACP
dplyr Manipulation de données
tseries Module pour les séries temporelles

7
4 Importation de votre tableau de données dans
RStudio
Supposons que vous ayez un fichier Excel nommé « kmart.xls » dans un répertoire quelconque de votre
ordinateur :
1. Indiquez à RStudio votre répertoire de travail : choisissez votre répertoire de travail, celui où se trouve
votre fichier (par exemple le tableau de données sur lequel vous allez effectuer votre analyse). Vous
avez alors deux manières de spécifier ce répertoire de travail :
a) Première manière, par le Menu en haut
=> Session => Set Working Directory =>Choose Directory => Naviguer jusqu’à votre
répertoire de travail puis « Choose »
b) Seconde manière, graphique
i. aller à l’onglet « Files », naviguer jusqu’à votre répertoire de travail
ii. puis « More » puis « Set as Working Directory »
2. Importez votre fichier « kmart.xls » : Dans l’onglet « Environnement » de votre panneau en haut à
droite, vous cliquez sur « Import Dataset », et vous avez une fenêtre qui s’ouvre.

3. Vous naviguez à partir de cette fenêtre pour aller chercher votre fichier « kmart.xls » de votre réper-
toire. Attention, si votre fichier « kmart.xls » possède des variables en colonne où il y a des noms de
variable, alors il faut cocher la case « first Row as name » puis valider « Import ». Vous aurez alors
un nouveau panneau, en haut à gauche qui affiche les données de kmart
NB : comme vous le voyez dans le menu « Import Dataset », plusieurs autres formats de fichiers
peuvent être importés : fichiers textes (.txt), fichiers SPSS, fichiers Stata, etc.

8
4 Importation de votre tableau de données dans RStudio

Si observez le panneau « Environnement » vous avez votre objet kmart, où il est indiqué 15621
d’observations (nombre de lignes) et 34 variables
4. Si votre tableau de données provient de R ou RStudio lui-même, alors il aura une extension .RData,
par exemple il serait de la forme « kmart.RData », dans ce cas, voici la procédure d’importation :
=> Session => Load Workspace => Naviguer jusqu’à votre fichier kmart.RData et cliquer
sur ce fichier puis valider
5. Le fichier que vous venez d’importer apparaît dans l’onglet « Environnement » et si vous cliquez sur
le nom de ce fichier les données s’affiche dans un nouveau panneau en haut et à gauche

9
5 Implémenter les statistiques descriptives
#La commande « head » (qui affiche quelques lignes du tableau) juste pour avoir un aperçu de vos
variables
>head(kmart)
#La commande « summary » pour effectuer vos statistiques descriptives à commenter
 >summary(kmart) 
Commenter les variables les plus parlantes
 

R-Commander est installée sur votre machine (Package Rcmdr), vous pouvez désormais effectuer
vos commandes, avec des menus déroulants

5.1 Lancez R-Commander


Pour lancer R-Commander, il suffit d’aller le cocher dans la liste des packages (onglet « Packages » dans
le dernier panneau). Une fenêtre supplémentaire surgit à l’écran :

NB : les résultats de vos commandes tapées dans Rcmdr seront néanmoins affichés dans la console de
RStudio !
Exemple de statistiques descriptives avec Rcmdr, dans le menu :

10
5 Implémenter les statistiques descriptives
Statistiques => Résumés => Statistiques descriptives => (puis sélectionner les variables an faisant
glisser la souris, ou en utilisant la touche « Control » si on ne veut sélectionner que quelques variables) =>
puis cliquer sur « Appliquer » puis « OK »

5.2 Autres commandes


A venir.....

5.3 Vos graphiques (Chargez le package ggplot2)


5.3.1 En passant par Rcmdr

11
5 Implémenter les statistiques descriptives

5.4 La régression
' $
— La régression est un terme qui désigne une technique, dans laquelle on prédit une variable réponse,
appelé “dépendante” ou “expliquée” à partir de plusieurs “prédicteurs”, nommées “indépendantes”
ou “explicatives”
— Ici, vous allez prédire, par une régression, la profitabilité des clients en fonction des caractéristiques
de ces clients qui sont les variables explicatives, comme, le nombre de bénéficiaires (Nbbenefi), l’âge
(Age), le genre (Gender), l’ancienneté (Seniorit), etc.
— Le choix des variables explicatives à mettre dans le modèle de régression vous incombe : c’est à
vous de décider lesquelles des variables sont pertinentes pour expliquer votre variable cible. Bien sûr
que les étapes précédentes comme les tableaux croisés, les Scatterplots et autres sont les éléments
sur lesquelles vous allez vous baser pour faire ces choix.
& %

12
5 Implémenter les statistiques descriptives
5.4.1 Régression avec Rcmdr

13