Vous êtes sur la page 1sur 53

Gestion de projet Big Data

Master 2
Déroulement des 3 sessions
Jour 1 : Projet Big Data
Jour 2 : La méthode agile
Jour 3 : Evaluation (Questions + Etude de cas)
Gestion de projet - Vérification des acquis
1/ Qu’est ce qu’un projet ?
2/ Les grandes étapes d’un projet ?
3/ Qu’est ce qu’un cycle en V ?
4/ La méthode agile ?
5/ Les qualités d’un chef de projet ?
6/ Un projet Big Data, c’est quoi ?
Qu’est-ce qu’un projet ?
PMI® (Project Management Institute – USA) – PMBOK® Guide 5e édition, 2013 (Project Management
Body of Knowledge – Guide).
Un projet est une entreprise temporaire initiée dans le but de fournir un produit, un service ou un
résultat unique.
Temporaire signifie que tout projet a un début et une fin déterminés.
PRINCE2™ (PRINCE2™ est une marque déposée de Axelos, 2013)
Un projet est une organisation temporaire, créée en vue de livrer un ou plusieurs produits du projet
conformément à un Cas d’Affaire convenu.
L’ensemble des actions est appelé « œuvre », d’où la notion de « maître d’œuvre » qui désigne celui
qui réalise le projet.
Le résultat de cet ensemble d’actions est appelé « ouvrage », d’où la notion de « maître d’ouvrage »
qui désigne celui qui est propriétaire du résultat du projet.
Les grandes étapes d’un projet ?
Cycle en V
Les qualités d’un chef de projet
Part 1
QU’EST-CE QU’UN PROJET BIG DATA ?
Principe d’un projet Big Data

Acquisition Traitement Restitution


Principe d’un projet Big Data

Source : https://www.cyres.fr/
Exemples de cas d’usage
Les cas d’usages sont multiples :
◦ ASSURANCE : Objets connectés – Collecter en temps réel des données des voitures pour analyser la
conduite des clients pour les facturer en fonction

◦ FINANCE : Publication des chiffres d’un groupe

◦ BANQUE : Analyse de fraude – Collecter les données clientes pour alimenter un datalab pour analyser
les comportements frauduleux de certains clients

◦ RESEAU FERROVIAIRE : Supervision de l’activité en temps réel

◦ MARKETING : Ciblage marketing en analysant le comportement des personnes


Exemples de projets Big Data

Projet de reporting Financier

Projet SKU (SKype Usage)


Exemple de projets Big Data
Projet SCAD
Spécificités d’un projet Big Data
Un projet BIG DATA = Transversale et complexité accrue par rapport à des projets « classiques » et donc
des coûts souvent plus élevés

• Multiplicité des sources de données


Contextuelle
• Multiplicité des cas d’usage

• Caractère transversal (marketing, créatifs…),


Organisationnelle • Externalisation / internalisation,
• Rattachement des équipes

• Equipe multidisciplinaire
Ressources
• Formation et veille dans un contexte d’innovation permanente
humaines
• Risque de turn-over important
Projet Big Data : Méthodologie

◦ Choix stratégique des solutions en amont


◦ Identification des besoins métiers
◦ Identification des contraintes techniques associées (temps réel, volumétrie importante…)
◦ Phase d’expérimentation (Proof Of Concept ou Projet pilote)
◦ Conduite de projet en mode agile
◦ Modèles prédictifs dans certains cas
◦ Evolution de la démarche ETL (Extract-Transform-Load) en ELT et ELTL
◦ Workflow type d’un Data Scientist (imaginer, collecter, préparer, modéliser, visualiser, optimiser,
déployer)
◦ Cycle de vie des données et nécessité d’avoir une stratégie de gouvernance des données
Projet Big Data : Spécificités technologiques
Les 7V (Volume, Velocity, Variety, Variability, Veracity, Visualization, Value)

◦ Technologies et architectures spécifiques pour traiter des données massives non structurées
(architecture Hadoop / architecture Lambda)
◦ Théorème CAP (Consitency / Availability / Partition Tolerance)
◦ Difficulté à avoir des transactions ACID (atomicité, cohérence, isolation et durabilité)
◦ Différentes catégories de bases de données NoSQL (BDOA et BDOG)
◦ Automatisation du traitement parallèle (algorithme Map Reduce et framework Hadoop, écosystème
autour d’Hadoop, autres solutions notamment pour les traitements interactifs)
◦ Solutions Big Data proposées en mode Cloud (PaaS et DaaS)
Rôles clés : CHIEF DATA OFFICER (CDO)
Il est le Directeur de la data, le gardien de l’éthique.
Il est à la tête d’une équipe spécialisée dans l’acquisition, l’analyse et l’exploitation des données.
Ses missions :
◦ Sa fonction consiste à la gouvernance de son équipe pour l’approvisionnement des données les plus
pertinentes et cohérentes pour l’intérêt de l’entreprise.
◦ Il organise le partage de leur analyse avec les directions métiers, et fait respecter l’éthique en matière
d’usage de ces informations.
◦ Il s’appuie, avec son équipe, sur des connaissances pointues en statistiques, informatique et numérique
pour donner des repères à chaque département : marketing, ressources humaines, ingénierie, service
qualité, comptabilité et gestion.
Rôles clés : ARCHITECTE BIG DATA
Les architectes de données élaborent des schémas pour des systèmes de gestion de données. Le
rôle de l’architecte Big Data est d’agréger les données internes et externes, pour ensuite
concevoir un moyen de les regrouper et de les organiser.
Ses missions :
◦ Définir une stratégie de données correspondants aux besoins du métier
◦ Cartographier les données nécessaires pour implémenter l’architecture
◦ Identifier et évaluer les technologies de gestion des données
◦ Préconiser des solutions

Il va ensuite dessiner, documenter, construire et déployer des architectures et des applications


de base de données. Les fonctionnalités techniques comme la scalabilité, la sécurité, la
performance, la data recovery sont ensuite intégrées.
Rôles clés : DATA PROTECTION OFFICER
Le 26 avril 2016 : le Parlement européen a publié son Règlement européen sur la protection des
données (RGPD). L’article 37 de ce règlement oblige les entreprises et administrations qui
traitent des données sensibles à grande échelle à employer une personne chargée d’assurer la
sécurité et la conformité de ces données à partir du 25 mai 2018 dernier délai.
Ses missions :
◦ Informer et conseiller le responsable du traitement quand aux obligations en matière de protection des
données personnelles ; cela implique de mener des actions de sensibilisation et de formation
◦ Contrôler le respect du RGPD - au travers d’audit de mise en conformité
◦ Dispenser des conseils sur demande - notamment en ce qui concerne la PIA
◦ Gérer les interactions avec la CNIL (ou toute autre autorité de contrôle) et à ce titre, fait office de point
de contact avec elle
Rôles clés : DATA SCIENTIST
Son rôle est de créer pour les métiers de l’entreprise des algorithmes qui produisent des
informations utiles, notamment afin de proposer aux clients, les produits qu’ils recherchent.
Ses missions :
◦ Collecter et convertir de larges quantités de données
◦ Détecter des tendances dans les ensembles de données
◦ Résoudre les problèmes de l’entreprises grâce aux données
◦ Communiquer avec les différents responsables de l’entreprise
◦ Rédiger des rapports pour la direction

Ce sont des profils qui mélangent des compétences en management, informatique et


statistiques. Ils maîtrisent les techniques du datamining, ainsi que les technologies et les outils
informatiques des bases de données tels que Hadoop, Java, MapReduce, Bigtable, NoSQL…
Rôles clés : Ingénieur Big Data
Le Data Engineer définit, développe, met en place et maintient les outils et infrastructures
adéquats à l’analyse de la donnée par les équipes de Data Science. Il veille à créer une solution
permettant le traitement de volumes importants de données tout en garantissant la sécurité de
celles-ci. Il représente le premier maillon de la chaîne de traitement de données.
Ses missions :
◦ Valoriser les données de l’entreprise
◦ Concevoir et gérer les applications Big Data de l’entreprise
◦ Veille technologique
Rôles clés : L’administrateur/Intégrateur
L’administrateur/intégrateur est une fonction côté infrastructure qui aide les équipes Big Data à
intégrer leurs solutions et leurs données dans les différents environnement.
Ses missions :
◦ Intégrer les données dans les différents cluster
◦ Assurer un support sur les différents environnements
◦ Assister les data engineer dans les normes pour la mise en production

La fonction d’administrateur/Intégrateur est clé dans le Big Data. C’est un profil qui doit bien connaitre
tant l’administration système que les différentes technologies du Big Data
L’équipe en charge du projet BIG DATA
L’implication nécessaire et
Métiers indispensable de la DSI et des
Directions Métiers
Il est important de bien clarifier
l’équipe au début du projet pour
pouvoir la sécuriser

IT (Infrastructure
Data science
& Dev team)
Cas d’un projet de datascience

Imaginer Collecter Préparer Modéliser Visualiser Optimiser Déployer

Imaginer : compréhension et définition de la problématique métier, identification des besoins, la définition des
objectifs, la formulation rigoureuse du besoin ou de l’opportunité métier, le seuil de signification envisageable,
études de cas
Collecter : la disponibilité et la qualité des données, les sources traditionnelles de données (dont enjeux politiques
internes), les nouvelles sources de données (dont open data et réseaux sociaux), les formats de données,
l’acquisition des données (Crawling, Scraping…), la législation, le stockage des données massives (lac de données,
entrepôt, cache d’analyse), la stratégie de gouvernance des données
Cas d’un projet de datascience
Préparer : les techniques de nettoyage, d’homogénéisation des formats et de mise à l’échelle, l’enrichissement
des données massives, les technologies sémantiques, l’organisation de l’information pour optimiser l’analyse des
données, exemples (dont Pig et Hive)
Modéliser : l’approche itérative, les données prédictives, le machine learning, le « feature engineering »,
l’exploration et l’analyse (par lot ou en temps réel), la création de nouvelles informations (par identification,
corrélation, agrégation ou projection de l’ensemble des données précédemment transformées), la réduction
dimensionnelle (quand nécessaire), les techniques prédictives (régressions, règles d’association, classification), les
techniques exploratoires (acp, afc, clustering), l’interprétabilité de l’algorithme, 8 exemples d’algorithmes, études
de cas (segmenter une population, analyser l’opinion sur la base de verbatims)
Visualiser : l’importance de la visualisation des données, les rudiments à connaître (html5, javascript, librairies), le
recours à des applications de data visualisation (tableau software, microsoft power BI), les échanges avec les
utilisateurs métiers, exemples de représentations graphiques (les plus couramment utilisées)
Optimiser : la démarche agile et le cycle itératif, les principaux tests et optimisations réalisables, le déploiement,
exemples (dont valorisation des données et intégration de modèles prédictifs)
Déployer : l’industrialisation de la chaîne de traitement, le changement d’échelle, la possible réécriture du code,
la gestion de l’après-projet, la maintenance des applications et des données
Principaux risques
Conduite de projet Partage des données Juridiques Financiers
• Exigences et • Difficulté à mobiliser les • RGPD • Estimations budgétaires
spécifications opérationnels, • DCP (Données à mal cadrées
incomplètes obstruction Caractère Personnel), • Absence de mesure du
• Exigences irréalistes ou • Peu d’utilisateurs finaux agrégation de données ROI
trop innovantes • Difficulté à casser les • CNIL
• Ne pas douter des silos entre métiers ou • Propriété intellectuelle,
données équipes exemples
• Difficulté à « montrer »
le travail qui a été
réalisé
• Généraliser trop vite les
premiers résultats
obtenus
A vos idées…

Objectif :

Trouver des cas de projet Big data que vous


rencontrez au quotidien
Gouvernance de données (1/2)
La gouvernance de données, c’est l’ensemble des organisations et des procédures mises en
place au sein d’une entreprise afin d’encadrer la collecte de données et leur utilisation.
Objectifs :
- Respecter les obligations légales
- Optimiser l’utilisation des données
- Minimiser les risques opérationnels
- Donner de la cohérence et de la pertinence aux données
- Partager une vision commune
Gouvernance de données (2/2)
4 points importants :
- La disponibilité des données
- L’utilisabilité des données
- L’intégrité des données
- La sécurité des données
Part 2
LA MÉTHODE AGILE
Vérification des acquis du Jour 1
1/ Etape d’un projet Big Data ?
2/ Exemple de use case ?
3/ Les 7V ?
4/ Les rôles clés ?
5/ Le Chief Data Officer ?
6/ Les risques ?
Klaxoon – Qu’est ce que l’agile ?

Objectif :

Quand vous entendez parler Agile, qu’est ce que


cela vous évoque ?

https://app.klaxoon.com/animate/
board/AHSWRGQ
Projet en mode Agile : Les concepts (1/2)
Projet en mode Agile : Les concepts (2/2)

Ø Vision produit
Ø Approche itérative et empirique
Ø Eviter l’effet tunnel
Ø Accélérer le « Time To Market »
Ø Différentes méthodes agile : Scrum, eXtreme Programming, RAD, Chrystal Clear,...

=> SCRUM est la méthodologie la plus utilisée


Conduite de projet en mode Agile Scrum
Conduite de projet en mode Agile Scrum
Planification du Sprint (Sprint = itération) : au cours de cette réunion, l'équipe de développement
sélectionne les éléments prioritaires du « Product Backlog » (liste ordonnancée des exigences
fonctionnelles et non fonctionnelles du projet) qu'elle pense pouvoir réaliser au cours du sprint (en
accord avec le « Product Owner »).
Revue de Sprint : au cours de cette réunion qui a lieu à la fin du sprint, l'équipe de développement
présente les fonctionnalités terminées au cours du sprint et recueille les feedbacks du Product Owner
et des utilisateurs finaux. C'est également le moment d'anticiper le périmètre des prochains sprints et
d'ajuster au besoin la planification de release (nombre de sprints restants).
Rétrospective de Sprint : la rétrospective qui a généralement lieu après la revue de sprint est
l'occasion de s'améliorer (productivité, qualité, efficacité, conditions de travail, etc) à la lueur du
"vécu" sur le sprint écoulé (principe d'amélioration continue).
Mêlée quotidienne : il s'agit d'une réunion de synchronisation de l'équipe de développement qui se
fait debout (elle est aussi appelée "stand up meeting") en 15 minutes maximum au cours de laquelle
chacun répond principalement à 3 questions : « Qu'est ce que j'ai terminé depuis la dernière mêlée ?
Qu'est ce que j'aurai terminé d'ici la prochaine mêlée ? Quels obstacles me retardent ? »
Les trois piliers de Scrum
• Les aspects • Les utilisateurs de • Lors d’un contrôle si
La Transparence

L’adaptation
L’Inspection
importants du Scrum doivent un ou plusieurs
processus doivent régulièrement passer aspects d'un
être visibles. en revue les artefacts processus sortent des
• La transparence et l’état d’avancement limites acceptables
implique que soit par rapport aux et/ou que le produit
définis un standard objectifs afin de résultant risque d’être
commun que les détecter les écarts inacceptable, le
observateurs indésirables. processus ou le
partagent. développement en
cours doit être ajuste.
Les Valeurs du Scrum

• Les membres de l’équipe Scrum ont le courage de


réaliser la bonne chose et de travailler sur des
problèmes difficiles
• Tout le monde se concentre sur l’objectif du Sprint
• Les membres de l’équipe Scrum s’engagent
personnellement a la réalisation des objectifs de
l’équipe Scrum
• Les membres de l’équipe Scrum respectent les
compétences et l’autonomie de chacun
• L’équipe Scrum et les parties prenantes acceptent de
partager l’ensemble du travail effectue ainsi que les
défis qu’il représente
Rôle : Product Owner (1/2)
Le Product Owner est responsable de maximiser la valeur du produit et du travail de l’équipe de
développement.
La façon de jouer ce rôle peut varier grandement selon les entreprises, les Equipes Scrum et les
individus.
Le Product Owner est la seule personne responsable de gérer le Product Backlog :
◦ Exprimer clairement les items du Product Backlog ;
◦ Ordonner les items du Product Backlog pour mieux réaliser les objectifs et missions;
◦ Optimiser la valeur du travail effectue par l’équipe de développement;
◦ S’assurer que le Product Backlog est visible, transparent, et clair pour tous, et qu’il montre ce sur quoi
l’Equipe de Développement travaillera prochainement;
◦ S’assurer que l’équipe de développement comprend les items du Product Backlog.
Rôle : Product Owner (2/2)
Le Product Owner peut faire lui même ce travail ou le faire réaliser par l’équipe de
développement et/ou des utilisateurs métier. Toutefois, le Product Owner en demeure
responsable (Accountable)

Le Product Owner est une personne, et non un comite

Toute l’organisation doit respecter les décisions du Product Owner

Si des changements sont souhaités par l’organisation, ils doivent être portés par le Product
Owner

L’équipe de développement ne travaille que sur les éléments qui lui sont confiés par le Product
Owner
Rôle : L’équipe de développement
L’équipe de développement est composée de professionnels qui livrent à chaque sprint un
incrément ≪ termine ≫ et potentiellement livrable du produit.
Seuls les membres de l’équipe de développement réalisent l’incrément;
L’équipe de développement est structurée et habilitée par l’organisation à organiser et gérer son
propre travail
Elle est pluridisciplinaire, ayant toutes les compétences nécessaires pour mettre en œuvre un
incrément du produit.
Même si individuellement, ses membres peuvent être spécialises (compétences ou domaines
fonctionnels), la responsabilité appartient a l’équipe de développement dans son ensemble
L’équipe de développement doit être assez petite pour demeurer agile et assez grande pour
effectuer du travail significatif : 6 personnes* +/- 3(* hors Product Owner et Scrum Master)
Rôle : Le Scrum Master
Le Scrum Master est responsable de la compréhension et de l’application de Scrum. Pour cela il
ou elle s’assure que l’équipe Scrum adhère aux valeurs, pratiques et règles de Scrum;
Le rôle de Scrum Master est celui de meneur au service de l’équipe (ServantLeader);
Le Scrum Master aide les personnes extérieures a l’équipe Scrum à comprendre lesquelles de
leurs interactions sont utiles et lesquelles ne le sont pas;
Le Scrum Master apporte son aide pour changer ces interactions afin de maximiser la valeur
créée par l’équipe Scrum;
Pourquoi spécifier les besoins ?
Comment spécifier les besoins ? (1/2)
Comment spécifier les besoins ? (2/2)
Une bonne user story
C’est une fonction métier compréhensible et utilisable par un utilisateur
Ceci est nécessaire pour que l’avancement du projet soit basé sur des fonctionnalités livrées (avec le
niveau de finition attendu)
C’est un Use Case, une fonction ou un fragment, ou une partie de Use Case /fonction/fragment dont :
◦ La ≪ bonne ≫ durée de conception ainsi que la durée de réalisation tourne autour d’1/2 itération
◦ Pour limiter l’effet tunnel
◦ Faciliter l’ordonnancement des travaux
◦ Pour maximiser le nombre de stories terminées en fin d’itération

En synthèse :
◦ Un Cas d’utilisation, une fonction, .. est strictement une vue fonctionnelle ou utilisateur
◦ Une story est une vue fonctionnelle qui prend en compte les nécessités d’ingénierie (découpage du Use Case
en de multiples stories qui peut être implémentée en 1 itération)
A vos stylos…

Objectif :

Chacun écrit 2 user stories sur les post-it

Vous avez 10 minutes


Product backlog (1/2)
La liste des fonctionnalités du produit que doit développer la ou les équipes se trouve dans le Product
Backlog.
Le Product Owner est responsable de ce backlog, de son contenu, de sa publication ainsi que de la
priorisation des éléments qu’il contient.

◦ Le Product Backlog n’est jamais complet.


◦ La version préliminaire du Product Backlog contient généralement les besoins que l’on connait actuellement et
ceux que l’on comprend le mieux.
◦ Le Product Backlog est dynamique; il évolue au fur et a mesure que le produit et l’environnement dans lequel
il sera utilise évoluent.
◦ Il change constamment et reflète notre compréhension de ce que devrait être un produit utile et compétitif.
◦ Tant que le produit existera, le Product Backlog connexe existera.
◦ Le Product Backlog contient tout ce qui est nécessaire pour développer et livrer un produit qui sera un succès.
◦ Il s’agit de la liste des fonctionnalités, technologies, améliorations et correctifs qui correspondent aux
changements qui devront être apportes au produit lors des livraisons futures.
Product backlog (2/2)
Niveaux de planification
Estimation agiles
Ø Estimer les story points : La mesure de l’effort pour estimer notre vélocité
Ø Plusieurs méthodes :
o Planning poker
o Bucket System
o T-Shirt Size
o …

Plus nous avançons dans le projet et plus nous sommes juste sur l’estimation de notre vélocité
L’agile c’est …

Vous aimerez peut-être aussi