Vous êtes sur la page 1sur 6

La Plateforme DataOps

pour simplifier, accélérer et fiabiliser


la mise en production de vos projets
| Positionnement
Saagie est une plateforme DataOps dédiée aux Data Engineers

Pourquoi les Data Engineers? Pourquoi choisir Saagie ? Pourquoi adopter le DataOps?
Data scientists, engineers, analysts… On pourrait penser Gartner estime que monter soi-même sa plateforme data Gérer un projet data implique de nombreuses interactions
que monter son équipe - ou son data lab pour les plus prend entre 12 et 18 mois. Votre équipe a déjà des outils et itérations entre vos équipes, sans parler du fait qu’il
aguerris - consiste à rassembler des profils dont le mot préférentiels, des technologies sur lesquelles ils ont été faudra jongler entre les technologies préférées des uns et
“data” figure au descriptif de poste, à commencer par le formés et apprécient de travailler. Ne perdez pas votre des autres et de leurs versions. C’est là qu’entre en jeu le
plus connu, le data scientist. Mais imaginez que vous temps précieux à chercher les outils qui répondront à DataOps : annoncé comme le successeur logique du
souhaitiez démarrer une écurie de F1, est-ce que votre leurs attentes dans un marché data fragmenté et en DevOps pour les projets data, le DataOps est une
première embauche serait le pilote ? Non, et vous auriez évolution quotidienne, à les assembler et à les intégrer à approche technologique et organisationnelle qui a pour
raison. Vous opteriez sûrement pour l’ingénieur qui votre architecture en place. Notre plateforme DataOps but de fluidifier le déploiement des projets.
concevra la meilleure voiture : voilà le rôle du Data est conçue pour s’adapter à votre infrastructure, est Grâce à la plateforme DataOps, reprenez le contrôle sur
Engineer. totalement infogérée et correspondra à vos exigences de vos initiatives : créez et isolez vos projets, montez et
Le Data Engineer est le garant de la chaîne de production sécurité. exécutez des pipelines automatisés et profitez de
de la donnée, de son extraction à sa visualisation. Par dessus tout, Saagie intègre et orchestre les multiples environnements pour explorer,
Saagie permet aux data engineers de simplifier, standards du marché pour permettre à vos équipes de expérimenter et déployer en production. Saagie vous
d’accélérer et de fiabiliser la mise en production de démarrer le plus vite possible, qu’ils soient open source permet ainsi de gérer l’ensemble du cycle de vie de la
n’importe quel projet data. ou propriétaires. donnée tout en répondant à des critères de production, de
traçabilité et de sécurité.
| Proposition de valeur
La plateforme DataOps pour simplifier, accélérer et fiabiliser la mise en production de vos projets

Simplifier l’accès au technologies


Construire soi-même sa propre plateforme peut sembler attractif : les Ops peuvent garder la
main dessus, les équipes data peuvent la faire customiser pour répondre à leurs besoins.
Mais en réalité, une telle stack est difficile à configurer et maintenir dans le temps. Nous
mettons à votre disposition une plateforme prête à l’emploi qui rassemble et orchestre les
références du marché afin d’offrir un point d’entrée unique au meilleur de l’écosystème data.
Le tout est infogéré afin de leur permettre de se concentrer sur ce qui leur apporte de la
valeur et non plus sur la configuration ou la maintenance de l’outil qui le permet.

Accélérer la mise en production


Saagie est une plateforme conçue pour la production afin que vos projets tournent aussi
bien une fois déployés en production qu'ils le faisaient en phase exploratoire. Il vous suffit
de créer un projet, de choisir les technologies adaptées, de lancer vos traitements et de les
orchestrer en pipelines automatisés. Vous pouvez ensuite reproduire ces jobs et pipelines et
les promouvoir d’un environnement à l’autre. Plus simplement, nous vous donnons les
moyens de mettre en place une chaîne de production entièrement automatisée qu’il vous
sera possible de répliquer pour vos futurs projets.

Fiabiliser la gestion des projets


Chez Saagie, nous tâchons de faire rimer performance et sécurité. Nous orchestrons les
technologies qui vous permettront de gérer l’ensemble du cycle de vie de la donnée et nous
ajoutons à cela les fonctionnalités afin de tracer et de superviser chaque étape de ce cycle.
Vous pouvez ainsi isoler vos projets, en gérer les accès, superviser les statuts de vos jobs
mais aussi centraliser et stocker les logs pour suivre votre activité. Notre plateforme est
robuste et simplifie la configuration et la maintenance gérées par les Ops. Et une fois vos
projets en production, ils peuvent ainsi se concentrer sur l’amélioration continue de la
sécurité et de la performance de vos flux de données.
| Qu'est-ce que le DataOps ?
Sur les deux dernières années, seuls 53%
des POCs ont atteint la mise en
production, et ce en 9 mois en moyenne.
Gartner, 2020

Trois équipes sont directement impliquées dans un


projet data mais se retrouvent souvent bloquées par
une organisation en silos et des intérêts
divergents. Les métiers ont besoin de résultats
rapides, les équipes data d'agilité, et les ops de
contrôle sur leur architecture en place. Le DevOps repose sur deux concepts fondamentaux : Le DataOps, Gartner le définit comme " une pratique
collaborative de gestion des données axée sur
L’intégration continue consiste à construire, l’amélioration de la communication, l’intégration et
Les acteurs impliqués dans les projets data ont
intégrer et tester de nouveaux codes de façon l’automatisation des flux de données entre les métiers
tendance à négliger la mise en place de processus
répétée et automatisée. Cette méthode permet de données et les consommateurs de données ".
alors même que l'automatisation et le monitoring ont
d’identifier et de résoudre rapidement les
fait leur preuve. Selon Gartner, une entreprise sur trois Son but est d'opérationnaliser les processus
potentiels problèmes.
pointe pourtant du doigt le manque de pratiques analytiques en tirant parti d'un large et divers
Le déploiement continu automatise le
DevOps en cause principale de l'échec de leur projet. écosystème Big Data et des compétences des profils
déploiement ou la livraison de logiciels. Une fois
concernés.
qu’une application a passé l’ensemble des tests de
Les équipes ont besoin de technologies prêtes à qualification, le DevOps permet son passage en L'approche DataOps repose sur trois piliers qui sont :
l'emploi et orchestrées afin de gérer l'ensemble du production.
cycle d'un projet : extraction, préparation, traitement et L'orchestration par la conteneurisation, la mise à
exposition. 45% des entreprises ont indiqué leur l’approche DevOps permet l’alignement entre les
l'échelle / répartition avancée de la charge, la
choix technologique comme premier frein au équipes de développement / exploitation et
création de jobs et pipelines de données ou
déploiement de leur projet. l’automatisation de chacune des étapes de la
encore les modes batch / streaming.
création d’un logiciel, de son développement à son
déploiement, jusqu’à son administration.
Les projets data sont des processus dynamiques qui L'agilité grâce à l'implémentation de méthodes
évoluent continuellement en fonction des données, Plus concrètement, même si le DevOps offre agiles, la reproductibilité des jobs et pipelines, le
des personnes impliquées et des technologies automatisation, agilité et efficacité, son intérêt est versioning, le rollback et la portabilité entre
intégrées. limité lorsqu’il s’agit de créer des applications qui environnements.
traitent et analysent les données de façon
Le DataOps, successeur logique du DevOps dans continue. L’un des aspects particuliers lié aux projets Le contrôle par un certain niveau de traçabilité, le
les monde des données, est une approche agile qui Data & Analytics consiste à construire et maintenir un monitoring, la centralisation des logs, l'isolation
a pour but de fluidifier le déploiement des projets. pipeline de données (ou flux de données). réseau et la gestion de la sécurité.
| La Plateforme DataOps
| Features
Contrôle pour les Ops
Assurez sécurité et performance avec la Plateforme DataOps
Tirez parti d'un cluster pré-configuré dont la maintenance et la mise à
jour sont automatisées et basé sur les standards d'orchestration
Docker et Kubernetes ;
Travaillez sur un data lake compatible avec Kerberos ;
Contrôlez l'accès aux données :
la gestion des accès utilisateurs par groupe et profil ;
les autorisations Sentry ;
la protection des datasets.
Isolez les projets et améliorez la traçabilité par :
Agilité pour les équipes data la centralisation et l'historique des logs ;
Travaillez en toute autonomie avec la Plateforme DataOps la possibilité de les transférer vers un gestionnaire de logs (ELK,
Splunk, CloudWatch) ;
Démarrez votre projet dès maintenant sur un cluster de
les notifications de statut des jobs et pipelines.
traitement pré-configuré ;
Ordonnancez vos jobs dans Saagie ou au travers d’un ordonnanceur
Créez des projets et assignez des utilisateurs de votre équipe ;
externe ($U, Control-M, Tivoli/Websphere Workload Scheduler) et
Collaborez dans un environnement isolé et sécurisé, pour chacun
supervisez leurs statuts (via UI ou API).
de vos projets ;
Créez des jobs afin de gérer l'ensemble du cycle de vie de la
donnée, de son extraction à son exposition ;
Sélectionnez la technologie de votre choix pour chacune des étapes :
extraction, préparation, traitement, exposition ;
Concevez et exécutez des pipelines multi-frameworks automatisés ;
Intégrez Saagie à vos pipelines de CI/CD par des plugins et APIs ;
Rendez vos travaux reproductibles : exécutez vos jobs de
processing de l’exploration à la production ;
Supervisez les statuts de jobs (par auteur ou catégorie), les logs, les
instances et historiques de versions ainsi que les ressources
allouées.
| Les technologies orchestrées
Technologies supportées Concevez et exécutez des Catalogue d'applications
pipelines automatisés

Python Java R Studio Jupyter


2.7, 3.5, 3.6, 3.7 7, 8, 11

Zeppelin Nifi
Spark Sqoop
2.4, 3.0 1.4.6

Sélectionnez vos technologies


Démarrez immédiatement en assemblant des
frameworks prêts à l’emploi et leurs différentes
versions venant du monde commercial et open Grafana Kibana
R Bash source.

3.4.4, 3.5.3, 3.6.2, Debian9 stretch Rendez vos travaux reproductibles Technologies externes
3.6.3, 4.0 AWS, Azure, GCP Remplissez des critères de production grâce à nos Ajoutez les technologies que vous souhaitez grâce
capacités de conteneurisation et exécutez vos jobs au Kit de Développement technologique de
de traitement de l’exploration à la production. Saagie (SDK). Packagez vos technologies,
applications et leurs dépendances et librairies dans
Lancez vos jobs en pipelines des images Docker afin de créer vos propres
Construisez des flux pour exécuter vos jobs d’ETL, de contextes d'exécution. Exécutez vos jobs et apps
Docker Talend pré-processing et de processing et gérez le cycle de directement au sein de Saagie, sur notre cluster
vie de la donnée grâce au versioning et aux logs. Kubernetes.

Vous aimerez peut-être aussi