Vous êtes sur la page 1sur 6

IBM Analytics Industry Identifier

Fiche produit

Plateforme de données
Hortonworks
Une plateforme à architecture ouverte pour
gérer les données en mouvement et au repos

Chaque entreprise est à présent reliée aux données mobiles Les


données sont le futur et l’atout le plus précieux de votre
Points clés organisation. La plateforme de données Hortonworks (HDP) est une
• Répond à différents cas d’utilisation de distribution Apache Hadoop open source adaptée à l’entreprise et
données au repos hautement sécurisée reposant sur une architecture centralisée
(YARN). HDP répond aux besoins des données au repos, optimise
• Alimente des applications client en les applications clients en temps réel et fournit des analyses
temps réel
robustes permettant d’accélérer la prise de décision et l’innovation.
• Fournit des analyses robustes
La différence Hortonworks
HDP aide les entreprises à transformer leurs activités en débloquant
le plein potentiel des big data avec les avantages suivants :

Ouvert Central Interopérable Adapté à


l’entreprise
HDP est composé YARN est le centre Son architecture HDP est conçu
de nombreux d’architecture open source à pour les entre-
projets d’Apache d’Open-Enterprise 100% permet à prises. Open-en-
Software Foun- Hadoop. Il alloue HDP d’être intero- terprise Hadoop
dation (ASF) qui des ressources pérable avec une fournit un
permettent aux entre les diverses large gamme d’ap- fonctionnement
entreprises de applications plications de centre cohérent, avec
déployer, d’intégrer qui traitent des de données et de une gestion cen-
et de travailler avec données. YARN veille d’affaires. tralisée et une
des volumes sans coordonne les L’interopérabilité surveillance des
précédent de don- services à l’échelon de HDP permet clusters à travers
nées structurées du cluster pour les de minimiser les un écran unique.
et non-structurées. opérations, la gou- dépenses et les Avec HDP, la
L’approche d’ASF vernance des don- efforts nécessaires sécurité et la
consiste à fournir nées et la sécurité. pour connecter gouvernance
des logiciels de YARN maximise les infrastructures sont intégrées
qualité profession- également l’inges- informatiques des à la plateforme.
nelle qui favorisent tion de données clients aux capaci- Cette fonction-
l’innovation et em- en permettant aux tés de traitement nalité permet
pêchent l’enferme- entreprises d’analy- et de données de de fournir un
ment propriétaire. ser les données de HDP. Avec HDP, environnement
façon à prendre en les clients peuvent sécurisé riche
charge divers cas conserver leur in- uniformément
d’utilisation. vestissement dans administré à
Ce processus per- l’architecture infor- travers les mo-
met aux opérateurs matique existante teurs d’accès aux
Hadoop d’étendre lorsqu’ils adoptent données.
en toute confiance Hadoop.
leurs ressources
de big data à l’au-
dience la plus large
possible au sein de
leurs organisations.
IBM Analytics Industry Identifier
Fiche produit

La plateforme de données Hortonworks des ressources et l’architecture enfichable afin


HDP offre une distribution Hadoop open source, d’activer une grande variété de méthodes d’accès
adaptée à l’entreprise et hautement sécurisée fondée aux données.
sur une architecture centralisée. HDP répond à
Accès aux données
différents cas d’utilisation de données au repos,
Avec YARN en son centre d’architecture, HDP fournit
optimise les applications clients en temps réel et
différents moteurs de traitement qui permettent aux
fournit des analyses robustes permettant d’accélérer
utilisateurs d’interagir avec des données
la prise de décision et l’innovation.
simultanément et de plusieurs façons. YARN permet
Gestion des données la coexistence de différentes méthodes d’accès dans le
Les composants fondamentaux de HDP sont Apache même cluster contrairement aux ensembles de
Hadoop YARN et le système de fichier distribué données partagées. Cette fonctionnalité évite les silos
d’Apache Hadoop (HDFS). Tandis que HDFS fournit de données inutiles et coûteux. HDP permet
un stockage évolutif, économique et tolérant les l’utilisation de plusieurs moteurs de traitement de
défaillances pour un grand lac de données, YARN données, allant du langage de requête structuré
propose l’architecture centralisée qui permet aux interactif (SQL) et du streaming en temps réel à la
organisations de traiter plusieurs charges de travail science des données et au traitement par lots pour
simultanément. YARN fournit également la gestion utiliser les données stockées sur une seule plateforme.

INTEGRATION DE LA
OUTILS SÉCURITÉ OPÉRATIONS
GOUVERNANCE

Zeppelin Vues utilisateur Ambarir


Cycle de vie et Administration Provisionnement,
gouvernance des données Authentification gestion et suivi
Autorisation
ACCÈS AUX DONNÉES
Audit
Falcon Protection des données
Lot Scénario SQL NoSQL Flux Rechercher In-Mem Autres Ambari
Atlas
Réduire Pig Hive Hbase Storm Solr Spark Ingénieurs
carte Accumilo ISV Ranger Cloudbreak
Phoenix Partenaires
Flux de données Knox ZooKeeper

Sqoop Tez Tez Curseur Curseur S L Atlas


Planification
Flume HDFS Encryption
YARN : SYSTÈMES D'EXPLOITATION DES DONNÉES
Kafka Oozie
HDFS
NFS Système de fichier distribué de Hadoop

WebHDFS
GESTION DES DONNÉES

Figure 1 : La sécurité Hadoop de nouvelle génération

2
IBM Analytics Industry Identifier
Fiche produit

Sécurité et gouvernance données et la gouvernance soient intégrées dans leurs


À mesure que les organisations mettent en application grands environnements de big data, les entreprises
les initiatives Hadoop pour saisir de nouvelles peuvent tirer pleinement parti des analyses avancées
opportunités en matière d’informations tirées de sans exposer leur activité à de nouveaux risques.
données, la gouvernance des données et les exigences de
sécurité peuvent constituer un défi de taille. En réponse Gouvernance
à ce défi, un consortium de leaders interprofessionnels À mesure que les organisations mettent en application
nommé Data Governance Initiative (DGI) a été créé pour les initiatives Hadoop pour saisir de nouvelles
répondre à la nécessité d’une solution de gouvernance opportunités en matière d’informations tirées de
open source visant à gérer la classification, l’origine et la données, les exigences concernant la gouvernance des
sécurité des données ainsi que la gestion du cycle de vie. données peuvent constituer un défi de taille. La
gestion de l’information visant à en identifier la valeur
Apache Atlas, créé dans le cadre de DGI, permet aux et permettre d’assurer le bon contrôle, la sécurité et la
organisations d’appliquer une classification cohérente conformité des données de clients et d’entreprises est
des données dans l’écosystème de données. Apache une exigence essentielle pour les architectures
Ranger fournit une administration centralisée de traditionnelles et les architectures de big data.
gestion de la sécurité pour Hadoop. En intégrant Atlas
à Ranger, Hortonworks permet aux entreprises de Fonctionnement
mettre en place des politiques d’accès dynamiques Le fonctionnement de HDP est conçu pour permettre
lors de l’exécution qui permettent de prévenir les aux services informatiques de mettre en ligne Hadoop
violations de manière proactive. rapidement en éliminant les approximations liées aux
processus manuels et en les remplaçant par de
Cette intégration permet aux entreprises de mettre en meilleures pratiques automatisées et préconfigurées,
œuvre des stratégies de sécurité dynamiques reposant des configurations guidées et un contrôle total des
sur la classification. La plateforme centralisée de Ranger opérations. Le fonctionnement de HDP permet de
permet aux administrateurs de données de définir une simplifier l’exploitation des moteurs d’accès distribués
politique de sécurité basée sur des balises de multi-utilisateurs, multi-locataires et multidata et de
métadonnées ou des attributs Atlas. Ils peuvent ensuite gérer les clusters HDP à l’échelle via une interface
appliquer cette politique en temps réel à l’ensemble de la utilisateur Web intégrée ou un écran unique.
hiérarchie des ressources de données, y compris les
bases de données, les tables et les colonnes. HDP utilise Apache Ambari, une plateforme de gestion
open source visant à provisionner, gérer, surveiller et
Sécurité sécuriser les clusters Hadoop. Ambari supprime les
Un lac de données alimenté par Hadoop peut constituer tâches manuelles souvent sujettes aux erreurs
une base solide pour une nouvelle génération d’analyses associées à l’utilisation de Hadoop. Il fournit
et d’informations. Il est toutefois important de sécuriser également les points d’intégration nécessaires pour
les données avant de démarrer ou d’étendre une s’adapter de manière transparente à l’entreprise.
initiative Hadoop. En veillant à ce que la protection des

Apache
Storm
Politique basée sur la
classification

CACHE DE
ENTITÉS
DANS ATLAS RESOURCES
PDP Politique basée sur
LAC DE la restriction
DONNÉES Cadre Metastore
Falcon de notification
Pipelines Mots clés
Atouts
RANGER
Sujets Politique basée
Fichier Tables Entités
Client Atlas sur le temps
HDFS HBase
S'abonner
Tables au sujet

Hive Obtenir des


mises à jour de
métadonnées Politique basée
sur l'emplacement
Lorem ipsum

Apache
NiFi

Figure 2 : La sécurité Hadoop de nouvelle génération

3
IBM Analytics Industry Identifier
Fiche produit

Options de déploiement HDP pour les équipes


HDP offre différents choix d’infrastructure afin de Le déploiement réussi de Hadoop dans n’importe
déployer une plateforme de données ouverte et quelle organisation dépend de l’utilisation
flexible. Les utilisateurs ont la possibilité de d’ensembles de compétences et de ressources
combiner les options d’infrastructure qui existantes pour adopter l’architecture des big data.
conviennent le mieux à leurs cas d’utilisation HDP fournit des outils précieux et attribue des
spécifiques. compétences à tous les niveaux de votre équipe en
charge des big data.
Sur site
De nombreuses organisations ayant investi dans L’expert en données massives
l’infrastructure de centre de données et les services Apache Spark, qui fait partie de HDP, joue un rôle
administrés et qui envisagent à présent les important en matière de science des données. Les
fonctionnalités Hadoop considéreront experts en données massives utilisent couramment
l’implémentation sur site comme une option viable. l’apprentissage machine, un ensemble de techniques
HDP est conçu pour être facilement déployé sur site et d’algorithmes ayant la capacité de tirer des
afin de s’intégrer aux centres de données existants. enseignements des données. Ces algorithmes sont
souvent itératifs et la capacité de Spark à mettre en
Cloud cache les données en mémoire accélère
HDP peut être déployé dans le cloud dans le cadre considérablement le traitement itératif des données,
d’Azure HDInsight de Microsoft. Azure HDInsight est ce qui en fait un moteur de traitement idéal pour la
une offre de services administrés sur le cloud de mise en œuvre d’algorithmes de ce genre.
Microsoft Azure optimisée par HDP. Cette option de
déploiement permet aux organisations de passer de L’analyste commercial
téraoctets à pétaoctets (PB) en ce qui concerne les HDP fournit aux analystes commerciaux un accès
données à la demande en faisant tourner un nombre rapide à de grandes quantités de données via SQL
quelconque de nœuds à tout moment. Avec sur les interfaces Hadoop fournies par Apache Hive,
HDInsight, les entreprises peuvent également Spark SQL et Apache Phoenix. Grâce à ces interfaces,
connecter leurs clusters Hadoop locaux au cloud. les analystes commerciaux peuvent utiliser leurs
outils de renseignements d’affaires et d’analyse
Nuage hybride et Cloudbreak décisionnelle préférés pour créer des rapports, des
Cloudbreak est une solution pour provisionner des visualisations, des tableaux de bord et des feuilles de
clusters Hadoop sur une infrastructure en nuages. résultats afin de prendre des décisions éclairées et
Cloudbreak, qui fait partie de HDP et qui est plus efficaces.
optimisé par Apache Ambari, aide les entreprises à
simplifier l’approvisionnement des clusters dans le Le développeur
cloud et à optimiser l’utilisation des ressources HDP fournit un ensemble d’outils variés pour les
cloud avec une mise à échelle flexible. Il est conçu développeurs d’applications, tels que Spark et
pour les clients disposant d’un déploiement Hadoop Apache Zeppelin. HDP propose également un
sur site et souhaitant configurer des clusters dans le ensemble d’interfaces de programme d’application
cloud plus facilement. Avec Cloudbreak, les clients (API) natives qui facilitent le développement :
peuvent choisir le fournisseur de cloud de leur choix WebHDFS fournit une interface REST pour écrire,
et laisser Cloudbreak configurer le cluster dans le manipuler et supprimer les fichiers HDFS, tandis
cloud. que WebHCAT fournit un point d’intégration
essentiel pour accéder aux métadonnées et au
schéma des données Hadoop.

4
IBM Analytics Industry Identifier
Fiche produit

Opérateurs Hadoop Conclusion


Les données constituent un outil fondamental pour
Grâce à Ambari, les opérateurs Hadoop bénéficient toutes les entreprises, tous secteurs confondus. Elles
des avantages suivants pour rationaliser les déterminent la façon dont vous développez de
opérations Hadoop : nouveaux produits et services, l’efficacité avec
laquelle vous opérez, etc. HDF gère les données en
• Mises à niveau plus flexibles : Ambari offre un mouvement en aidant à acquérir et à transporter des
moyen plus rapide de mettre à niveau les clusters données en toute sécurité vers le HDP. HDP gère les
en automatisant la maintenance et les nouvelles données au repos pour pratiquement tous les types
fonctionnalités lorsque le cluster est en panne de données, avec une gouvernance, une sécurité et un
• Opérations de sécurité simplifiées : Les fonctionnement de niveau professionnel, ce qui
configurations de service pour Ranger permet ainsi à votre entreprise de rester compétitive.
fournissent une continuation de la nouvelle
expérience utilisateur. Le stockage facultatif des Pourquoi IBM ?
informations d’identification Kerberos et les IBM® est une société multinationale américaine de
paramètres de sécurité personnalisables conseils et d’informatique dont le siège est à
simplifient l’administration et offrent un Armonk, New York. IBM fabrique et commercialise
environnement sécurisé. du matériel informatique, des intergiciels et des
• Dépannage amélioré : Ambari fournit un affichage logiciels et offre des services d’hébergement et de
graphique widget métrique personnalisable ainsi consultation dans des domaines allant des
que la possibilité d’exporter des indicateurs pour ordinateurs centraux aux nanotechnologies. IBM est
identifier et répondre aux problèmes rapidement. également un important organisme de recherche,
détenant en 2017 le record de la plupart des brevets
Secteurs générés par une entreprise pendant 24 années
HDP permet aux entreprises de divers secteurs consécutives.
d’améliorer leurs principales fonctions :
Pour en savoir plus
Services financiers Télécommunications Pour en savoir plus sur la plateforme de données
• Gérer le risque de défaut • Analyser les enregistre- Hortonworks, contactez votre représentant IBM ou
• Améliorer les ventes ments des détails des votre partenaire commercial IBM, ou consultez le
croisées aux clients appels (CDR)
site à l’adresse suivante : ibm.com/hadoop
• Détecter le blanchiment • Servir proactivement
d’argent. les infrastructures de
service
• Rationaliser les
investissements en
infrastructure
• Développer de nou-
veaux produits et
services.

Vente au détail Pétrole et gaz


• Construire une vue à • Surveiller la production
360° de leurs clients en amont dans des
• Localiser et régions éloignées
personnaliser les • Ralentir les courbes de
expériences de déclin
consommation • Réparer de manière
• Gérer les chaînes proactive l’équipement
d’approvisionnement de valeur
efficacement • Établir des rapports sur
• Comprendre les la conformité avec les
changements de règlements en matière
sentiment envers de santé et de sécurité
la marque à travers environnementale.
l’analyse des sentiments
• Optimiser les sites
Web, les campagnes
et l’agencement des
magasins.

5
IBM France
17 Avenue de l’Europe
92275 Bois Colombes Cedex

IBM, le logo IBM, ibm.com sont des marques ou des marques


déposées d’International Business Machines Corp. dans de
nombreux pays du monde. Les autres noms de produits et de
services peuvent être des marques d’IBM ou d’autres sociétés.
Une liste actualisée des marques déposées IBM est accessible
sur le web sous la mention « Copyright and trademark
information » à l’adresse ibm.com/legal/copytrade.shtml

Microsoft et le logo de Windows sont des marques de Microsoft


Corporation aux États-Unis et/ou dans d’autres pays.

Les exemples de clients fournis ne sont mentionnés qu’à


titre d’information. Les performances réelles peuvent varier
selon les configurations et les conditions de fonctionnement
spécifiques. Il appartient à l’utilisateur d’évaluer et de vérifier
le fonctionnement d’autres produits ou programmes avec
les produits et programmes d’IBM. LES INFORMATIONS
CONTENUES DANS CE DOCUMENT SONT FOURNIES
« EN L’ÉTAT », SANS AUCUNE GARANTIE EXPRESSE OU
TACITE, NOTAMMENT SANS AUCUNE GARANTIE DE QUALITÉ
MARCHANDE OU D’ADAPTATION À UN EMPLOI SPÉCIFIQUE,
ET SANS AUCUNE GARANTIE OU CONDITION DE NON
INFRACTION VIS-À-VIS DES LOIS. Les produits
IBM bénéficient d’une garantie, conformément aux conditions
générales des contrats dans le cadre desquels ils sont fournis.
© Copyright IBM Corporation 2018

Veuillez recycler

IMD14522-FRFR-00

Vous aimerez peut-être aussi