Vous êtes sur la page 1sur 25

Les leons de SolutionITPME : comprendre lessentiel sur les technologies de stockage

Tout au long de la saison 2011-2012, SolutionITPME a rdig une srie darticles de vulgarisation pour aider ses lecteurs comprendre les technologies de stockage les plus en vogue. Loccasion de faire le point sur des technologies comme la mmoire Flash, le Thin Provisionning, le stockage unifi, le NAS en Cluster, la dduplication ou le RAID, mais aussi de revenir sur quelques grandes tendances du moment comme le BYOD ou le Big Data. Ce livre blanc runit en un document unique ces articles de vulgarisation. SOMMAIRE
Les bnfices de la Flash pour les systmes de stockage........................................................p.2 Pourquoi la mmoire Flash impose ses performances dans les systmes informatiques ?.....p.5 Optimisez votre espace de stockage avec le Thin Provisioning ................................................p.8 Simplifiez vos architectures avec le stockage unifi...............................................................p.10 Cest quoi le BYOD ? ................................................................................................................p.12 Pourquoi les architectures NAS en cluster sduisent de plus en plus les entreprises?..........p.15 Cest quoi le Big Data ? ...........................................................................................................p.18 Comprendre : la dduplication de donnes .............................................................................p.20 Comprendre : comment le RAID protge vos donnes ............................................................p.23

http://www.solutionitpme.fr

Les bnfices de la Flash pour les systmes de stockage


Mmoire Flash, SLC, eMLC, MLC, SSD, PCI-express Pour vous aider mieux comprendre les enjeux de la mmoire Flash et son principe de fonctionnement, SolutionITPME dcrypte pour vous les principaux acronymes du monde Flash et vous aide comprendre pourquoi cette technologie attire aujourdhui tous les regards
Le stockage sur mmoire Flash a t popularis dans les baies de stockage par EMC ds 2008, lorsque le PDG du leader mondial du stockage, Joe Tucci, a annonc son intention de faire de ce nouveau support de stockage, un lment stratgique de la performance des baies Clariion et Symmetrix. Depuis, tous les constructeurs ont adopt la technologie et ajout un tage de mmoire Flash dans leurs baies quand ils nont tout simplement pas fait de la Flash le support de stockage primaire de leurs baies de stockage. Pourquoi tant dintrt pour la mmoire Flash!? Lintrt que porte lindustrie du stockage, au stockage sur mmoire Flash, sexplique par la caractristique essentielle de ce support! : la rduction de la latence daccs au stockage et son corollaire, le support dun trs grand nombre doprations dentres/sorties par seconde. Pour sen convaincre, il suffit de regarder lvolution de la performance des disques durs au cours des 25 dernires annes et de mettre en parallle la performance de la mmoire Flash. Ainsi un disque dur dentreprise avait un temps daccs de 60!ms en 1987. Depuis on est pass 5 ! ms pour les disques dentreprises 15 ! 000 ! tr/mn, mais toujours environ 9 ! ms pour un disque SATA 7 ! 200 ! tr/mn. Cette amlioration par un facteur de 6 12 fois peut paratre impressionnante. Sauf que dans le mme temps, la latence daccs la mmoire a t divise par plus de 100 ! 000 pour passer sous la barre de la nanoseconde. Entre ces deux extrmes, la mmoire Flash cre une nouvelle classe de stockage qui vient sintercaler entre la mmoire vive et les disques durs traditionnels. Ainsi un disque SSD utilisant de la mmoire eMLC affiche une latence de lordre de 30 microsecondes. Surtout, alors que le caractre mcanique des disques durs limite le nombre doprations dentres/sorties par seconde (environ 180 IOPS pour un disque moderne rapide), la Flash, de part sa nature lectronique, peut tre adresse en parallle comme une mmoire. Do des performances en I/O qui sur certains SSD peuvent approcher la barre du million dI/O par seconde. Les caractristiques dIOPS et de latence des systmes base de mmoire Flash ont un intrt immdiat pour la performance des serveurs. Car pour un serveur dont les processeurs fonctionnent une frquence de 2 Gigahertz, une latence de 5!ms reprsente prs de 400!000 cycles dhorloge passs attendre des donnes, si ces dernires ne sont pas dans le cache du processeur. De quoi srieusement torpiller la performance dun systme. Quest-ce que la Flash La mmoire Flash est une invention de Toshiba, qui reste lun des grands producteurs mondiaux aux cts de gants comme Samsung ou Intel/Micron. Ce nouveau type de mmoire EEPROM (Electronicaly Erasable Programmable Read Only Memory) a t conu il y a prs de 25 ans dans les laboratoires du gant japonais. Trs coteuse ses dbuts et surtout bien plus lente quaujourdhui, la Flash a, tout dabord, t utilise dans les ordinateurs pour stocker le Bios (ou le firmware) des ordinateurs, avant de se banaliser avec

2011 - 2012 SolutionITPME - http://www.solutionitpme.fr

Page 2

lmergence des cls de stockage USB (un format popularis par IBM sous le nom !Thumb Drive! au dbut des annes 2000). La caractristique qui fait de la Flash un support idal pour le stockage de donnes est son caractre EEPROM. Comme avec les mmoires ROM, les donnes crites sur une mmoire Flash sont crites de faon persistante ( savoir que sans alimentation, la mmoire conserve son contenu). Mais contrairement aux ROM, il est possible deffacer les donnes dune EEPROM pour librer lespace occup et pouvoir rcrire de nouvelles donnes. En fait, au lieu de supporter les deux oprations de base dun support de stockage traditionnel, la lecture et lcriture, les mmoires flash proposent trois oprations de base!: lcriture (ou programmation), la lecture et leffacement. Lcriture se produit sur un emplacement vierge de lEEPROM tandis que si lespace est occup, il faut raliser deux oprations!: tout dabord leffacement des donnes prsentes, puis lcriture des nouvelles donnes.

Ce quil faut retenir

La mmoire SLC est la plus fiable, la plus performante, mais aussi la plus coteuse au Gigaoctet. La mmoire MLC est moins fiable, moins performante mais bien plus abordable du fait de son aptitude stocker plusieurs bits de donnes par cellule. La mmoire eMLC est un intermdiaire dont les performances sont similaires la MLC, mais dont la dure de vie est un intermdiaire entre MLC et SLC. Le prix des systmes eMLC se situe entre celui des quipements base de MLC et celui des systmes base de mmoire SLC. ! Clairement la mmoire SLC est celle qui est adapte aux applications les plus intensives en entres/sorties et prsente les caractristiques les plus adaptes aux applications critiques. Mais le gnie des constructeurs de stockage tend limiter lcart entre eMLC et SLC. Afin de limiter les cycles multiples deffacement/ criture et donc lusure des modules mmoire, les constructeurs ont en effet dvelopp des algorithmes trs subtils pour rpartir lusure (on parle aux tats-Unis de !Wear Leveling!). Il sagit dviter de trop solliciter les mmes cellules et en rpartissant donc les critures travers un maximum de cellules dun mme systme Flash. En procdant ainsi, on vite que certaines cellules ne susent prmaturment.

On verra plus tard quune partie du savoir-faire essentiel dans loptimisation de la performance des systmes Flash est de matriser la technologie des contrleurs permettant doptimiser le positionnement des donnes afin de rduire au maximum ces doubles oprations, qui pnalisent les performances. Une dernire ide conserver en mmoire est que les mmoires Flash ont une !dure de vie!. Chaque cellule dune mmoire Flash ne supporte en effet quun nombre limit de cycles deffacement et dcriture et ce nombre varie selon les caractristiques des mmoires Flash. MLC, eMLC, SLC Il existe aujourdhui plusieurs catgories de mmoires flash sur le march. Tout dabord les fabricants distinguent les mmoires Flash NOR des mmoires Flash NAND (selon le type de porte logique utilise pour la fabrication). Dans cet article nous nous concentrerons sur les mmoires NAND, car ce sont elles qui sont utilises dans les systmes de stockage, les mmoires NOR, tant beaucoup plus coteuses. Dans les mmoires NAND, on distingue plusieurs familles de modules mmoire!: les mmoires MLC (Multiple Level Cell) et les mmoires SLC (Single Level Cell). Dans les premires, chaque cellule est capable de stocker plusieurs bits dinformation. Tandis que les mmoires SLC ne stockent quun bit par cellule. Pour parvenir stocker plusieurs bits, les mmoires MLC supportent plusieurs niveaux de voltage, ce qui permet de stocker quatre valeurs diffrentes (dans le cas de la mmoire MLC-2, aujourdhui la plus couramment utilise) alors que les mmoires SLC ne grent que deux niveaux de tension. Il est noter que lon commence voir apparatre des systmes base de MLC-3 (six niveaux de voltage) et que certains fabricants travaillent sur la MLC -4 (huit niveaux). Ces nouvelles mmoires MLC offrent plus de capacit de stockage par cellule, mais au prix de compromis en matire de fiabilit, de performance et de consommation.

2011 - 2012 SolutionITPME - http://www.solutionitpme.fr

Page 3

Dans la pratique, les mmoires SLC sont la fois les plus performantes et les plus coteuses. Elles sont aussi celles dont la fiabilit est la plus leve. On lvoquait prcdemment, les mmoires Flash NAND nutilisent pas un mcanisme dcriture standard, mais un mcanisme combinant effacement et criture. Ces mmoires ne sont capables de supporter quun nombre limit de cycles deffacement/criture et ce nombre de cycle est dautant plus lev que la densit des cellules est faible, du fait notamment des voltages appliquer pour les oprations deffacement/criture. Une cellule de mmoire SLC peut ainsi supporter environ 150!000 cycles dcriture, alors quune mmoire MLC typique supportera environ 5!000 cycles dcriture. Une mmoire de type eMLC (en fait une mmoire MLC un peu particulire, qui utilise des techniques spcifiques de correction derreurs, de gestion de lusure) supporte quant elle environ 25!000 cycles dcriture. Les constructeurs de stockage ont tout dabord privilgi la mmoire SLC pour les applications critiques et elle reste encore aujourdhui majoritaire chez les grands fournisseurs de baies de stockage. Mais la mmoire eMLC gagne de plus en plus de terrain, du fait de son bien meilleur rapport fiabilit/performances/prix, mais aussi parce que les mcanismes avancs de !wear leveling! (voir encadr) mis en oeuvre par les constructeurs permettent de garantir une fiabilit dans le temps suffisante pour des systmes de stockage critiques. En 2012, il est vraisemblable que la mmoire eMLC prendra le dessus sur la mmoire SLC en termes de capacits livres, mais que la SLC restera la mmoire reine pour les applications trs hautes performances. Quel type de support!? Les mmoires Flash sont aujourdhui utilises de plusieurs faons dans les systmes de stockage, mais le format de plus mis en uvre est celui des SSD (Solid State Drive). Un SSD lapparence dun disque dur traditionnel et se connecte au systme de stockage par une interface SAS ou SATA traditionnel. Dans un! SSD, on trouve en fait de multiples modules de mmoire Flash pilots par un contrleur qui!a la tche de grer lensemble des oprations lies au pilotage de la Flash ainsi que linterfaage avec le bus SAS ou SATA.

La diffrence entre mmoire SLC et MLC est que la mmoire MLC supporte de multiple niveaux de voltage et donc peut stocker plusieurs bits d'information par cellule - ici une mmoire MLC-2 avec 4 niveaux de tension. ( source : Electronic Design)

2011 - 2012 SolutionITPME - http://www.solutionitpme.fr

Page 4

Pourquoi la mmoire Flash impose ses performances dans les systmes informatiques ?
Dans le prcdent article, nous avons expliqu les principaux bnfices de la mmoire Flash et dtaill les diffrents types de Flash ainsi que leurs avantages respectifs. Ce second article a pour objectif dexpliquer pourquoi ce nouveau support de stockage suscite autant lintrt des fabricants de baies de stockage et comment il est mis en uvre par les diffrents constructeurs.
Si la performance des processeurs a explos au cours des dernires annes, celle des disques durs na pas suivi ce qui fait que le stockage est devenu un goulet dtranglement pour les performances. Un goulet quil est possible de faire disparatre en utilisant judicieusement la mmoire Flash dans les systmes de stockage modernes. Rsoudre le dsquilibre croissant entre les performances des processeurs et celles du stockage sur disque Pour mieux comprendre pourquoi la mmoire Flash est lobjet de toutes les attentions dans le monde du stockage il suffit de regarder lvolution des performances des processeurs, de la mmoire et du stockage au cours des dernires annes. Comme lexplique remarquablement David A. Paterson, un professeur darchitectures informatiques de lUniversit de Berkeley, la performance des processeurs a progress bien plus rapidement que celle des mmoires et surtout que celle du stockage au cours des 30 dernires annes. Selon lui, la performance moyenne des processeurs a progress un rythme moyen de 50% par an, tandis que la bande passante mmoire progressait de 27% par an et que celle des disques durs progressait de 28% par an. Plus grave, la performance en nombre dopration par seconde des disques durs na gure volu au cours des 10 dernires annes. Ainsi un disque dentreprise 10!000 tr/mn reste pniblement sous la barre des 150 IOPS (oprations dentres/sorties par seconde) en accs alatoires, et un disque SATA peine franchir la barre des 70 80 IOPS. Dans le mme temps, celle des processeurs tait multiplie par 100. De mme, les gains en latence ont t ridicules au cours des 25 dernires annes. Seagate note ainsi quun disque dentreprise avait un temps daccs de 60 ms en 1987. Depuis on est pass 5 ms pour les disques dentreprises 15 000 tr/mn, mais toujours environ 9 ms pour un disque SATA 7200 tr/mn. Cette amlioration par un facteur de 6 12 fois peut paratre impressionnante. Sauf que dans le mme temps, la latence daccs la mmoire a t divise par plus de 100 000 (pour passer sous la barre de la nanoseconde) et la performance unitaire des processeurs (mesure en Flops) a t multiplie par plusieurs dizaines de millions de fois.
Si la capacit des disques durs a progress rapidement depuis 10 ans, leur performance mesure en IOPS na absolument pas volu, crant un foss croissant avec la performance des disques durs (Source : EMC).

2011 - 2012 SolutionITPME - http://www.solutionitpme.fr

Page 5

Le rsultat est un dsquilibre croissant!: dun ct des processeurs capables de performances thoriques croissantes et de lautre des goulets dtranglement terribles en matire daccs aux donnes du fait des faibles performances des disques durs. La Flash!rconcilie stockage et !compute! Des chercheurs comme Jim Gray, chez Microsoft avaient point du doigt ce problme ds dcembre 2006!et leurs prdictions se sont avres fondes. La Flash est la solution aux problmes de performance des disques durs et ce de faon spectaculaire par exemple, un disque SSD peut facilement atteindre aujourdhui les 100 ! 000 ! IOPS en critures alatoires et la carte PCI-express base de mmoire Flash SLC utilise par EMC pour VFCache peut produire prs de 350 ! 000 ! IOPS en criture alatoire et plus de 750!000!IOPS en lecture, soit plus que ce que permettent plusieurs milliers de disques durs. La mmoire Flash a fait ses dbuts dans les systmes de stockage comme remplacement des disques durs. EMC a ainsi t le premier grand constructeur proposer des disques SSD dans ses baies de stockage (ds 2008). Linsertion limite de SSD dans les baies de stockage en lieu et place de disques durs a permis la cration de volumes trs performants mais un cot extrmement lev. Cette stratgie a permis de satisfaire une poigne dutilisateurs la recherche de performances leves pour quelques applications. Le tiering et la gestion de cache dops par la Flash La seconde tape est venue au tournant des annes 2010 avec larrive de nouvelles fonctions permettant doptimiser lutilisation de la mmoire Flash dans les baies. La premire est le tiering (dplacement automatis de donnes dans les baies ou hirarchisation automatique de donnes) qui permet de crer des pools de stockage hybrides combinant mmoire Flash et disques traditionnels et de positionner automatiquement les donnes sur la classe de stockage adapte en fonction des besoins. Chez EMC, cette fonction a pour nom Fast VP et de multiples autres appellations chez les autres constructeurs !Adaptive Optimization! pour 3Par, !Dynamic tiering! chez Hitachi, Easy Tiering chez IBM Le tiering a lavantage de permettre une utilisation optimale de lespace SSD en vitant dy stocker des donnes dormantes. Comme lexplique Valdis Filks, le directeur de la recherche sur les technologies et les stratgies de stockage chez Gartner, rencontr rcemment par SolutionITPME Londres, !Si vous voulez exploiter un datacenter de faon efficace, vous navez pas dautre choix que de recourir la hirarchisation automatique!. Une seconde faon doptimiser lusage des SSD est de les utiliser comme un tage de cache dans les baies de stockage, ce qui permet de mutualiser lespace SSD disponible au profit de lensemble des applications. La technologie Fast Cache des baies EMC permet ainsi typiquement de rerouter 95% des entres/sorties vers lespace de cache SSD. Et elle a lavantage de fonctionner aussi bien en lecture quen criture, contrairement ce que permet la technologie Flash Cache des baies NetApp, limite aux seules lectures. La possibilit dutiliser la Flash comme cache en criture est pourtant importante notamment pour certaines applications, par exemple, les applications de bureau virtualis (VDI). Les technologies de tiering et de gestion de la Flash comme cache ont contribu la dmocratisation des SSD au cours de lanne coule. On estime ainsi quun espace SSD reprsentant 2 5% de lespace disque total dune baie suffit pour optimiser 95% des oprations dentre sorties dune baie de stockage. On peut ainsi optimiser de faon significative les performances dune baie de stockage grce un ajout trs limit de mmoire Flash (donc un cot raisonnable).

2011 - 2012 SolutionITPME - http://www.solutionitpme.fr

Page 6

Les cartes Flash PCI-express : au service de la performance extrme Une faon plus rcente de faire usage de la mmoire Flash est de la positionner non pas dans les baies de stockage mais sur les serveurs afin de rduire la latence daccs au minimum (on accde ainsi un stockage local ultra-performant sans avoir passer par le SAN). Un exemple dune telle approche est la carte VFCache dEMC. Cette carte PCI-express Flash sinstalle directement dans le serveur qui accde aux donnes et sur un bus qui nest pas un goulet dtranglement (le bus PCI-express). VFCache propose deux modes de fonctionnement. Le premier permet de disposer dun stockage local ultra-performant capable de supporter des centaines de milliers dIOPS. Le second mode dusage consiste utiliser la carte VFCache comme un tage de cache pour acclrer laccs aux baies de stockage SAN. On marie ainsi le meilleur des deux mondes. Les serveurs disposent dun accs ultra-performant en lecture aux donnes situes sur les baies et ils se reposent sur ces dernires pour lcriture, le stockage et la protection de ces donnes. On allie donc le meilleur des performances de stockage locales avec le meilleur en terme de protection des donnes sur le SAN.

La performance du stockage Flash (mesure en IOPS/Go) est trs suprieure celle des disques durs traditionnels. Et on voit aussi se creuser un cart entre la performance des disques SSD sur bus SAS et celle des dispositifs de stockage Flash sur bus PCI-express, comme la carte VFCache. (Source : EMC)

Les tests raliss en interne par EMC avec des cartes VFCache insres dans des serveurs connects par ailleurs des baies Symmetrix VMAX et VNX ont ainsi mis en vidence un triplement de la bande passante de stockage et une rduction de 60% de la latence pour les applications transactionnelles reposant sur des logiciels comme Oracle ou SQL Server. Sans surprise, de tels gains de performances se traduisent aussi par des gains conomiques importants. Ainsi, les tests mens par EMC ont mis en lumire une multiplication par trois des performances dune application transactionnelle base sur Oracle avec les cartes de cache VFCache. Cela veut concrtement dire quavec VFCache un serveur peut supporter trois fois plus doprations que sans VFCache. Ou si on lexprime dune autre faon, quil faudra trois fois moins de serveurs (ou de processeurs) pour effectuer une quantit de travail donne. Rappelons quune licence du SGBD Oracle entreprise cote 380 000 $ par serveur bi-processeur Xeon rcent (typiquement un serveur bi-socket Xeon E5-2600 16 curs) et quune division par trois du nombre de serveurs de bases de donnes gnre donc une conomie en termes de licences trs suprieure au cot des cartes VFCache (et cest sans compter les conomies lies lachat des serveurs et leur exploitation).

A lire aussi sur le web: Matt Komorovski!: a history of storage cost Lvolution du prix des disques durs et des SSD UCLA Introduction to Operating Systems lectures

2011 - 2012 SolutionITPME - http://www.solutionitpme.fr

Page 7

Optimisez votre espace de stockage avec le Thin Provisioning


Quest-ce que le thin provisionning et quels sont les bnfices de cette technologie pour le monde du stockage? Quels sont aussi les ventuels inconvnients et quels sont les points cls surveiller lorsque lon met en oeuvre cette technologie. Ce sont lensemble de ces questions auxquelles tente de rpondre cet article.
Les mcanismes dallocation granulaire de capacit (Thin Provisioning en anglais) sont apparus pour la premire fois dans des solutions de virtualisation de stockage, telles que celles de Datacore au dbut des annes 2000, et ont progressivement t intgrs leurs baies de stockage par la plupart des constructeurs, parfois sous des noms diffrents, par exemple Virtual Provisioning chez EMC, Ces mcanismes reposent sur un concept simple : plutt que dattribuer ou de rserver ds le dpart la capacit physique ncessaire une application, au risque de se retrouver avec une capacit rserve mais inutilise, la capacit physique nest rellement alloue par la baie quau fur et mesure des besoins rels (mcanisme dit !Allocate on write!, littralement, allocation la premire criture). Cette astuce permet une meilleure utilisation de la capacit disponible dans la baie, en vitant les gaspillages lis aux mcanismes dallocation de capacit traditionnels (les administrateurs, par prudence, ont en effet tendance provisionner des LUNs plus gros que ncessaires). Elle permet aussi de dmarrer en production avec un minimum de disques et de najouter de nouvelles capacits quau fur et !mesure des besoins rels, ce qui est en phase avec les objectifs de rduction de la consommation lectrique dans les datacenters. Enfin le Thin Provisioning a des bnfices annexes comme lacclration des rplications initiales (seule la capacit alloue est rplique et non pas la totalit de la capacit provisionne). Autant dire quavec de tels avantages, la technologie est, en quelques annes, devenue incontournable dans la plupart des baies. Optimiser lutilisation de la capacit de stockage Traditionnellement pour allouer une ressource de stockage SAN un serveur, on cre un LUN sur la baie et on le met la disposition de son systme de gestion de fichiers. Dans la plupart des cas, les administrateurs prennent une marge de scurit et allouent donc plus de capacit que ncessaire, ce qui fait que les LUN ne sont utiliss que pour une fraction de leur capacit, disons dans le meilleur des cas 40 50%. Dans un modle dallocation classique du stockage (dsormais dit Thick Provisioning), 50 60% de lespace physique est donc immobilis pour rien. Le Thin Provisioning sappuie sur la notion de pools de stockage, des pools qui peuvent tre homognes (uniquement des disques SAS, ou uniquement des disques SATA) ou hybrides (un mix entre SSD, disques SAS et SATA). La capacit de ces pools est mutualise entre des LUN Thin Provisionns, auxquels la baie alloue de la capacit au fur et mesure des besoins. Lun des grands avantages du Thin Provisioning est quil permet dallouer plus de capacits aux LUNs quil ny en a de physiquement disponible dans le pool. Typiquement, on peut avoir un pool de 20 To, et 40 LUNs auxquels on a allou chacun 1 To. Certains finiront par consommer rellement cette capacit alloue, alors que la plupart nen consommeront terme que 40%. En mettant en oeuvre le Thin Provisioning, on donne donc ladministrateur une grande souplesse dans la gestion de lallocation de capacit.

2011 - 2012 SolutionITPME - http://www.solutionitpme.fr

Page 8

Une technologie qui requiert un peu de vigilance La contrepartie est que le Thin Provisioning doit tre mani avec prcaution. Car si une application venait se mettre consommer les ressources disponibles de faon imprvue, elle pourrait littralement cannibaliser lespace requis par dautres applications, avec des consquences catastrophiques. Certains passagers des compagnies ariennes ont pu exprimenter les affres de la surrservation dans les avions. Ce mcanisme permet aux compagnies de sassurer dun remplissage optimal de leurs appareils en vendant plus de siges que nen dispose lavion et en pariant sur le fait que certains passagers ne se prsenteront pas. Cette stratgie fonctionne dans la plupart des cas, mais il arrive que des passagers ne puissent embarquer car lavion est effectivement trop plein. Dans la ralit, ces passagers se voient contraints de prendre un autre avion. Dans le cas du stockage, les consquences sont plus catastrophiques, labsence de capacit disponible se traduisant par un plantage des applications. Lusage agressif des mcanismes de surallocation mis disposition par les baies contraint donc ladministrateur une plus grande vigilance. Il lui faut ainsi veiller ce que la capacit physique disponible sur les baies soit toujours suprieure celle requise par le systme dallocation dynamique. Un autre point surveiller est limpact sur les performances, notamment pour les applications exigeantes en entres/ sorties : en concentrant plus daccs sur un nombre rduit de disques, le Thin Provisioning peut avoir un impact sur les performances dlivres. Cest en gnral pourquoi le Thin Provisioning est associ laptitude de la baie distribuer les blocs sur un grand nombre de disques. Certains constructeurs nont ainsi implment le Thin Provisioning quen parallle du stripping grande chelle de donnes (Wide Striping). Dautres mettent en uvre la technologie sur des pools de stockage hybrides composs partiellement de disques SSD et combinent le Thin Provisioning avec des technologies de Tiering, ce qui permet de contrer les effets de lagrgation dun grand nombre dI/O sur un nombre limit de disques. Une technologie plus ou moins bien mise en oeuvre Au final, le Thin Provisioning peut tre considr comme une forme de virtualisation du stockage, puisque lobjectif de la technologie est de masquer au systme de gestion de fichier le fait quil ne dispose pas, un instant donn, des ressources physiques dont il croit pourtant disposer. Et comme toute couche de virtualisation de stockage, le Thin Provisioning peut tre plus ou moins bien implment. Techniquement, plus la capacit de la baie grer les donnes au niveau du bloc est leve et plus le mcanisme de Thin Provisioning est efficace. De mme, laptitude rclamer des blocs allous mais qui ne sont plus utiliss est importante. Au dbut de cet article nous mentionnions que les baies allouent les blocs Thin Provisionns lors de la premire criture. Le problme est que par dfaut, rares sont les constructeurs qui ont prvu un mcanisme pour rclamer les blocs effacs (mcanisme dit Zero Page Reclaim,! qui permet de restituer les blocs non utiliss). EMC propose ce mcanisme dans les environnements VMware (via le support de lAPI VAAI) pour les baies Symmetrix VMAX et VNX, et a aussi dvelopp des utilitaires pour dautres environnements comme Windows (lutilitaire StorReclaim pour Windows sur les VMAX, par exemple). En savoir plus Un livre blanc sur le Virtual Provisioning dans les baies EMC VNX

2011 - 2012 SolutionITPME - http://www.solutionitpme.fr

Page 9

Simplifiez vos architectures avec le stockage unifi


Autrefois prsentes comme concurrentes les technologies SAN et NAS sont de plus en plus considrs comme complmentaires. Une complmentarit qui se traduit par une convergence croissante des fonctions SAN et NAS pour donner naissance aux baies de stockage unifi.
Les annes 2000 ont vu une explosion de lusage du stockage rseau, une explosion dope par ladoption de la virtualisation qui suppose lutilisation de technologies de stockage partag pour la mise en uvre des fonctions avances, comme la mobilit de VM puis par lexplosion des besoins de stockage de fichiers. SAN vs NAS Dans un premier temps, ces deux besoins ont t satisfaits par des baies de stockage diffrentes. Pour les applications ncessitant un accs en mode bloc, telles que les bases de donnes, les applications transactionnelles ou la messagerie, les entreprises se sont tournes vers les baies SAN (Storage Area Network). Pour le stockage et le partage de fichiers, elles se sont quipes de baies NAS (Network Attached Storage). Lexique Dans les deux cas, lide gnrale est que les donnes ne sont plus stockes localement sur les disques dur des serveurs mais CIFS (ou SMB) : protocole de partage de sur des baies de stockage ddies, capables de mutualiser leur fichiers rseau compatible Windows. capacit pour la mettre disposition de multiples serveurs. La diffrence rside dans la mthode utilise pour partager cette FCoE :!protocole de stockage SAN capacit. permettant dencapsuler le protocole FC sur
rseau Ethernet. Fibre Channel (FC) : dsigne la fois une technologie rseau et un protocole de stockage SAN en mode bloc permettant la transmission de commandes SCSI sur le rseau FC. iSCSI : protocole de rseau SAN en mode bloc permettant la transmission de commandes SCSI sur IP . NAS :!Network Attached Storage. Dsigne une technologie de stockage en rseau en mode fichier base sur les protocoles NFS ou CIFS. NFS :!Network File System. Protocole de partage de fichiers Unix. SAN :!Storage Area Network. Dsigne une technologie de stockage rseau en mode bloc base sur des protocoles comme iSCSI, Fibre Channel ou FcoE.

Les baies SAN utilisent des protocoles daccs comme Fibre Channel ou iSCSI et partagent leur capacit sous la forme de volumes logiques. Ces derniers sont utilisables comme des disques locaux par les serveurs et sont donc accessibles en mode bloc. Les baies NAS mettent quant elles leur capacit disponible disposition des serveurs sous la forme dun partage rseau accessible via un protocole de partage de fichiers en rseau comme NFS ou CIFS (le protocole de partage de fichiers en rseau de Windows aussi connu sous le nom SMB). Des diffrences qui sestompent Historiquement, les deux approches rpondaient des besoins diffrents : en gnral, les serveurs NAS taient une alternative aux traditionnels serveurs de fichiers. Les baies SAN, de leur ct, ciblaient plutt les applications exigeantes, avec des besoins de haute disponibilit. La sparation entre les deux catgories de produits tend toutefois disparatre. Tout dabord parce que les applications sont de moins en moins sensibles la nature des protocoles de stockage utiliss. Ainsi, il est possible de dployer des environnements

2011 - 2012 SolutionITPME - http://www.solutionitpme.fr

Page 10

virtualiss performants la fois sur des baies SAN ou sur des baies NAS. Il en va de mme des applications de messagerie ou de bases de donnes (par exemple avec lutilisation du client dNFS direct NFS dOracle). Ensuite, parce que les baies SAN et NAS ont tendance converger pour donner naissance une nouvelle catgorie de systmes de stockage, les baies de stockage unifi. La plupart des grands constructeurs proposent ainsi dsormais leur catalogue de tels systmes. EMC a lanc en janvier 2011 les gammes VNX et VNXe deux familles de baies unifies qui viennent remplacer les baies SAN Clariion et la gamme de baies NAS Celerra. Enfin, parce que la convergence des rseaux vers Ethernet encourage le mouvement vers les baies unifies. Avec lavnement de protocoles comme iSCSI ou FcoE, un seul et mme rseau Ethernet suffit pour supporter lensemble des fonctions dune baie unifie, une convergence rseau qui permet de simplifier les architectures et de rduire les cots.

2011 - 2012 SolutionITPME - http://www.solutionitpme.fr

Page 11

Cest quoi le BYOD ?


Ce que les amricains appellent le BYOD (Bring Your Own Device), littralement apportez votre propre terminal au bureau, est devenu une tendance phare de la modernisation de linformatique des entreprises. A la cl, la possibilit pour les salaris daccder de faon scurise leurs applications phares depuis tout type de terminal quil soit un terminal dentreprise ou un terminal personnel, et ce toute heure et depuis nimporte quel lieu.
Ce que les amricains appellent le BYOD (Bring Your Own Device), littralement apportez votre propre terminal au bureau, est devenu une tendance phare de la modernisation de linformatique des entreprises. A la cl, la possibilit pour les salaris daccder de faon scurise leurs applications phares depuis tout type de terminal quil soit un terminal dentreprise ou un terminal personnel, et ce toute heure et depuis nimporte quel lieu. Au tout dbut, il sagissait pour les salaris dacqurir eux-mmes le terminal de leur choix et de pouvoir lutiliser librement au bureau (moyennant une compensation financire de lentreprise). Lide tait alors que lentreprise puisse dployer des applications ou des environnements de travail scuriss sur ces postes, tout en laissant lemploy libre de contrler son environnement personnel. Les dbuts du BYOD ont ainsi permis quelques grandes socits amricaines de faciliter la rintroduction massive du Macintosh au sein de leurs parcs informatiques (on pense des socits comme Cisco, Citrix, VMware, EMC), mais aussi dautres entreprises de permettre leur salaris dutilier leur propre PC portable personnel comme machine de bureau, tout en bnficiant dun environnement dentreprise scuris. En quelques annes, nanmoins, le concept de BYOD sest considrablement largi, notamment du fait de lirruption massive dans le paysage des nouveaux terminaux nomades, comme les tablettes ou les tlphones mobiles. Aujourdhui, labrviation dcrit ainsi la possibilit offerte aux employs (ou au moins certains dentre eux) de se connecter ses applications depuis tout type de terminal fixe ou nomade et depuis tout lieu. On estime aujourdhui quun peu plus de 2 milliards de nouveaux terminaux mobiles devraient tre mis en service dans le monde dici 2015. Une large partie dentre eux sera aussi utilise dans le cadre de lentreprise du fait de ladoption croissante du modle. Autant dire que la vague du BYOD est une ralit, et que les entreprises ne pourront chapper au dferlement de terminaux quelles nenvisageaient mme pas de supporter il y a encore deux ans, tels que les smartphones Android et iPhone ou les tablettes, telles que liPad. Dj, pas un jour ne scoule sans quun employ ou un dirigeant, ne demande laccs ses applications au travers de son priphrique nomade favori. Et pour le service informatique, rpondre systmatiquement non toutes ces demandes nest plus une option, dautant que lacceptation de ces terminaux a des enjeux de productivit non ngligeables. De plus en plus, les services informatiques doivent donc trouver des moyens pour dployer sur tout type de terminal les lments essentiels de lenvironnement de travail des salaris. Lidal serait bien sr que toutes les applications soient la fois optimises pour toute forme de terminal, fixe ou mobile, tactile ou non. Cest la promesse que font tous les gants du logiciels comme Oracle, SAP ou Microsoft pour leurs progiciels cls (typiquement les applications dautomatisation des forces de vente, de CRM, de reporting). Mais de la promesse la ralit, il faudra encore un peu de temps, mme si la situation a beaucoup progress en deux ans. En attendant donc le nirvana des applications web optimises pour tout type de terminaux,!la virtualisation de postes clients (ou VDI) apparat de plus en plus comme lapproche pragmatique pour la mise en uvre de projets BYOD.

2011 - 2012 SolutionITPME - http://www.solutionitpme.fr

Page 12

La virtualisation des postes de travail!: une technologie cl pour le BYOD La virtualisation des postes de travail, incarne par des solutions comme Citrix XenDesktop Vmware View ou Microsoft Terminal Services, sappuie sur la virtualisation pour faire fonctionner sur des serveurs les environnements de travail des utilisateurs. Ces environnements sont dploys lintrieur de machines virtuelles ddies sur des serveurs, et leur affichage est ensuite dport sur lcran du terminal de lutilisateur. Avec la virtualisation du poste de travail, on dcouple lenvironnement de travail du poste de travail luimme ce qui permet plusieurs grands bnfices. Le premier est que ladministration des postes clients se trouve grandement simplifie, puisque lessentiel de ladministration seffectue sur les VM centralises dans le datacenter. On peut ainsi appliquer les mises jour de faon centralise, partager certains services comme la protection rseau ou la protection antivirus Second bnfice, le stockage, la sauvegarde et la protection des environnements de travail sont centraliss, de mme que la protection des donnes. Ces dernires ne rsident plus sur les postes de travail dans la pratique certaines donnes peuvent tre stockes localement mais sous forme chiffre et peuvent donc tre sauvegarde trs simplement. De mme, il devient impossible de drober des donnes, ces dernires ne rsidant plus sur le PC. Lentreprise se protge ainsi contre les vols de PC par des tiers, mais aussi contre dventuels vols de donnes par des salaris indlicats (fichier clients, informations produits, donnes comptables). En fait, en couplant les solutions VDI de VMware et Citrix aux solutions de RSA Security, on peut assurer une tanchit quasi parfaite de linfrastructure et garantir ainsi la protection du patrimoine informationnel de lentreprise, une tche quasi-impossible raliser avec des environnements informatiques traditionnels. Un autre bnfice est le dcouplage avec le systme dexploitation client du terminal de lutilisateur. Ainsi, on peut trs bien donner accs la dernire version de Windows dans lenvironnement virtualis, sans avoir dployer Windows 7 partout sur les postes clients. Un simple PC sous Windows XP, un terminal en mode client lger, un Mac ou une tablette (iPad ou Android) peuvent ainsi afficher un environnement Windows 7 ou tout autre type de systme dexploitation (pour peu que leur rsolution dcran soit suffisante). lextrme, on peut mme envisager daccder son environnement via un tlphone mobile, ce qui peut dpanner, dfaut de servir de moyen daccs principal. Ce dcouplage du systme dexploitation local! dautres bnfices, comme celui de pouvoir redonner un accs trs rapide au SI un salari en cas de perte ou de panne de sa machine. Il suffit en effet de lui fournir un PC de dpannage pour se connecter lenvironnement virtualis et le salari retrouve instantanment son environnement de travail dans ltat o il lavait laiss, avec toutes ses donnes. La mise en place dune architecture VDI est simple lorsque le dploiement est limit quelques dizaines de postes, mais requiert plus de vigilance lorsque le dploiement porte sur quelques centaines ou plusieurs milliers de postes. Les aspects rseau et stockage notamment doivent tre particulirement soigns, le stockage pouvant reprsenter jusqu 40 % du cot dun dploiement VDI (du fait de la centralisation). De mme la gestion des profils utilisateurs doit tre soigne afin que chaque utilisateur dispose dune configuration adapte ses besoins.

2011 - 2012 SolutionITPME - http://www.solutionitpme.fr

Page 13

Des solutions EMC pour simplifier les projets BYOD des PME EMC a ainsi conu une srie darchitectures de rfrences qui sont le produit des expriences acquises sur plusieurs centaines de dploiements clients. Ces architectures de rfrences sincarnent aussi dans les rcents systmes VSPEX (pour Citrix XenDesktop et pour VMware View). Lobjectif dEMC avec ces architectures est de proposer ses clients un socle sur lequel ils vont pouvoir appuyer leurs propres dploiements. Des solutions optimises pour la virtualisation des postes de travail. Toutes ces architectures tirent parti de capacits des baies unifies VNX et VNXe. Les baies de stockage unifi VNX embarquent ainsi des fonctions particulirement adaptes au dploiement de projets de virtualisation de postes de travail. Unisphere, linterface dadministration des baies VNX dispose ainsi de fonctions adaptes la virtualisation de postes de travail. Ces fonctions spcifiques viennent appuyer certaines capacits natives telles que Fast Cache. Contrairement aux architectures de cache de certains concurrents qui ne fonctionnent quen lecture, Fast Cache permet dutiliser la capacit Architecture de rfrence EMC pour le dploiement de 1000 SSD des baies VNX comme cache en lecture et postes clients virtualiss avec la solution Citrix XenDesktop et criture : cela se rvle particulirement important pour une baie VNX5300 (cliquer pour agrandir) la virtualisation des postes de travail car dans les environnements VDI les critures reprsentent en moyenne 80 % des entres sorties. Cette aptitude tirer parti des disques SSD installs dans les baies permet aussi dabsorber les pics dentres/sorties correspondant aux temptes de dmarrage (ou boot storm) caractristiques des environnements VDI. Une baie EMC VNX faisant usage de FAST peut ainsi booter lquivalent de 1 000 desktop virtuels en moins de 8 minutes ! pour les configurations plus modestes, une baie VNXe 3150 avec des disques SSD et Fast permettra aussi des dploiements consquents un tarif trs abordable. Mais EMC ne se limite pas la seule fourniture du stockage et couvre un bien plus large spectre fonctionnel dans la chane VDI. Loffre EMC couvre en effet lintgralit de la chane VDI, du stockage, la scurit, en passant par les hyperviseurs et les logiciels de virtualisation de poste de travail (via VMware), les serveurs (via les systmes unifis vBlocks de VCE et les VSPEX), la sauvegarde et la protection des donnes (Avamar) et la scurisation de points cls de la chane de virtualisation, dont lauthentification et la scurisation des donnes de lentreprise (RSA). En France EMC Consulting Services a travaill sur de multiples projets VDI, simpliquant aussi bien dans les phases daudit et dassessment, que dans la conception darchitectures, la mise en uvre de! proof of concept ou le dploiement grande chelle. Il est galement noter quEMC est en interne un utilisateur du VDI. ce jour, plus de 3 000 collaborateurs bnficient de la technologie dont environ la moiti dutilisateurs nomades. Le VDI chez EMC permet notamment aux salaris de choisir librement leur poste de travail (Mac ou PC) sans que cela nait dimpact sur leur aptitude accder aux applications de lentreprise. Notons enfin pour terminer que Citrix, lui-mme a retenu une solution EMC base sur les baies VNX pour son dploiement de XenDesktop 5, une solution qui est montre lExecutive Briefing Center de la firme Santa Clara.

2011 - 2012 SolutionITPME - http://www.solutionitpme.fr

Page 14

Pourquoi les architectures NAS en cluster sduisent de plus en plus les entreprises?
Alors que le volume de donnes non structures progresse un rythme exponentiel dans les entreprises, Les technologies de stockage NAS en Cluster sduisent de plus en plus les responsables informatiques du fait de leur volutivit et de leur simplicit. SolutionITPME revient sur le principe de ces solutions et sur les caractristiques qui expliquent leur succs.
Alors que le volume de donnes non structures progresse un rythme exponentiel dans les entreprises, une technologie de stockage sduit de plus en plus les responsables informatiques. Il sagit de la technologie NAS en cluster aussi appele scale-out NAS. Lintrt pour cette technologie est principalement lie son volutivit et sa simplicit. Elle promet en effet aux entreprises de pouvoir faire voluer leur capacit de stockage dune faon quasi illimite, par simple ajout de nuds de stockage additionnels leur infrastructure existante et ce sans avoir remplacer linfrastructure dorigine. Ce concept simple est aujourdhui mis en uvre dans un nombre croissant de systmes et sduit de plus en plus les acheteurs de systmes de stockage de donnes.

Architecture typique dun systme NAS en Cluster EMC Isilon (ici larchitecture inclut un cluster performant base de noeuds Isilon S200 et un second cluster! base de noeuds Isilon NL reli au premier par un lien WAN!pour larchivage et la reprise aprs sinistre).

2011 - 2012 SolutionITPME - http://www.solutionitpme.fr

Page 15

Un systme de stockage volutif assembl partir de multiples noeuds physiques Le principe mme dun systme de stockage NAS en cluster est quil se compose de plusieurs nuds physiques relis entre eux par des interfaces rseaux rapides (Infiniband ou 10 Gigabit Ethernet) et assembls en un seul systme de stockage NAS logique par le biais dun systme dexploitation en gnral propritaire. Du fait de sa nature ! scale-out ! , un systme de stockage NAS en cluster volue par simple ajout de nud. Cette opration permet la fois daugmenter la capacit du systme mais aussi ses performances ainsi que, dans certains cas, sa tolrance aux pannes. Les plus volutifs des systmes de stockage en cluster ont la capacit de grer plusieurs Petaoctets de donnes sur plus de 100 nuds, mais ils sont accessibles et grs comme un seul systme grce lutilisation dun systme de fichiers distribus ou dun systme despace de nommage global. Un systme de stockage NAS en cluster se compose typiquement de multiples nuds de stockage x86 disposant dune configuration standard (quantit fixe de CPU, de mmoire cache et de disques durs). Lorsque la capacit du systme approche la saturation, lentreprise peut faire voluer sa configuration existante en ajoutant simplement de nouveaux nuds au cluster existant. Cette approche volutive est particulirement adapte aux entreprises devant grer de grandes quantits de fichiers, mais elle sduit aussi de plus en plus des entreprises ayant des besoins de stockage gnralistes. Le scale out NAS permet en effet des migrations en douceur, plus simplement que les systmes traditionnels. Historiquement, les systmes de stockage NAS en cluster ont connu leurs premiers succs dans le monde des applications ncessitant des bandes passantes et un dbit lev, notamment dans les secteurs des mdias, du divertissement, du calcul haute performance, de la bio-informatique, et dans le secteur de la recherche ptrolire et gazire. Mais ce succs stend dsormais bien au del de ces secteurs. Les premiers systmes scale-out ntaient en effet pas optimiss pour les applications traditionnelles dentreprises, mais les volutions apportes rcemment par certains spcialistes du genre comme la division Isilon dEMC, promettent douvrir ces systmes un panel dusage bien plus large, comme la virtualisation. Une adoption qui sacclre dans le monde des applications dentreprise Terri McClure, un analyste senior chez Enterprise Strategy Group (ESG) Milford, explique ainsi quau fur et mesure que les constructeurs optimisent leurs systmes pour obtenir de meilleurs rsultats avec les applications dentreprises, ! les architectures NAS en cluster ! apparaissent de plus en plus dans les datacenters dentreprise. Le leader emblmatique du secteur Isilon Systems, rachet par EMC la fin 2010. Isilon propose trois options de nuds diffrentes pour ses systmes en cluster : les nuds de la srie S sont conus pour dlivrer des performances leves pour les applications ncessitant des grands volumes dentres/sorties sur de petits fichiers ! ; les X-Series sont des nuds intermdiaires conus pour le stockage dun moins grand nombre de fichiers plus volumineux ; ! enfin les NL-Series sont des nuds trs capacitifs et conomiques conus pour larchivage et le stockage en volume de grandes capacits de donnes. En ltat de la technologie, un systme Isilon peut comprendre jusqu 144 nuds pour un total de 15,5 Po de donnes, stockes dans un systme de fichiers unique, ce qui simplifie grandement ladministration. Ct performance, un systme base de nuds S200 quip en partie de disques SSD a une capacit maximale infrieure (2 Po), mais offre une bande passante agrge de 85 Gbit/s et peut traiter 1,2! million dIOPS NFS, encore une fois avec seul systme de couvrant un cluster de 144 nuds.

2011 - 2012 SolutionITPME - http://www.solutionitpme.fr

Page 16

Si Isilon est parti avec une bonne longueur davance, tous les constructeurs sintressent aujourdhui au monde du stockage en cluster et nombre danalystes font le pari que cette technologie dtrnera terme les systmes de stockage NAS traditionnels. Randy Kerns, un analyste chez Evaluator Group Broomfield, Colorado, est un peu plus prudent et estime quil y a beaucoup de cas dutilisation o les clients prfreront des NAS traditionnels, notamment pour les plus petites configurations. ! Il y a de la place pour les deux! , a dclar Kerns. ! Je pense que les systmes scale-out NAS et les NAS traditionnels sont tous les deux l pour longtemps ! .

2011 - 2012 SolutionITPME - http://www.solutionitpme.fr

Page 17

Cest quoi le Big Data ?


Dans lunivers de la technologie, deux mots-cls font actuellement le buzz chez tous les constructeurs et diteurs : le Cloud et le Big Data . Si lon commence avoir une bonne ide de ce qui se cache derrire le premier terme, Cest loin dtre la cas pour le second. Loccasion pour SolutionITPME de dfricher un peu le concept
Somm par un journaliste de fournir une dfinition du concept lors du dernier EMC World, le CEO dEMC avait tent dexpliquer le concept par lexemple!:!!Pour une compagnie ptrolire, le Big Data cest la masse de donnes sismiques accumules lors de recherche de nouveaux gisements de ptrole. Pour un hpital, ce serait plutt limposant volume de donnes provenant des multiples scanners et instruments dimagerie rsonance magntique. Pour un studio de cinma, ce serait plutt les donnes gnres lors du rendu dun film 3D. Limportant est que dans tous les cas on parle de volumes qui dpassent ds le dpart le ptaoctet et qui! progressent vitesse exponentielle vers le multi-ptaoctets. Ds lors la question qui se pose est de savoir comment bien stocker ces donnes, comment les grer et les exploiter de faon optimale.! Pour McKinsey Global Institute, le terme de! !Big data! dcrit des jeux de donnes dont la taille ou la nature ne permet pas une capture, un stockage, une gestion et un traitement par des outils de gestion de bases de donnes classiques. Le cabinet ne dfinit pour autant pas de limite de taille pour le concept de Big Data et note que le volume de donnes considr comme tant Big Data! peut varier par secteur dactivit (dune douzaine de To plusieurs Po). Une chose est certaine, prcise toutefois, McKinsey, les donnes de type !Big Data! progressent un rythme soutenu. Un univers numrique en croissance exponentielle Pour Jean-Yves Pronier, le directeur marketing dEMC, les dernires tudes montrent que le volume des informations en circulation, de toutes sortes et de toutes natures, fait plus que doubler tous les deux ans . Il cite notamment une tude mene conjointement par EMC et IDC, qui indique que le volume des donnes numriques cres en 2011 atteindra le chiffre colossal de 1 800 milliards de gigaoctets, soit 1,8 Zettaoctet. Et ce nest quun dbut puisque ce chiffre sera multipli par 44 dici 2020, du fait de la numrisation croissante de notre univers, de lexplosion des communications machines machines, et de la prolifration des capteurs et autres tags ( tels que tags RFID et NFC, capteurs GPS) McKinsey estime ainsi que le nombre de machines (automobiles, compteurs lectriques, distributeurs, quipements mdicaux nomades) connects lInternet devrait tre multipli par 4,5 entre 2010 et 2015. Autant dquipements qui ne manqueront pas dapporter leur contribution au dluge de donnes dj gnr par les applications existantes et leurs utilisateurs. 90 % de ces donnes devraient tre de type non structur. Une nouvelle gnration de !Data Scientists! Face ce dluge, une nouvelle gnration de professionnels est requise, capables de dgager une vision claire, utile et ordonne de cet incroyable volume dinformations mis de toutes parts notre disposition. Data hominem, ainsi auraient pu tre appels ces spcialistes qui savent collecter, analyser les donnes pour ensuite les appliquer de manire utile et productive au service de lentreprise!,! explique Jean-Yves Pronier. Aux tats-Unis, on les a surnomms !Data Scientists!, explique le directeur marketing dEMC, tout en soulignant prfrer lappellation franaise d!experts en science des donnes!. !Des experts qui devraient tre trs demands!: pour les seuls tats-Unis, McKinsey estime ainsi quil manquera entre

2011 - 2012 SolutionITPME - http://www.solutionitpme.fr

Page 18

140!000 et 190!000 salaris disposant dune expertise avance en analyse de donnes et environ 1,5 millions de gestionnaires de donnes en 2018. Leur place premire est videmment dans lentreprise mais aussi dans les services publics, deux secteurs o le traitement de ces grands volumes de donnes pourrait gnrer de considrables gains de productivits, mais aussi contribuer lamlioration des services rendus aux clients ou citoyens. Car ces spcialistes, en extrayant la substantifique moelle des vastes quantits de donnes leur disposition, peuvent dtecter les tendances qui feront lavenir, identifier de nouveaux mcanismes de fraudes, anticiper des problmes venir, autant dinformations prcieuses pour les responsables mtiers. Sil devrait tre passionnant, le mtier dexpert en science des donnes nen sera pas moins prilleux, souligne toutefois Jean-Yves Pronier. Car les donnes sont partout. Lexpert devra donc tre capable de passer au crible un trs large ventail dinformations, provenants de sources multiples!: entrepts de donnes dentreprises, entrepts de donnes publiques de type !open data!, informations issues des rseaux sociaux, sites innombrables du web, tudes conomiques, Blogs, Forums, archives numriques, etc., avant dtre en mesure de slectionner celles qui seront directement utiles lentreprise. Lexpert en science des donnes devrait agir en vritable !alchimiste de linformation!, reliant entre eux les points diffrents pour faire apparatre les tendances, et offrir une relle visibilit dans cet amoncellement de minerais brut qui va soudain se transformer en information prcieuse, conduisant lentreprise prendre des dcisions dune pertinence inconnue jusqualors.! A nouveaux mtiers, nouveaux outils Ces experts vont bien entendu avoir besoin doutils et de puissance de calcul adapts. Selon IDC, le nombre de serveurs devrait tre multipli par 10! dici 2020, car qui dit grand volume de donnes dit besoin de performances pour traiter ces donnes (et nul doute que les questions seront de plus en plus sophistiques donc la puissance requise de plus en plus leve). Au del de la puissance pure, ce sont aussi les outils de stockage, de gestion et de traitement des donnes qui vont voluer. Partout les tendances sont similaires et inspires des technologies dveloppes dans le monde du calcul intensif. Pour le stockage, on voit ainsi se gnraliser les systmes distribus tels que celui dIsilon (pour le NAS) ou tels quEMC Atmos (pour le stockage grande chelle dobjets). Pour le traitement de donnes, les systmes massivement parallles prennent peu peu lascendant sur les bases de donnes traditionnelles. Lengouement pour des systmes tels que Hadoop / Mapreduce, ou tels que GreenPlum ne se dment pas. De nouvelles techniques de visualisation mergent pour rendre intelligibles de grands volumes de donnes. Ici le halo autour de la plante symbolise l'intensit du trafic internet entre la ville slectionne et New-York On voit aussi se dvelopper les alternatives aux bases SQL linstar de Cassandra, MongoDB ou Membase. Le poids du Big Data influence aussi les langages de dveloppement. On peut ainsi constater le succs du framework node.js (framework javascript serveur) pour les applications de stream processing (traitement dvnements trs haut dbit), du fait de ses caractristiques non bloquantes, mais aussi celui dApache Pig pour lanalyse de grands jeux de donnes. Enfin, le Big Data a une influence sur les techniques de visualisation, les experts en sciences de donnes devant pouvoir rendre parlantes de faon visuelle les donnes quils manipulent. Bref, cest une nouvelle dimension de linformatique qui est en train de se construire sous nos yeux et cest un peu cette nouvelle vague que lon dsigne aujourdhui par le terme !Big Data!.

2011 - 2012 SolutionITPME - http://www.solutionitpme.fr

Page 19

Comprendre : la dduplication de donnes


Rduire les besoins en capacit disque et en bande passante rseau, conomiser plus dlectricit, rduire le temps de sauvegarde des serveurs comme des postes clients Ces bnfices de la dduplication de donnes sont les principaux avantages mis en avant par les utilisateurs de la technologie.
Rduire les besoins en capacit disque et en bande passante rseau, conomiser plus dlectricit, rduire le temps de sauvegarde des serveurs comme des postes clients Ces bnfices de la dduplication de donnes ne sont que les principaux avantages mis en avant par les utilisateurs de la technologie. Une technologie dont lusage se dmocratise progressivement la plupart des systmes de stockage. Les principales approches de dduplication de donnes Selon les fournisseurs, lappellation dduplication recouvre plusieurs ralits. La version la plus basique de la technologie est matrise depuis des annes, puisquil ne sagit ni plus ni moins que de la compression, qui permet dliminer certaines redondances de donnes afin de rduire lempreinte de stockage dun fichier. Audel de cette implmentation !historique!, on a vu apparatre plus rcemment deux autres formes de rduction de donnes, tout dabord la dduplication au niveau fichier. Avec cette dernire, tout fichier dtect comme tant un double parfait dun autre fichier est tout simplement supprim et remplac par un !lien!. Cette technologie basique est notamment mise en uvre dans les messageries lectroniques sous le nom de Single Instance Storage (un lment dupliqu une ou plusieurs reprises nest stock quune fois). Mais la version de la technologie de dduplication qui intresse aujourdhui le plus les entreprises est la dduplication au niveau du bloc (ou tout du moins au niveau dun segment de fichiers). Comme avec le SIS, lide est de localiser des !doublons! mais cette fois-ci lchelle de petits segments de fichiers, dans le but de maximiser les chances de trouver des doublons. Selon les constructeurs, lanalyse des blocs se fait sur la base de segments de donnes de taille fixe ou de taille variable. Dans ce dernier cas, le dplacement de la fentre danalyse de lalgorithme de dduplication maximise les chances de trouver des doublons et donc de rduire la taille des donnes. Pour identifier les donnes dupliques, la plupart des technologies dcoupent les donnes en segments et oprent un calcul dempreinte (ou de !hash ) sur ces segments grce un algorithme cryptographique. Ce calcul produit une valeur numrique rpute unique, qui est ensuite compare la valeur numrique des autres morceaux dj analyss. En cas de redondance dempreinte, le systme conclut un doublon et limine les donnes dupliques (do le terme dduplication) tout en conservant un journal de cette opration. Ainsi, on gagne de lespace tout en assurant que lors de la restauration ou de la relecture, le systme saura recrer le fichier original, partir des blocs ddupliqus. Dduplication la source ou dduplication la cible!? On distingue aujourdhui deux types de dduplication. Celle qui sexcute la source et celle qui sexcute la cible. La premire sopre sur le serveur sauvegarder. Lors dune opration de backup, lagent install sur le serveur dduplique les donnes au fil de leau et ne transmet au serveur de sauvegarde que des donnes dj ddupliques. Lavantage principal est que le flux de donnes sur le rseau sen trouve

2011 - 2012 SolutionITPME - http://www.solutionitpme.fr

Page 20

considrablement rduit (de 95!% pour un ratio de 10:1), ce qui rend la technologie particulirement utile dans les environnements trs consolids (notamment dans les environnements virtualiss), dans le cas de serveurs en agence qui sauvegardent en central ou du backup de postes clients. La dduplication la source a notamment t dmocratise par un pionnier comme Avamar, aujourdhui dans le giron dEMC. linverse, dans le cas de la dduplication la cible, le processus de sauvegarde reste plus traditionnel. Le serveur sauvegarder envoie ses donnes au serveur de sauvegarde, qui les transmet lappliance de dduplication, qui se charge de rduire au fil de leau. Lavantage principal de cette approche est que les machines sauvegarder ne sont pas sollicites au niveau processeur, toutes les oprations sexcutant sur lappliance. En revanche, les capacits de dduplication de lappliance sont limites la puissance de traitement de ses processeurs. Il est noter que la plupart des appliances de dduplication la cible offrent la fois un mode de stockage (ou de sauvegarde) en mode NAS via des protocoles ouverts tels que CIFS ou NFS, ainsi quun mode VTL. Dans ce dernier, lappliance apparat comme une librairie de bande virtuelle pour les logiciels de sauvegarde et sinsre donc de faon transparente dans des processus de sauvegarde existant, ceci prs que la capacit utilisable est considrablement accrue par lusage de la dduplication.
Le taux de dduplication s'exprime en ratio par rapport l'original. Un ratio de 10 pour 1 correspond ainsi une rduction de 90% par rapport au volume de donnes initial

Des gains despace significatifs

Dans tous les cas, les technologies modernes de dduplication produisent des rsultats surprenants en matire de rduction des donnes. Si la plupart des utilisateurs natteignent jamais les ratios invoqus par certains fournisseurs (de type 200 ou 300:1) qui ne sont possibles que dans certains scnarios trs particuliers -, il est commun dobtenir des ratios de type 10:1 20:1. Ce qui signifie une rduction pouvant atteindre 90 95! % par rapport au volume de donnes initial. Dans la pratique cela veut dire quune appliance de dduplication avec 40 To de capacit disque utile pourra en fait sauvegarder 400 800 To de donnes. Mais la dduplication prsente dautres bnfices. la source, par exemple, elle permet une rduction massive des fentres de sauvegarde et un allgement considrable du trafic rseau. Ces deux caractristiques permettent denvisager des scnarios de protection des agences, sites ou magasins distants jusqualors impossibles, le tout en assurant une bien meilleure scurit des donnes. Il est ainsi facile de comprendre que les chances de restaurer des donnes dans de bonnes conditions, avec un systme de sauvegarde centralis opr par des professionnels, sont bien plus leves quavec un systme distribu sappuyant sur des lecteurs de bandes souvent incertains distribus en agences Plus gnralement le fait davoir des donnes dj ddupliques simplifie aussi les oprations de rplication entre des appliances de sauvegardes rparties sur plusieurs sites. La dduplication du stockage primaire, futur eldorado!? Pour linstant, la plupart des constructeurs nont appliqu la technologie de dduplication qu leurs solutions de sauvegarde. Mais chez certains constructeurs, comme EMC, on ne cache pas quun des usages futurs de la technologie sera sans doute la dduplication dans les systmes de stockage primaires, afin denrayer la croissance exponentielle des volumes stocks sur les baies de stockage. Loi de Moore aidant, il va de toute faon bien falloir trouver quelque chose faire pour occuper les nouveaux

2011 - 2012 SolutionITPME - http://www.solutionitpme.fr

Page 21

processeurs multicurs dAMD et Intel qui motorisent les baies de stockage. Et dans bien des ttes, la dduplication des donnes primaires est lune des fonctions qui pourrait au mieux exploiter les deux technologies, surtout si elle venait tre couple des fonctions de classification automatique de donnes. Cela tombe bien, ces dernires se banalisent aussi dans les baies de stockage

2011 - 2012 SolutionITPME - http://www.solutionitpme.fr

Page 22

Comprendre : comment le RAID protge vos donnes


La technologie RAID permet damliorer les performances et la fiabilit du stockage en combinant plusieurs disques. Reste quil est important de bien comprendre les diffrents modes RAID pour bien choisir celui qui est adapt chaque type dapplication
Protger lentreprise contre les pertes de donnes lies aux pannes mcaniques ou lectroniques des disques durs : cest la mission de la technologie Raid (Redundant Array of Inexpensive Disks ou matrice redondance de disques conomiques), une technologie mise en oeuvre par la plupart des baies de stockage du march comme les baies VNX et VNXe dEMC. Du fait de leur nature mcanique, les disques durs qui stockent les donnes de nos ordinateurs ne sont pas labri de pannes. Et ces mmes pannes peuvent aussi se produire sur les baies de stockage dentreprise, mme si les disques de ces quipements sont slectionns de faon plus exigeante. Les baies de stockage dentreprise ayant pour mission de protger les donnes les plus importantes de lentreprise, il est toutefois hors de question de ne pas se prmunir contre les ventuelles pannes ou dysfonctionnements dun disque dur, sous peine de perdre irrmdiablement des donnes. Cest pour parer ces dsagrments que la technologie Raid a t invente. Lide gnrale est la suivante!: au lieu de stocker les donnes sur un disque unique, on cre des grappes composes de plusieurs disques, dont certains ont pour mission de fournir un niveau de redondance. Ainsi, en cas de dfaillance dun ou plusieurs disques, le contrleur Raid de la baie pourra reconstituer la vole les donnes contenues sur les disques dfectueux. Le Raid permet donc de protger les donnes contre les pannes mais aussi assure que la baie continue fonctionner mme avec un ou plusieurs disques dfaillant, un point essentiel pour des applications informatiques qui de plus en plus doivent fonctionner 24! heures/24 et sept jours sur sept. En mode Raid1, toutes les donnes crites sur le disque 1 sont clones sur le disque 2.En cas de panne d'un disque, le systme continuera ainsi fonctionner normalement Il existe toutefois de multiples modes raid adapts des scnarios dusage diffrents. Selon le mode Raid choisi, une grappe de disques sera plus ou moins fiable et plus ou moins performante. Certains modes Raid permettent ainsi de se prmunir contre les pannes mcaniques dun ou plusieurs disques tandis que dautres permettent daccrotre les performances. Certains, enfin, permettent de combiner ces deux avantages. Raid 1
En mode Raid1, toutes les donnes crites sur le disque 1 sont clones sur le disque 2.En cas de panne d'un disque, le systme continuera ainsi fonctionner normalement

Le Raid 1 (ou miroir) consiste dupliquer sur autant de disques que contient la grappe, les donnes crites sur le premier disque de la grappe. Ce faisant, le niveau de protection de donnes crot avec le nombre de miroirs. En cas de panne dune unit, le contrleur dsactive

2011 - 2012 SolutionITPME - http://www.solutionitpme.fr

Page 23

automatiquement le disque incrimin et attend linsertion dun disque neuf pour rebtir un nouveau disque miroir. Le prix payer pour cette tolrance aux pannes est un cot lev (li au doublement du nombre de disques) et des performances en retrait (du fait des oprations de miroir raliser). Raid 5 Utilisable partir de trois disques, le Raid! 5 permet de rpartir les donnes sur lensemble des disques de la grappe et assure leur protection par le calcul dinformations de parit permettant de reconstituer les donnes en cas de dfaillance dun disque. Dans une grappe n disques, chaque bande est constitue de n-1 blocs de donnes et dun bloc de parit calcul partir des n-1 blocs de donnes prcdents. Une grappe Raid 5 peut ainsi survivre la perte dun disque! : pour chaque bande, il manquera soit un bloc de donnes soit le bloc de parit. La perte du bloc de parit na aucun impact sur lintgrit des donnes, tandis quun bloc perdu Les donnes crites sur une grappe Raid 5 peut tre recalcul partir des blocs survivant et des informations peuvent survivre la panne d'un disque de la de parit. Du fait de ces caractristiques, une grappe Raid 5 grappe moderne allie performances et fiabilit, sans trop sacrifier la capacit. Par exemple une grappe Raid 5 compose de 4 disques 1 To a une capacit utilisable de 3 To (1!To tant consomm par les informations de parit). Outre la protection des donnes, les principaux avantages du Raid 5 et du Raid 6 sont leurs performances leves en lecture ( peu prs similaires celle du Raid 0 voir ci-aprs) et leur meilleure utilisation de la capacit disponible par rapport au Raid 1. En revanche, le calcul de parit tant une opration gourmande en temps de calcul, elle a, en gnral, un impact sur la performance en criture (mme si les cartes Raid modernes et les processeurs rcents ont largement rduit ce dfaut). Raid 6 Lun des problmes du Raid 5 est que la reconstitution de la grappe aprs le remplacement dun disque dfectueux par une nouvelle unit est dautant plus longue que la capacit des disques est leve, ce qui peut prsenter un risque si la grappe est constitue dun grand nombre de disques et/ou si ceux-ci ont une grande capacit. La probabilit de panne dun second disque pendant lopration de reconstruction saccrot en effet avec la capacit. Le Raid 6 a en partie t cr pour cette raison! : pour chaque bande, on crit deux blocs de parit, ce qui fait que lon est protg contre la panne de deux disques, au prix toutefois dune capacit rduite. Outre la protection des donnes, les principaux avantages du Raid 5 et du Raid 6 sont leurs performances leves en lecture (a peu prs similaires celle du Raid 0) et leur meilleure utilisation de la capacit disponible par rapport au Raid 1. En revanche, le calcul de parit tant une opration gourmande en temps de calcul, elle a en gnral un impact perceptible sur la performance en criture (mme si les cartes Raid modernes et les processeurs rcents ont largement rduit ce dfaut). Raid 0 : la performance au dtriment de la fiabilit Le Raid 0 (ou striping) permet dobtenir des performances leves en distribuant les donnes sur lensemble des disques dune grappe mais sans aucune information de parit. Dans ce mode, les donnes crire sont dcoupes en bandes de tailles gales (ou stripe). Sur une configuration trois disques, la premire stripe est crite sur le disque n! 1 tandis que la seconde est crite en parallle sur le disque! n! 2 et la troisime sur

2011 - 2012 SolutionITPME - http://www.solutionitpme.fr

Page 24

le disque n! 3, et ainsi de suite en repartant du 1er disque. Le rsultat est une grappe dont la capacit est gale la somme des capacits de ses membres et dont les performances augmentent avec le nombre de disques. Dans un monde parfait (o le temps de dcoupage en stripe serait nul et sans impact sur les performances), une grappe RAID 0 quatre disques serait quatre fois plus vloce quun disque seul. Ce nest pas tout fait le cas, mais le mode RAID 0 permet dobtenir des performances trs leves. Seul (vrai) problme! : la panne dun seul disque de la grappe entrane la perte de lensemble des donnes de la grappe or la probabilit dune panne croit avec le nombre de disques Le Raid 0 est donc rserver aux applications qui ont un besoin absolu de performances mais pour lesquelles la perte de donnes est un risque acceptable. Quel mode Raid choisir pour quel usage ? Notons quen plus des modes standards, il est possible avec certains contrleurs Raid possible de combiner plusieurs modes raid. Par exemple, le Raid 10 permet de !striper!!des agrgats raid!en miroir, en clair de faire du Raid 0 partir de grappe en Raid 1. Le rsultat est un ensemble de disques alliant les performances du Raid 0 avec la fiabilit des grappes en miroir sous-jacentes. Comprendre le principe des modes Raid est une chose, les utiliser bon escient en est une autre. Il est par exemple courant de placer le volume de dmarrage dun serveur sur une grappe en Raid 1 (le miroir permet de se prmunir contre une panne sur un! disque de boot). Le Raid 10 est prconis pour les applications ncessitant beaucoup dcritures alatoires et un assez haut niveau de protection. Microsoft, par exemple, le recommande pour son serveur de messagerie Exchange, tandis quOracle le prconise pour les applications de bases de donnes transactionnelles intensives. L Le Raid 5, enfin, est une bonne approche pour les applications NAS bureautiques ou pour les applications de bases de donnes effectuant essentiellement des oprations de lecture (cas dun datawarehouse par exemple). Il est noter pour terminer que des baies rcentes comme les baies VNXe dEMC savent slectionner automatiquement le mode de protection adapt aux principales applications du march. Ce qui dans la plupart des cas vous vite davoir vous proccuper du mode Raid (sauf bien sr si vous voulez conserver un contrle manuel sur ce paramtre).

2011 - 2012 SolutionITPME - http://www.solutionitpme.fr

Page 25

Vous aimerez peut-être aussi