Vous êtes sur la page 1sur 34

4 Storage Basics for Cloud Computing

Les disques durs sont un élément indispensable des ordinateurs personnels (PC), aussi bien les
ordinateurs portables que les ordinateurs de bureau. Lorsque nous achetons un ordinateur, nous
vérifions la capacité (par exemple, 1 To ou 500 Go) et le type de son disque dur. Les disques SSD
(Solid State Drive) et les disques durs (HDD) sont aujourd'hui deux types de disques durs courants.
Dans le cloud computing, les disques sont également un élément indispensable. Cependant,
contrairement aux disques des PC courants, les disques du cloud computing ne sont pas des entités
physiques. Les utilisateurs du cloud se préoccupent uniquement des performances et de la capacité
du disque, plutôt que de leurs attributs physiques. Cependant, en tant qu'ingénieur en cloud
computing, vous devez connaître non seulement les préoccupations des utilisateurs finaux, mais
également comment convertir des disques durs physiques en disques cloud.

1. Cloud disk specifications

1. Storage architecture in virtualization


Dans cette architecture, les disques physiques sont situés dans la couche inférieure et les disques
cloud dans la couche supérieure. Une série d'opérations telles que le partitionnement logique et le
formatage du système de fichiers sont effectuées entre les deux couches. Vous devez comprendre
ces opérations. En outre, vous devez comprendre les différences entre le stockage virtualisé et non
virtualisé. Voyons d'abord les types de disques physiques courants.

1. Mainstream Physical Disk Types (Types de disques physiques


principaux)

1.1.2 HDD
Le premier système de stockage sur disque au monde, IBM 305 RAMAC, a été introduit par IBM en
1956. Il pesait environ une tonne et stockait cinq millions de caractères six bits (5 Mo) sur une pile
de cinquante disques de 24 pouces. En 1973, IBM a développé un nouveau type de disque dur, IBM
3340. Ce type de disque dur avait plusieurs plateaux métalliques coaxiaux recouverts d'un matériau
magnétique. Ils ont été scellés dans une boîte avec des têtes amovibles qui lisent les changements
dans les signaux magnétiques des plateaux rotatifs. IBM 3340 a été introduit avec une technologie
de disque avancée connue sous le nom de "Winchester" et est considéré comme le prédécesseur
de tous les disques durs actuels. IBM 3340 se compose de deux unités de stockage de 30 Mo, dont
30 Mo de stockage fixe et 30 Mo de stockage amovible. Le célèbre fusil Winchester avait également
un calibre et une charge de 30-30. Ce type de lecteur de disque était également appelé «lecteur de
disque Winchester». En 1980, Seagate a produit le premier lecteur de disque Winchester utilisé
pour les PC, qui était à peu près de la taille d'un lecteur de disquette à l'époque: 5 Mo. La Figure 4-3
montre un lecteur de disque Winchester.

La vitesse de lecture du lecteur de disque était limitée par la vitesse de rotation. L'augmentation de
la vitesse de rotation pourrait augmenter la vitesse d'accès aux données. Cependant, les plateaux
étaient appariés avec des têtes magnétiques et en contact les uns avec les autres. Une vitesse de
rotation élevée peut facilement endommager le lecteur de disque. Par conséquent, les techniciens
ont envisagé de faire «voler» les têtes au-dessus des plateaux. La rotation à grande vitesse des
plateaux produit un vent qui coule. Par conséquent, tant que les têtes étaient correctement formées,
elles pouvaient voler au-dessus des surfaces du plateau comme un avion. De cette manière, les
plateaux pourraient tourner à une vitesse élevée sans frottement. C'était la technologie Winchester.
Les têtes magnétiques d'un lecteur de disque Winchester sont disposées sur un bras d'actionnement
qui se déplace radialement le long des plateaux et n'entre pas en contact avec les plateaux. Lorsque
les têtes se déplacent par rapport aux plateaux, les têtes pourraient induire les pôles magnétiques
sur les surfaces des plateaux, et enregistrer ou modifier l'état des pôles magnétiques pour terminer
la lecture et l'écriture des données. Comme les têtes se déplaçaient à une vitesse élevée par rapport
aux plateaux et qu'elles étaient proches les unes des autres, même une particule de poussière peut
endommager le disque. Par conséquent, le disque doit être encapsulé dans une boîte scellée pour
maintenir un environnement interne propre et garantir que les têtes et les plateaux peuvent
fonctionner efficacement et de manière fiable.

Un PC moderne contient généralement des supports de stockage tels qu'un disque dur, un lecteur de
CD ou de DVD-ROM, un lecteur de bande ou un disque SSD (Solid State Disk). Les disques durs sont
considérés comme un périphérique de stockage irremplaçable et important en raison de sa grande
capacité, son prix bas, sa vitesse de lecture élevée et sa fiabilité élevée.

Lorsque nous parlons d'un disque dur, nous parlons généralement d'un disque dur. Il se compose de
plusieurs plateaux de disques, d'un ensemble de broche, d'un ensemble de tête flottante, d'un
mécanisme d'actionneur de tête, d'un circuit de commande d'entraînement avant et d'interfaces,
comme illustré à la figure 4-4.

Plateaux et broche. Les plateaux et la broche sont deux parties étroitement liées. Les plateaux sont
des plaques circulaires recouvertes d'une couche de matériau magnétique pour l'enregistrement des
données. La broche est entraînée par le moteur de broche, qui entraîne les plateaux à tourner à une
vitesse élevée.

Tête flottante. L'ensemble de tête flottante se compose de têtes de lecture / écriture, d'un bras
d'actionneur et d'un axe d'actionneur. Lorsque les plateaux tournent à une vitesse élevée, le bras
d'actionneur entraîne les têtes de lecture / écriture à l'extrémité avant pour se déplacer dans la
direction verticale des plateaux tournés avec l'axe de l'actionneur comme point central. Les têtes
induisent les signaux magnétiques sur les plateaux pour lire ou modifier les propriétés magnétiques
du revêtement magnétique et pour écrire des informations.

Actionneur. Il se compose d'un actionneur de tête, d'un moteur et d'un mécanisme antichoc. Il est
utilisé pour actionner et localiser précisément les têtes, de sorte que les têtes puissent lire et écrire
des données sur une piste spécifiée à une vitesse élevée et avec une grande précision.
Carte électronique de l'actionneur. C'est un circuit amplificateur scellé dans une cavité de blindage.
Il est utilisé pour contrôler les signaux d'induction des têtes, régler la vitesse du moteur de broche et
de l'entraînement, et localiser les têtes.

Interfaces. En règle générale, ils incluent des interfaces d'alimentation et des interfaces de transfert
de données. Actuellement, les types d'interface courants sont SATA et SAS.

Les plateaux, plaques métalliques recouvertes de matériau magnétique, sont utilisés pour stocker
des données sur un disque dur. Les surfaces du plateau sont divisées en cercles de pistes. Lorsque les
plateaux tournent rapidement entraînés par le moteur, les têtes disposées sur les surfaces des
plateaux sont contrôlées avec précision et les données sont lues et écrites le long des pistes. Lorsque
le système écrit des données sur un disque dur, un courant qui varie avec le contenu des données est
généré dans les têtes. Le courant génère un champ magnétique, qui modifie le état du matériau
magnétique sur les surfaces du plateau. L'état peut être maintenu en permanence après la
disparition du champ magnétique, ce qui signifie que les données sont enregistrées. Lorsque le
système lit les données d'un disque dur, les têtes traversent la zone spécifiée des plateaux. Le champ
magnétique sur les surfaces du plateau amène les têtes à générer un courant induit ou à modifier
l'impédance de la bobine. La modification est capturée et traitée pour restaurer les données écrites
d'origine.

Actuellement, les disques durs SATA et SAS sont couramment utilisés et se distinguent par le type
d'interface. Ce qui suit décrit les deux types de disques durs.

Disque dur SATA

Vous devez d'abord connaître l'interface ATA (Advanced Technology Attachment). Les interfaces ATA
sont des interfaces IDE (Integrated Drive Electronics). Les interfaces ATA ont été développées depuis
les années 1980. En raison de leur faible prix et de leur bonne compatibilité, les interfaces ATA sont
devenues les principales interfaces de stockage sur le marché. Cependant, avec le développement
rapide des technologies, sa faible vitesse entrave son application dans les systèmes informatiques
modernes.

SATA, c'est-à-dire Serial ATA, a essentiellement remplacé toutes les interfaces ATA parallèles, comme
le montre la Figure 4-5. Comme son nom l'indique, SATA transfère les données en mode série. L'une
de ses caractéristiques distinctives est que SATA est plus rapide que ATA. Actuellement, le SATA 3.0
grand public peut avoir un taux de transfert de 6,0 Gbit / s, ce qui est plusieurs fois supérieur à celui
de l'ATA parallèle.
1. SATA interface
SATA utilise des interfaces de données et des interfaces de signaux indépendantes pour transférer
des données. Parallel ATA (PATA) utilise un bus de données 16 bits pour le transfert de données et
doit transférer de nombreux signaux supplémentaires de prise en charge et de contrôle. En raison de
la limitation du processus de fabrication, le PATA est sensible au bruit et sa tension de signal est de 5
V. En revanche, SATA utilise des signaux d'horloge intégrés et a une capacité de correction d'erreur
plus forte. La tension du signal du SATA est de 0,5 V.

Du point de vue de la structure du bus, SATA utilise un seul canal pour effectuer le transfert point à
point. Les données sont transférées par bit en mode série et le bit de signal de somme de contrôle
est intégré dans les données. Cette méthode de transfert assure le taux de transfert et améliore la
fiabilité du transfert.

SATA utilise une architecture point à point et prend en charge le remplacement à chaud. L'interface
SATA utilise sept broches de données et quinze broches d'alimentation. Par rapport à l'interface ATA
parallèle, l'interface SATA utilise des câbles plus fins, faciles à plier. Un câble SATA peut avoir une
longueur maximale d'un mètre, ce qui facilite le refroidissement du châssis. La Figure 4-6 montre le
disque dur SATA.

1. SATA interface
Disque dur SAS

SCSI (SAS) en série, c'est-à-dire une interface système pour petit ordinateur. Semblable à SATA, SAS
est développé sur la base de la technologie SCSI parallèle.

SCSI est largement utilisé comme stockage d'entreprise en raison de ses performances élevées.
L'interface SCSI fournit trois types de connecteurs: 50 broches, 68 broches et 80 broches. Après des
décennies de développement, la technologie SCSI grand public Ultra 320 SCSI prend en charge un
taux de transfert de 320 Mo / s.

SAS est une branche de la technologie SCSI. Semblable à SATA, SAS utilise le transfert série pour
obtenir de meilleures performances. Actuellement, le taux de transfert SAS grand public est de 6 Gbit
/ s. De plus, avec la technologie série, des câbles fins et longs peuvent être utilisés pour obtenir une
distance de connexion plus longue et améliorer une capacité anti-interférence. La Figure 4-7 montre
les vues avant et arrière d'une interface SAS

1. SAS interface
SAS est rétrocompatible avec SATA. Les contrôleurs SAS peuvent être connectés à des disques durs
SATA, ce qui offre un faible coût et une excellente flexibilité aux entreprises.

SAS utilise une architecture point à point. Semblable à SATA, SAS ne nécessite pas de signaux de
terminaison et n'a pas de problèmes de synchronisation. SAS prend en charge jusqu'à 65536
périphériques, tandis que SCSI ne prend en charge que 8 ou 16 périphériques

Disque dur NL-SAS

Near Line SAS (NL-SAS) est un type de disque dur entre SATA et SAS. Comparé à un disque dur SATA,
un disque dur SAS a une vitesse de lecture / écriture plus élevée, un prix plus élevé et une capacité
plus petite. Par conséquent, un disque dur NL-SAS est développé, qui se compose d'interfaces SAS et
de plateaux SATA, comme illustré à la Figure 4-8. Un disque dur se compose d'interfaces SAS et de
plateaux SATA.

1. NL-SAS

1.1.2.1.2
1.1.3 SSD
1. Le premier SSD au monde est apparu en 1989. Les SSD étaient
extrêmement chers à l'époque, mais leurs performances étaient bien
inférieures à celles d'un disque dur ordinaire. Par conséquent, il n'a pas été
largement utilisé. Cependant, en raison de ses caractéristiques uniques
telles que la résistance aux chocs, le faible bruit et la faible consommation
d'énergie, il a été largement utilisé dans certains domaines spéciaux tels
que le médical et l'armée.
2. Avec la maturation de la technologie, l'amélioration du processus de
fabrication et la réduction des coûts, le SSD a gagné en popularité dans le
domaine de la consommation. En 2006, Samsung a lancé son premier
ordinateur portable avec un SSD de 32 Go. Début 2007, SanDisk a lancé
deux produits SSD de 32 Go. En 2011, une grave inondation s'est produite
en Thaïlande. De nombreux fabricants de disques durs, tels que Western
Digital et Seagate, ont été contraints de fermer leurs usines en Thaïlande.
En conséquence, les livraisons de disques durs ont fortement chuté et les
prix ont fortement augmenté. Cela a grandement stimulé la demande de
SSD, apportant l'âge d'or des SSD. Aujourd'hui, la capacité, le coût, la
vitesse et la durée de vie des SSD ont été considérablement améliorés par
rapport aux produits d'origine. La capacité des disques SSD courants sur le
marché a atteint 128 Go et 256 Go. Le prix par Go ne représente qu'une
fraction du prix à ce moment-là, ce qui rend les disques SSD abordables
pour les consommateurs ordinaires. Les disques SSD sont l'un des
périphériques de stockage les plus essentiels dans les domaines des
ordinateurs portables et des tablettes ultra-minces. Il est prévisible que les
disques SSD recevront une attention encore plus grande dans les
prochaines années.
Un SSD se compose d'un contrôleur et de puces de mémoire. En termes simples, un SSD est un
disque dur composé d'une matrice de puces électroniques à semi-conducteurs. Les spécifications
d'interface, les définitions, les fonctions et l'utilisation des disques SSD sont les mêmes que celles des
disques durs courants. L'apparence et les dimensions des disques SSD sont les mêmes que celles des
disques durs courants, y compris 3,5 pouces, 2,5 pouces et 1,8 pouces. Parce qu'un SSD n'a pas de
structure de rotation comme un disque dur commun, il a
résistance supérieure aux chocs et large plage de températures de fonctionnement (–45 ° C à + 85 °
C). Par conséquent, il est largement utilisé dans des domaines tels que les équipements militaires,
montés sur véhicule, de contrôle industriel, de vidéosurveillance, de surveillance réseau, de terminal
réseau, d'énergie électrique, de soins médicaux, d'aviation et de navigation. Les disques durs
traditionnels sont des lecteurs de disque et les données sont stockées dans des secteurs de disque.
Le support de stockage commun d'un SSD est la mémoire flash. Les disques SSD sont l'une des
tendances majeures des disques durs à l'avenir. La Figure 4-9 montre la structure interne d'un SSD.
Un SSD se compose d'un contrôleur flash et de puces mémoire. Le contrôleur flash contrôle la
coordination du processus de lecture / écriture des données et les puces de mémoire sont
responsables du stockage des données. Les puces mémoire sont classées en deux types par support.
Un type le plus courant consiste à utiliser une puce de mémoire flash comme support de stockage, et
l'autre type consiste à utiliser une puce de mémoire vive dynamique (DRAM) comme support de
stockage.

SSD basés sur Flash

Les SSD les plus courants utilisent une puce de mémoire flash comme support de stockage. Les puces
de mémoire flash peuvent être transformées en divers produits électroniques, tels que les SSD, les
cartes mémoire et les clés USB. Ces appareils sont de petite taille et faciles à utiliser. Les disques SSD
abordés dans cette section sont des disques SSD Flash.

SSD basés sur DRAM

Ce type de SSD utilise la DRAM comme support de stockage. Ce type de support de stockage a des
performances supérieures et une longue durée de vie et est actuellement largement utilisé en
mémoire. Cependant, la DRAM stocke les données uniquement lorsqu'elle est sous tension. Une fois
éteint, les informations stockées dans la DRAM seront perdues. Par conséquent, la DRAM nécessite
une alimentation supplémentaire pour la protection. Actuellement, ces disques SSD sont chers et
utilisés dans quelques domaines.

Les SSD présentent les avantages suivants par rapport aux disques durs traditionnels:

Vitesse de lecture élevée

Comme un SSD utilise des puces de mémoire flash comme support de stockage et n'a pas de
structure de disque et de moteur, le temps de recherche est économisé lorsque les données sont
lues, et l'avantage de vitesse peut être particulièrement reflété lorsque les données sont lues de
manière aléatoire. De plus, les performances du SSD ne sont pas affectées par les fragments de
disque.

Résistance aux chocs supérieure


Il n'y a pas de pièces mécaniques en mouvement à l'intérieur d'un SSD, ce qui élimine la possibilité
d'un défaut mécanique et permet aux SSD de tolérer les collisions, les chocs et les vibrations. Les SSD
fonctionnent correctement même lorsqu'ils se déplacent rapidement ou sont fortement inclinés, et
minimisent la perte de données lorsque l'ordinateur portable tombe ou entre en collision avec un
autre objet.

Pas de bruit

Il n'y a pas de moteur mécanique à l'intérieur d'un SSD, ce qui signifie qu'il est vraiment silencieux et
silencieux.

Petite taille et léger

Un SSD peut être intégré sur une petite carte de circuit imprimé (PCB).

Plage de températures de fonctionnement plus large

Un disque dur classique ne peut fonctionner que dans une plage de températures de fonctionnement
de 5 ° C à 55 ° C. La plupart des disques SSD peuvent fonctionner dans une plage de températures de
fonctionnement de –10 ° C à 70 ° C, et certains SSD de qualité industrielle peuvent fonctionner dans
une plage de températures de fonctionnement de –40 ° C à 85 ° C ou même plus.

Cependant, les disques SSD présentent également deux inconvénients et ne peuvent donc pas être
utilisés comme substituts des disques durs. Un inconvénient est le coût élevé. Actuellement, le prix
par Go d'un SSD est environ 10 fois supérieur à celui d'un disque dur traditionnel. Les SSD de grande
capacité sont encore rares sur le marché. Par conséquent, pour les applications insensibles aux
vitesses de lecture / écriture des données, les disques durs restent le premier choix. L'autre
inconvénient est la durée de vie limitée. En règle générale, une mémoire flash haute performance
peut être effacée de 10 000 à 100 000 fois, et une mémoire flash de consommation courante peut
être effacée de 3 000 à 30 000 fois. Avec une amélioration continue du processus de fabrication, une
taille plus petite de l'unité de stockage réduit encore les temps d'effacement maximum de la
mémoire flash. En règle générale, le contrôleur du SSD est capable d'équilibrer la perte de puce, de
sorte que la puce de stockage puisse être consommée plus uniformément, améliorant ainsi la durée
de vie.

Les SSD, en tant que supports de stockage avec des vitesses de lecture / écriture plus élevées que les
disques durs traditionnels, ont fait l'objet d'une large attention. Contrairement aux disques durs
traditionnels, les disques SSD ne comportent aucun composant mécanique. Par conséquent, les SSD
améliorent rapidement les performances. De plus, les SSD présentent des caractéristiques
distinctives telles que la résistance aux chocs, la petite taille, l'absence de bruit et les faibles besoins
de refroidissement. Beaucoup de gens espèrent que les SSD pourront remplacer les disques durs
traditionnels et devenir une nouvelle génération de périphériques de stockage. Cependant, le coût
des disques SSD est bien plus élevé que celui des disques durs traditionnels et les performances des
disques durs peuvent répondre à une grande partie des besoins. Par conséquent, les disques durs
traditionnels et les disques SSD coexisteront et se développeront ensemble pendant longtemps.

Comparison of different types of hard drives


Item SSD SAS NL-SAS SATA

Performance Very high High Relatively high Relatively high


Reliability Minor High Relatively high Minor
Price Very high High Relatively low Low
Power Minor High Relatively low Relatively low
consumption
Recommended Suitable Suitable Suitable for users Suitable for users
scenario for users for high- with large data with large data
with very and mid- blocks and low blocks and low
large data end users service I/O service pressure
access with pressure
discrete
data

1.1 Centralized Storage and Distributed Storage


1.1.1 Centralized Storage
Le stockage centralisé signifie que toutes les ressources de stockage sont déployées de manière
centralisée et sont provisionnées via une interface unifiée. Avec le stockage centralisé, tous les
disques physiques sont déployés de manière centralisée dans des boîtiers de disques et sont utilisés
pour fournir des services de stockage en externe via le contrôleur. Le stockage centralisé fait
généralement référence aux baies de disques.

En fonction de l'architecture technique, le stockage centralisé peut être classé en SAN et NAS. SAN
peut être davantage catégorisé en FC SAN, IP SAN et FCoE SAN. Actuellement, les technologies FC
SAN et IP SAN sont matures et FCoE SAN a encore un long chemin à parcourir pour atteindre sa
maturité.

Une matrice de disques combine plusieurs disques physiques en une seule unité logique. Chaque
baie de disques se compose d'un boîtier de contrôleur et de plusieurs boîtiers de disques. Cette
architecture offre un espace de stockage intelligent offrant une haute disponibilité, des
performances élevées et une grande capacité.

SAN Storage
Le réseau de stockage (SAN), avec des blocs comme unité d'accès aux données de base, est un réseau
de stockage à haut débit dédié qui est indépendant du système de réseau de service. Ce type de
réseau est mis en œuvre sous la forme d'un réseau de stockage Fibre Channel (FC SAN), d'un réseau
de stockage IP (IP SAN) et d'un réseau de zone de stockage SCSI en série (SAS SAN). Différentes
implémentations transfèrent les données, les commandes et l'état entre les serveurs et les
périphériques de stockage en utilisant différents protocoles de communication et connexions.

Le stockage en attachement direct (DAS) est le système de stockage le plus utilisé avant
l'introduction du SAN. Le DAS est utilisé depuis près de quarante ans. Les premiers centres de
données utilisaient des baies de disques pour étendre les capacités de stockage en mode DAS. Les
périphériques de stockage de chaque serveur ne servent qu’une seule application et fournissent un
environnement de stockage isolé. Cependant, ces périphériques de stockage isolés sont difficiles à
partager et à gérer. Avec l'augmentation des données utilisateurs, les inconvénients de ce mode
d'extension en termes d'extension et de reprise après sinistre sont de plus en plus évidents. SAN
résout ces problèmes. SAN connecte ces îlots de stockage isolés via un réseau haut débit. Ces
périphériques de stockage peuvent être partagés par plusieurs serveurs via le réseau, offrant une
sauvegarde des données à distance et une excellente évolutivité. Tous ces facteurs font que cette
technologie de stockage se développe rapidement.

En tant que solution de stockage émergente, le SAN accélère le transfert de données, offre une plus
grande flexibilité et réduit la complexité du réseau, atténuant l'impact des goulots d'étranglement de
transfert sur le système et améliorant l'efficacité de la reprise après sinistre à distance.

Un SAN est une architecture réseau qui se compose de périphériques de stockage et de composants
système, y compris des serveurs qui doivent utiliser des ressources de stockage, des adaptateurs de
bus hôte (HBA) qui connectent des périphériques de stockage et des commutateurs FC.

Sur un SAN, toutes les communications liées au stockage de données sont mises en œuvre sur un
réseau indépendant isolé du réseau d'application, ce qui signifie que le transfert de données sur le
SAN n'affecte pas le réseau de données du système d'application existant. Par conséquent, le SAN
offre des capacités d'E / S plus élevées de l'ensemble du réseau sans réduire l'efficacité du réseau de
données du système d'application d'origine, des liaisons redondantes vers le système de stockage et
la prise en charge du système de cluster haute disponibilité (HA).

Avec le développement des technologies SAN, trois types de SAN sont mis à disposition: FC SAN, IP
SAN et SAS SAN. Ce qui suit décrit FC SAN et IP SAN.

Dans FC SAN, deux adaptateurs d'interface réseau sont configurés sur le serveur de stockage. L'un est
une carte d'interface réseau (NIC) commune qui se connecte au réseau IP de service et le serveur
interagit avec le client via ce NIC. L'autre est un HBA qui se connecte au FC SAN et le serveur
communique avec les périphériques de stockage sur le FC SAN via cet adaptateur. La figure 4-10
montre l'architecture FC SAN

1. FC SAN architecture
IP SAN est devenu une technologie de stockage réseau populaire ces dernières années. Les premiers
SAN sont tous des SAN FC, où les données sont transférées dans le Fibre Channel en tant qu'unité
d'accès par blocs. En raison de l'incompatibilité entre le protocole FC et le protocole IP, les clients qui
souhaitent implémenter le SAN FC doivent acheter ses périphériques et composants. Son prix élevé
et sa configuration compliquée empêchent un grand nombre de demandes des utilisateurs de petite
et moyenne taille. Par conséquent, FC SAN est principalement utilisé pour le stockage moyen et haut
de gamme qui nécessite des performances, une redondance et une disponibilité élevées. Pour
vulgariser les SAN et tirer parti des avantages de l'architecture SAN, les techniciens envisagent de
combiner les SAN avec les réseaux IP actuels et abordables. Par conséquent, le SAN IP qui utilise
l'architecture réseau IP existante est introduit. Le SAN IP est une combinaison du protocole TCP / IP
standard avec le jeu d'instructions SCSI et implémente un stockage de données au niveau des blocs
basé sur le réseau IP.

La différence entre IP SAN et FC SAN réside dans le protocole et le support de transfert. Les
protocoles SAN IP courants incluent iSCSI, FCIP et iFCP. iSCSI est la norme de protocole à la croissance
la plus rapide. Dans la plupart des cas, IP SAN fait référence au SAN iSCSI.

Un initiateur iSCSI (serveur) et une cible iSCSI (périphérique de stockage) forment un SAN. La figure 4-
11 montre l'architecture IP SAN

1. IP SAN architecture
Le SAN IP présente les avantages suivants par rapport au SAN FC:

Accès standard. Les SAN IP nécessitent uniquement des cartes et commutateurs Ethernet courants
pour la connexion entre les périphériques de stockage et les serveurs au lieu de HBA dédiés ou de
commutateurs Fibre Channel.

Longue distance de transfert. Les SAN IP sont disponibles partout où les réseaux IP existent.
Actuellement, les réseaux IP sont les réseaux les plus utilisés au monde. Bonne maintenabilité. La
plupart du personnel de maintenance réseau a une bonne connaissance des réseaux IP. Par
conséquent, les SAN IP sont plus acceptables que les SAN FC. De plus, IP SAN peut être maintenu à
l'aide des outils de maintenance de réseau IP développés.
La bande passante peut être facilement étendue. Avec le développement rapide d'Ethernet de 10
Go, il est inévitable que la bande passante d'un seul port sur le SAN IP iSCSI basé sur Ethernet puisse
être étendue à 10 Go.

Ces avantages réduisent le coût total de possession (TCO). Par exemple, pour construire un système
de stockage, le TCO comprend l'achat de baies de disques et de périphériques d'accès (HBA et
commutateurs), la formation du personnel, la maintenance de routine, l'extension de capacité et
l'extension de capacité de reprise après sinistre. Grâce à la large application des réseaux IP, les SAN
IP aident les clients à réduire considérablement le coût d'achat des périphériques d'accès, les coûts
de maintenance et les coûts d'extension de capacité et de réseau.

Tableau lists the comparison between IP SAN and FC SAN.

Item IP SAN FC SAN

Network 1 GB, 10 GB, and 40 4 GB, 8 GB, and 16 GB


speed GB
Network Existing IP networks Dedicated fibre channel networks and HBAs
architecture
Transfer Not limited Limited by the maximum transfer distance of
distance theoretically optical fibers
Management As simple as operating Complicated technologies and management
and IP devices
maintenance
Compatibility Compatible with all IP Poor compatibility
network devices
Performance 1 GB and 10 GB being Very high transfer and read/write performance
developed
Cost Low purchase and High purchase (Fibre Channel switches, HBAs,
maintenance costs Fibre Channel disk arrays, and so on) and
maintenance (personnel training, system
configuration and supervision, and so on) costs
Disaster Local and remote DR High hardware and software costs for disaster
recovery available based on recovery (DR)
existing networks at a
low cost
Security Relatively low Relatively high
NAS
Le stockage en réseau (NAS) est une technologie qui intègre des données distribuées et
indépendantes dans un centre de données centralisé à grande échelle pour l'accès par différents
hôtes et serveurs d'applications. NAS est un stockage de données informatiques au niveau des
fichiers connecté à un réseau informatique fournissant un accès aux données à un groupe
hétérogène de clients. Un serveur NAS contient des périphériques de stockage, tels que des baies de
disques, des lecteurs de CD / DVD, des lecteurs de bande ou des supports de stockage portables. Un
serveur NAS fournit un système d'exploitation intégré pour partager des fichiers entre plates-formes.

La création du NAS est étroitement liée au développement du réseau. Après la création de


l'ARPANET, les technologies de réseau modernes se développent rapidement et les utilisateurs ont
une demande croissante de partage de données sur le réseau. Cependant, le partage de fichiers sur
le réseau est confronté à de nombreux problèmes tels que l'accès multiplateforme et la sécurité des
données. La figure 4-12 montre le partage de réseau au stade initial.

1. Network sharing in the early stage


Pour résoudre ce problème, les techniciens utilisent un ordinateur dédié pour stocker un grand
nombre de fichiers partagés. L'ordinateur est connecté à un réseau existant et permet à tous les
utilisateurs du réseau de partager l'espace de stockage. De cette manière, le premier environnement
réseau UNIX a évolué vers un moyen de partager des données en fonction des serveurs de fichiers.

Le stockage des données partagées à l'aide de serveurs dédiés avec un grand espace de stockage doit
garantir la sécurité et la fiabilité des données. Un seul serveur doit traiter les demandes d'accès de
plusieurs serveurs. Par conséquent, les performances d'E / S du serveur de fichiers doivent être
optimisées. De plus, la surcharge supplémentaire du système d'exploitation n'est pas nécessaire. Par
conséquent, le serveur utilisé dans ce mode doit exécuter un système d'exploitation léger avec
uniquement la fonction E / S et être connecté à un réseau existant. Les utilisateurs sur le réseau
peuvent accéder aux fichiers sur ce serveur spécial lorsqu'ils accèdent aux fichiers sur leurs propres
postes de travail, répondant ainsi aux demandes de partage de fichiers sur le réseau de tous les
utilisateurs. La Figure 4-13 montre le réseau TCP / IP dans l'environnement UNIX initial.
1. TCP/IP network sharing
Avec le développement des réseaux, il existe une demande croissante de partage de données entre
les ordinateurs sur le réseau. Les gens veulent que le système et les utilisateurs d'un réseau soient
connectés à un système de fichiers spécifique pour obtenir l'accès aux fichiers distants à partir d'un
ordinateur partagé lorsqu'ils accèdent aux fichiers dans un système d'exploitation local. De cette
façon, ils peuvent utiliser un ensemble de fichiers virtuels avec des fichiers stockés dans un
emplacement virtuel au lieu d'un ordinateur local. Ce mode de stockage évolue vers une intégration
avec un environnement client ou serveur traditionnel prenant en charge le système d'exploitation
Windows. Cela implique les capacités réseau Windows, les protocoles propriétaires et les serveurs de
base de données UNIX. Dans la phase de développement initiale, le réseau Windows se compose
d'un serveur de fichiers réseau qui est toujours utilisé et utilise un protocole de système de réseau
dédié. Ce qui suit montre le premier serveur de fichiers Windows.

1. Windows file server


La création de serveurs de fichiers entraîne un stockage de données centralisé, entraînant une forte
croissance du volume de données et de services centralisés. Par conséquent, des produits NAS dédiés
aux services de partage de fichiers ont été développés.

Le NAS a généralement ses propres nœuds sur un LAN et ne nécessite pas l'intervention de serveurs
d'applications. Le NAS permet aux utilisateurs d'accéder directement aux données de fichiers sur le
réseau. Dans cette configuration, le NAS gère et traite de manière centralisée tous les fichiers
partagés sur le réseau et libère les charges des serveurs d'applications ou d'entreprise, réduisant le
coût total de possession et maximisant le retour sur investissement des clients. Pour parler
simplement, un NAS est un appareil connecté au réseau avec une fonction de stockage de fichiers.
Par conséquent, le NAS est également appelé un périphérique de stockage de fichiers réseau. Il s'agit
d'un serveur de stockage de données de fichiers dédié. Il offre un stockage et une gestion centralisés
des fichiers et sépare les périphériques de stockage des serveurs, libérant de la bande passante,
améliorant les performances, maximisant le retour sur investissement des clients et réduisant le coût
total de possession.

Essentiellement, le NAS est un périphérique de stockage plutôt qu'un serveur. Le NAS n'est pas un
serveur de fichiers compact. Il offre des fonctionnalités plus distinctives que les autres serveurs. Les
serveurs traitent les services et les périphériques de stockage stockent les données. Dans un
environnement d'application complet, les deux types d'appareils doivent être combinés.

L'avantage du NAS est qu'il peut fournir des services de stockage de fichiers de manière rapide et
rentable en utilisant les ressources existantes dans le centre de données. La solution actuelle est
compatible entre les systèmes d'exploitation UNIX, Linux et Windows et peut être facilement
connectée aux réseaux TCP / IP des utilisateurs. Ce qui suit montre le système NAS

1. NAS system
Le NAS doit être capable de stocker et de sauvegarder de gros volumes de données et de fournir des
services de transfert de données stables et efficaces. Ces exigences ne peuvent pas être remplies
uniquement par le matériel. Par conséquent, le NAS dépend du logiciel. Le logiciel NAS peut être
divisé en cinq modules: système d'exploitation, gestionnaire de volume, système de fichiers, partage
de fichiers sur un réseau et gestion Web, comme illustré à la Figure 4-16
1. NAS architecture
Le périphérique NAS peut lire et écrire le système de fichiers Internet commun (CIFS) ou le système
de fichiers réseau (NFS), et peut également lire et écrire les deux systèmes en même temps.

CIFS est un système de fichiers public et ouvert développé par Microsoft Server Message Block
(SMB). SMB est un protocole de partage de fichiers défini par Microsoft basé sur NetBIOS. Les
utilisateurs peuvent accéder aux données sur un ordinateur distant via CIFS. En outre, CIFS empêche
les conflits de lecture-écriture et les conflits d'écriture-écriture pour prendre en charge l'accès multi-
utilisateur.

Pour permettre aux ordinateurs Windows et Unix de partager des ressources et permettre aux
utilisateurs Windows d'utiliser des ressources sur des ordinateurs Unix comme s'ils utilisaient des
serveurs Windows NT, le meilleur moyen consiste à installer un logiciel prenant en charge le
protocole SMB / CIFS sur les ordinateurs Unix. Lorsque tous les systèmes d'exploitation grand public
prennent en charge CIFS, les communications entre les ordinateurs sont pratiques. Samba aide les
utilisateurs Windows et Unix à réaliser ce désir. Un serveur CIFS est configuré pour partager des
ressources avec les ordinateurs cibles. Les ordinateurs cibles montent les ressources partagées sur le
serveur CIFS sur leurs propres systèmes d'exploitation via un simple mappage partagé et utilisent les
ressources en tant que ressources du système de fichiers local. Grâce à un simple mappage, les
utilisateurs d'ordinateurs obtiennent toutes les ressources partagées requises du serveur CIFS.

Network File System (NFS) est un protocole de système de fichiers distribué développé à l'origine par
Sun Microsystems en 1984, permettant à un utilisateur sur un ordinateur client d'accéder à des
fichiers sur un réseau informatique, tout comme le stockage local. Il est conçu pour être utilisé entre
différents systèmes d'exploitation, par conséquent, son protocole de communication est
indépendant des hôtes et des systèmes d'exploitation. Lorsque les utilisateurs souhaitent utiliser des
fichiers distants, ils doivent uniquement utiliser la commande mount pour monter le système de
fichiers distant sous leurs propres systèmes de fichiers locaux. Il n'y a aucune différence entre
l'utilisation de fichiers distants et de fichiers locaux.

Le mécanisme de partage de fichiers indépendant de la plate-forme de NFS est implémenté sur la


base du protocole XDR / RPC.

La représentation des données externes (EDR) peut convertir le format des données. En règle
générale, EDR convertit les données en un format de données standard unifié pour assurer la
cohérence des données entre les différentes plates-formes, systèmes d'exploitation et langages de
programmation.

L'appel de procédure distante (RPC) demande des services à partir d'ordinateurs distants. Les
utilisateurs envoient des demandes aux ordinateurs distants sur le réseau. Les ordinateurs distants
traitent les demandes.

NFS utilise le mécanisme du système de fichiers virtuel (VFS) pour envoyer les demandes d'accès aux
données à distance des utilisateurs aux serveurs via des protocoles d'accès aux fichiers unifiés et des
appels de procédure à distance. NFS a évolué. Depuis sa création, il a été mis à jour en quatre
versions et a été porté sur presque tous les systèmes d'exploitation courants, devenant ainsi la
norme de facto pour les systèmes de fichiers distribués. NFS est introduit à une époque où l'état du
réseau est instable. Il est initialement transmis sur la base UDP plutôt que TCP avec une plus grande
fiabilité. UDP fonctionne bien sur un LAN avec une meilleure fiabilité, cependant, il est incompétent
sur un WAN avec une fiabilité médiocre, comme Internet. Actuellement, les améliorations TCP
permettent à NFS utilisant TCP d'offrir une fiabilité élevée et de bonnes performances.

0 lists the comparison between CIFS and NFS.

Comparison between CIFS and NFS

Item CIFS NFS

Transfer Network-based, Independent transfer


characteristics requiring high
reliability
Ease of use Requiring no Requiring dedicated software
additional software
Security Fault recovery Fault recovery available
unavailable
File conversion File format not File format reserved
reserved

1.1.1 RAID
Dans un système de stockage centralisé, tous les disques sont placés dans des boîtiers de disques et
gérés de manière uniforme par le boîtier de contrôleur. Le système prend en charge l'extension
dynamique de la capacité de stockage et améliore la tolérance aux pannes ainsi que les
performances de lecture et d'écriture. Un tel système utilise généralement une technologie appelée
baies redondantes de disques indépendants (RAID).

Il existe sept niveaux RAID de base: RAID 0 à RAID 6. Il existe également des combinaisons courantes
de niveaux RAID de base, tels que RAID 10 (combinaison de RAID 1 avec RAID 0) et RAID 50
(combinaison de RAID 5 avec RAID 0). Différents niveaux de RAID représentent des performances de
stockage, une sécurité des données et des coûts différents. Cette section décrit uniquement RAID 0,
RAID 1, RAID 5 et RAID 6.

RAID 0

RAID 0, également appelé stripping, combine plusieurs disques physiques en un disque logique, ce
qui offre les performances de stockage les plus élevées parmi tous les niveaux RAID. Bien que RAID 0
offre la vitesse la plus élevée, il n'a pas de redondance et ne prend pas en charge les E / S parallèles.
Lorsque les données sont stockées, les données sont segmentées en fonction du nombre de disques
qui construisent le volume RAID 0, et les données sont écrites sur les disques en parallèle. Par
conséquent, RAID 0 est le plus rapide de tous les niveaux. Cependant, RAID 0 n'a pas de redondance.
Si un disque physique tombe en panne, toutes les données seront perdues.

Théoriquement, les performances totales du disque sont égales aux performances d'un seul disque
multipliées par le nombre de disques. Cependant, en raison du goulot d'étranglement d'E / S du bus
et d'autres facteurs, les performances RAID ne sont pas un multiple du nombre de disques.
Autrement dit, si les performances d'un disque sont de 50 Mo / s, les performances RAID 0 de deux
disques sont d'environ 96 Mo / s et celles de trois disques peuvent être de 130 Mo / s au lieu de 150
Mo / s, par conséquent, le Les performances RAID 0 de deux disques sont considérablement
améliorées.

La figure 4-17 montre RAID 0. Il y a deux disques, le disque 1 et le disque 2. Le RAID 0 divise les
données (D1, D2 ...) en deux parties et les stocke en même temps. D1 et D2 sont stockés
respectivement sur le disque 1 et le disque 2. Une fois D1 stocké, D3 est stocké sur le disque 1.
D'autres blocs de données sont stockés de la même manière. De cette manière, deux disques
peuvent être considérés comme un grand disque et les E / S sont effectuées simultanément sur les
deux disques. Cependant, si un bloc de données est endommagé, toutes les données seront perdues

1. RAID 0
RAID 0 offre des performances de lecture et d'écriture supérieures mais n'a pas de redondance des
données. Elle s'applique aux applications qui ont une tolérance aux pannes pour l'accès aux données
et aux applications qui peuvent régénérer les données par d'autres méthodes, telles que les
applications Web et le streaming multimédia.

RAID 1

RAID 1, également connu sous le nom de miroir ou de mise en miroir, est conçu pour maximiser la
disponibilité et la réparabilité des données utilisateur. RAID 1 copie automatiquement toutes les
données écrites sur un disque sur l'autre disque d'un groupe RAID.

RAID 1 écrit les mêmes données sur le disque miroir tout en stockant les données sur le disque
source. Lorsque le disque source tombe en panne, le disque miroir prend le relais des services du
disque source. RAID 1 offre la meilleure sécurité des données parmi tous les niveaux RAID car le
disque miroir est utilisé pour la sauvegarde des données. Cependant, quel que soit le nombre de
disques utilisés, l'espace de stockage disponible n'est que la capacité d'un seul disque. Par
conséquent, RAID 1 offre la plus faible utilisation du disque parmi tous les niveaux RAID.
1. RAID 1
La figure 4-18 montre RAID 1. Il y a deux disques, le disque 1 et le disque 2. RAID 1 stocke les
données (D1, D2 ...) dans le disque source (disque 1), puis stocke à nouveau les données dans le
disque 2 pour la sauvegarde des données.

RAID 1 est l'unité de stockage la plus chère de tous les niveaux RAID. Cependant, il offre la plus haute
sécurité et disponibilité des données. RAID 1 s'applique aux applications de traitement des
transactions en ligne (OLTP) avec des opérations de lecture intensives et à d'autres applications qui
nécessitent des performances et une fiabilité de lecture / écriture élevées, par exemple, la
messagerie électronique, le système d'exploitation, le fichier d'application et l'environnement
d'accès aléatoire.

RAID 5

RAID 5 est le niveau RAID le plus courant dans les systèmes RAID avancés et est largement utilisé
pour ses performances supérieures et sa conception d'équilibre de redondance des données. C'est
l'abréviation de disques de données indépendants avec parité distribuée. RIAD 5 utilise la parité pour
le contrôle de parité et la correction des erreurs.

La Figure 4-19 montre le mode de stockage des données du RAID 5. Dans la figure, trois disques sont
utilisés comme exemple. P est la valeur de contrôle des données et D les données réelles. RAID 5 ne
sauvegarde pas les données stockées mais stocke les données de parité correspondantes sur
différents disques membres. Lorsque les données d'un disque membre sont corrompues, les données
corrompues peuvent être récupérées sur la base des données sur d'autres disques membres. Par
conséquent, RAID 5 est une solution de stockage qui équilibre les performances de stockage, la
sécurité des données et les coûts de stockage.
1. RAID 5
RAID-5 est une solution de protection des données largement utilisée qui offre des performances
globales optimales malgré une perte de capacité. Il s'applique aux applications gourmandes en E / S
avec un taux de lecture / écriture élevé, telles que les applications OLTP.

RAID 6

RAID 6 est un mode RAID conçu pour améliorer encore la protection des données. Comparé au RAID
5, RAID 6 a un bloc de parité indépendant. De cette manière, chaque bloc de données a deux blocs
de parité (l'un est le contrôle hiérarchique et l'autre est le contrôle global). Par conséquent, RAID 6
offre des performances de redondance de données supérieures. Cependant, deux mécanismes de
contrôle de parité ralentissent les écritures de données, la conception du contrôleur RAID est plus
compliquée et deux zones de parité réduisent l'espace de stockage disponible.

Les technologies RAID 6 courantes incluent PQ et DP. Les deux technologies utilisent des méthodes
différentes pour obtenir des informations de vérification, mais les deux technologies permettent la
perte de données sur deux disques dans une matrice.

1. RAID 6
La sécurité des données de RAID 6 est supérieure à celle de RAID 5. Même si deux disques d'une
matrice échouent, la matrice peut toujours fonctionner et récupérer les données sur les disques
défectueux. Cependant, la conception du contrôleur est plus compliquée, la vitesse d'écriture est
inférieure et il faut plus de temps pour calculer les informations de contrôle et vérifier l'exactitude
des données. Lorsque des opérations d'écriture sont effectuées sur chaque bloc de données, deux
calculs de vérification indépendants doivent être effectués, ce qui entraîne une charge système plus
lourde. De plus, l'utilisation du disque est moindre et la configuration est plus compliquée. Par
conséquent, RAID 6 est applicable à l'environnement qui nécessite une précision et une intégrité
élevées des données.

Les sections 4.1 et 4.2 sont tirées des livres de certification Huawei sur le stockage des
informations et la gestion informatique.
1.1.1 Distributed Storage and Replication
Le stockage distribué est assez différent du stockage conventionnel. Il virtualise tout l'espace
disponible réparti sur différents hôtes en un seul appareil virtuel. Les données stockées dans ce
stockage virtuel sont également distribuées sur tout le réseau de stockage.

1. Distributed storage
Comme le montre la Figure 4-21, les ressources de stockage dans un système de stockage distribué
proviennent de serveurs x86 standard plutôt que de périphériques de stockage dédiés. Un système
de stockage distribué n'a pas de contrôleur ou de boîtiers de disques. Les clients livrés par le système
de stockage distribué sont responsables de tous les éléments suivants: identifier et gérer les disques
durs; établir des itinéraires; et exécutez les E / S.

Le mode client de stockage distribué présente à la fois des avantages et des inconvénients.

En termes d'extension de capacité, tout serveur x86 avec un client installé peut faire partie du
système distribué. Par conséquent, ce mode offre une grande évolutivité.

Cependant, en plus des applications exécutées sur le serveur, le logiciel client installé sur le serveur
consomme également des ressources de calcul. Lorsque vous planifiez un système de stockage
distribué, vous devez réserver certaines quantités de ressources de calcul sur les serveurs que vous
prévoyez d'ajouter à ce système. Par conséquent, ce mode a certaines exigences sur les ressources
matérielles du serveur. Dans un système de stockage centralisé traditionnel, les données sont lues et
écrites par les contrôleurs. Le nombre de contrôleurs est limité. Dans un système de stockage
distribué, tous les serveurs avec des clients installés peuvent lire et écrire des données. Cela améliore
dans une certaine mesure la vitesse d'E / S car le système de stockage distribué n'a pas le goulot
d'étranglement du contrôleur qui existe dans un système de stockage centralisé. Les chemins de
lecture et d'écriture des données doivent être calculés à plusieurs reprises. Un nombre
excessivement élevé de clients ajoute de la complexité au calcul du chemin. C'est pourquoi parfois
les performances ne peuvent pas être améliorées de manière linéaire simplement en ajoutant plus
de clients.

Pour garantir la haute disponibilité et la sécurité des données, le système de stockage centralisé
utilise la technologie RAID. Le RAID peut être implémenté par le matériel et le logiciel. Tous les
disques durs de la même matrice RAID, quelle que soit la mise en œuvre logicielle ou matérielle,
doivent résider sur le même serveur (le RAID matériel nécessite une carte RAID unifiée et le RAID
logiciel nécessite un système d'exploitation unifié). Étant donné que les disques durs d'un système de
stockage distribué sont répartis sur différents serveurs, le mécanisme RAID ne peut tout simplement
pas être utilisé dans un tel système. Par conséquent, un mécanisme de réplication est généralement
utilisé dans les systèmes de stockage distribués pour garantir une fiabilité élevée des données.

Le mécanisme de réplication conserve des copies identiques des données sur différents serveurs. La
défaillance d'un seul serveur n'entraînera pas de perte de données. Le système de stockage distribué
combine les disques locaux de tous les serveurs dans plusieurs pools de ressources. Sur la base des
pools de ressources, le système de stockage distribué fournit des interfaces pour créer et supprimer
des volumes d'application et des instantanés, et fournit des fonctions de périphérique de volume
pour les logiciels de couche supérieure, comme illustré dans la figure 4-22.

1. Distributed storage architecture


Dans un système de stockage distribué, chaque disque dur est divisé en plusieurs partitions. Chaque
partition appartient à un seul pool de ressources. Une partition fonctionne comme une copie de
données. Le système garantit que plusieurs copies de données sont distribuées sur différents
serveurs (lorsque le nombre de serveurs est supérieur au nombre de copies de données) et la
cohérence des données entre plusieurs copies de données. Ensuite, les données des partitions sont
stockées sous forme de paires clé / valeur.

Le système de stockage distribué fournit des volumes pour la couche supérieure, ce qui est facile à
utiliser. Le système garantit que le nombre de partitions actives est le même que celui des partitions
de secours sur chaque disque dur pour éviter les points chauds. Tous les disques durs peuvent être
utilisés comme disques de secours pour les pools de ressources. Un pool de ressources prend en
charge jusqu'à des centaines de disques durs.

La Figure 4-23 montre les principaux modules de l'architecture de stockage distribué.


1. Distributed storage modules
Couche d'interface de stockage: fournit des volumes pour les systèmes d'exploitation et les bases de
données via l'interface SCSI (Small Computer System Interface).

Couche de service de stockage: offre diverses fonctionnalités de stockage avancées, telles que la
capture instantanée, le clonage lié, le provisionnement léger, le cache distribué et la sauvegarde et la
reprise après sinistre (DR).

Couche du moteur de stockage: offre des fonctions de stockage de base, notamment le contrôle de
l'état de la gestion, le routage distribué des données, la réplication à cohérence forte, l'auto-
récupération du cluster et la reconstruction parallèle des données.

Couche de gestion du stockage: fournit les fonctions d'exploitation et de maintenance (O&M), telles
que l'installation de logiciels, la configuration automatisée, la mise à niveau en ligne, les rapports
d'alarme, la surveillance et la journalisation, et fournit également un portail pour les opérations des
utilisateurs.

Lors de l'écriture de données, les applications ne peuvent utiliser que le pool de stockage fourni par
le système de stockage distribué. Une fois les demandes d'écriture des applications envoyées au pool
de stockage, les données sont copiées vers un nombre spécifié de copies (le nombre est défini
manuellement par les utilisateurs) et l'opération d'écriture est envoyée sur différents disques durs.
L'opération d'écriture n'est terminée qu'après le renvoi de tous les messages indiquant la fin de
l'opération d'écriture.

Lorsque les applications lisent des données, elles lisent les données des copies actives plutôt que de
toutes les copies. Lorsque les copies actives ne sont pas disponibles, les applications lisent les
données d'autres copies.

Les produits de stockage distribués courants incluent Ceph (open source), HDFS, FusionStorage
(Huawei) et vSAN (VMware).

Le stockage distribué présente les avantages suivants:


Excellentes performances

Le système de stockage distribué utilise une architecture innovante pour organiser les disques durs
SATA / SAS en un pool de stockage comme le SAN, offrant des E / S plus élevées que les
périphériques SAN et des performances optimales. Dans un système de stockage distribué, les
disques SSD peuvent remplacer les disques durs en tant que périphériques de stockage à haut débit,
et les réseaux In fi niBand peuvent remplacer les réseaux GE / 10GE pour fournir une bande passante
plus élevée, répondant aux exigences de haute performance pour le traitement en temps réel de
gros volumes de données.

Le système de stockage distribué utilise des moteurs logiciels sans état déployés sur chaque nœud,
éliminant ainsi le goulot d'étranglement des performances des moteurs centralisés. De plus, ces
moteurs distribués déployés sur des serveurs autonomes consomment beaucoup moins de
ressources CPU et fournissent des IOPS plus élevés que les moteurs déployés de manière centralisée.

Le système intègre l'informatique et le stockage et distribue uniformément le cache et la bande


passante à chaque nœud de serveur. Chaque disque sur les serveurs du système de stockage
distribué utilise des bandes passantes d'E / S indépendantes, ce qui empêche un grand nombre de
disques de rivaliser pour des bandes passantes limitées entre les périphériques informatiques et les
périphériques de stockage dans un système de stockage indépendant.

Le système de stockage distribué utilise une partie de la mémoire de chaque serveur pour le cache
de lecture et un module de mémoire non volatile double en ligne (NVDIMM) pour le cache d'écriture.
Les caches sont répartis uniformément sur tous les nœuds. La taille totale du cache sur tous les
serveurs est largement supérieure à celle fournie par les périphériques de stockage externes. Même
si des disques durs SATA de grande capacité et à faible coût sont utilisés, le système de stockage
distribué peut toujours offrir des performances d'E / S élevées, améliorant les performances globales
de 1 à 3 fois et offrant une plus grande capacité effective.

Équilibrage de charge global

Le mécanisme de mise en œuvre du système de stockage distribué garantit que les opérations d'E / S
des applications de couche supérieure sont uniformément réparties sur différents disques durs de
différents serveurs, évitant ainsi les points chauds partiels et mettant en œuvre un équilibrage de
charge global. Le système disperse automatiquement les blocs de données sur les disques durs de
divers serveurs. Les données fréquemment ou rarement consultées sont réparties uniformément sur
les serveurs, évitant les points chauds. FusionStorage utilise l'algorithme de distribution des
fragments de données pour garantir que les copies actives et en attente sont uniformément
réparties sur les différents disques durs des serveurs. De cette manière, chaque disque dur contient
le même nombre de copies actives et en attente. Lorsque la capacité du système est augmentée ou
réduite en raison d'une défaillance d'un nœud, l'algorithme de reconstruction des données permet
d'assurer l'équilibrage de charge entre tous les nœuds après la reconstruction du système.

Stockage SSD distribué

Le système de stockage distribué utilise le système de stockage SSD qui prend en charge les
applications hautes performances pour offrir des performances de lecture / écriture plus élevées que
les disques durs traditionnels (disques durs SATA / SAS). Les SSD PCIe offrent une bande passante et
des E / S plus élevées. L'interface PCIe 2.0 x8 fournit une bande passante en lecture / écriture allant
jusqu'à 3,0 Go. Les performances d'E / S des SSD offrent un transfert de données aléatoire de 4 Ko,
réalisant jusqu'à 600 000 IOPS en lecture aléatoire continue et 220 000 IOPS en écriture aléatoire
continue. Bien que les SSD offrent des vitesses de lecture et d'écriture élevées, les SSD ont une durée
de vie en écriture plus courte. Lorsque des disques SSD sont utilisés, le système de stockage SSD
distribué utilise plusieurs mécanismes et mesures pour améliorer la fiabilité.

Instantané haute performance

Le système de stockage distribué fournit le mécanisme de cliché, qui permet au système de capturer
l'état des données écrites dans un volume logique à un moment donné. L'instantané de données
peut ensuite être exporté et utilisé pour restaurer les données de volume si nécessaire. Les données
instantanées du système de stockage distribué sont basées sur le mécanisme de table de hachage
distribué (DHT). Par conséquent, les instantanés ne provoquent pas de détérioration des
performances des volumes d'origine. La technologie DHT offre une efficacité de requête élevée. Par
exemple, pour créer des index pour un disque dur de 2 To dans la mémoire, des dizaines de Mo
d'espace mémoire sont nécessaires. Une seule opération de requête de hachage peut déterminer si
un instantané a été créé pour le disque. Si un instantané a été créé, la requête de hachage peut
également déterminer l'emplacement de stockage de l'instantané.

Clonage lié haute performance

Le système de stockage distribué fournit le mécanisme de clonage lié pour les instantanés
incrémentiels afin que plusieurs volumes clonés puissent être créés pour un instantané. Les données
des volumes clonés sont les mêmes que celles de l'instantané. Les modifications ultérieures d'un
volume cloné n'affectent pas l'instantané ou les autres volumes clonés. Le système de stockage
distribué prend en charge le déploiement par lots des volumes de VM. Des centaines de volumes de
VM peuvent être créés en quelques secondes. Un volume cloné peut être utilisé pour créer un
instantané, restaurer les données de l'instantané et cloner à nouveau le volume en tant que volume
de base.

Réseau InfiniBand (IB) haut débit

Pour éliminer les goulots d'étranglement de commutation de stockage dans un environnement de


stockage distribué, un système de stockage distribué peut être déployé sur un réseau IB conçu pour
les applications à large bande passante.
1.1 Virtualized Storage and Non-virtualized Storage
4.3 Stockage virtualisé et stockage non virtualisé

La virtualisation du stockage décrite dans cette section fait référence à la virtualisation au sens strict.
Si un cluster possède un système de fichiers, il s'agit d'un stockage virtualisé. Sinon, il s'agit d'un
stockage non virtualisé. Le système de fichiers peut être un NFS ou un système de fichiers de cluster
virtuel. Si aucun système de fichiers n'est disponible, le cluster virtualisé doit appeler directement les
volumes logiques.

Nous savons que les disques physiques résident au bas du système de stockage, qu'ils soient
centralisés ou distribués. Une fois le RAID ou la réplication mis en œuvre, des volumes physiques
sont créés au-dessus de ces disques physiques. Dans la plupart des cas, les volumes physiques ne
sont pas montés directement sur des applications de couche supérieure, par exemple, des systèmes
d'exploitation ou des systèmes de virtualisation (utilisés dans ce document). La raison en est qu'une
fois qu'un volume physique est monté, tout son espace est formaté par des applications de couche
supérieure. Une fois l'espace de stockage épuisé, vous pouvez ajouter des disques pour augmenter la
capacité. Cependant, vous devez reformater le volume physique après l'extension de capacité, ce qui
peut entraîner une perte de données. Par conséquent, en général, plusieurs volumes physiques sont
combinés en un groupe de volumes, puis le groupe de volumes est virtualisé en plusieurs volumes
logiques (LV). Les applications de la couche supérieure utilisent les espaces des LV.

Dans le cloud computing, le programme de virtualisation formate les LV. Les fournisseurs utilisent
différents systèmes de fichiers virtuels. Par exemple, VMware utilise Virtual Machine File System
(VMFS) et Huawei utilise Virtual Image Manage System (VIMS). Les deux sont des systèmes de
fichiers de cluster hautes performances qui fournissent une capacité dépassant la limite d'un seul
système et permettent à plusieurs nœuds de calcul d'accéder à un pool de stockage en cluster
intégré. Le système de fichiers d'un cluster informatique garantit qu'aucun serveur ou logiciel
d'application n'a un contrôle complet sur l'accès au système de fichiers.

VIMS est utilisé comme exemple. Il est basé sur le stockage SAN. FusionStorage fournit uniquement
un espace de stockage non virtualisé. FusionCompute gère les images de VM et les fichiers de
configuration sur VIMS. VIMS utilise le mécanisme de verrouillage distribué pour garantir la
cohérence de lecture / écriture des données du cluster. L'unité de stockage minimale utilisée par les
programmes de virtualisation est le numéro d'unité logique (LUN). Les LUN correspondent aux
volumes. Les volumes sont des objets gérés dans le système de stockage. Les LUN sont une
présentation externe des volumes. Les LUN et les volumes sont alloués à partir du même pool de
ressources.

Une fois la virtualisation utilisée, les LUN peuvent être divisés en LUN épais et en LUN légers.

En tant que type traditionnel de LUN, les LUN épais prennent en charge l'allocation de ressources
virtuelles. Ils sont faciles à créer, à développer et à compresser. Un LUN épais obtient la pleine
capacité de stockage du pool de stockage une fois créé, à savoir, la taille du LUN est égale à l'espace
alloué. Par conséquent, les performances d'un LUN épais sont relativement élevées et prévisibles.
Outre les LUN épais, les LUN légers prennent en charge l'allocation de ressources virtuelles. Ils sont
faciles à créer, à développer et à compresser.

Une politique d'allocation de capacité initiale est définie lors de la création des LUN légers. Une fois
les LUN légers créés, le système de stockage alloue une capacité initiale à chaque LUN et conserve la
capacité restante dans le pool de stockage. Lorsque l'utilisation de la capacité de stockage allouée
atteint le seuil, le système de stockage alloue une certaine quantité de capacité à partir du pool de
stockage aux LUN légers. Ce processus se répète jusqu'à ce que les LUN minces atteignent la pleine
capacité prédéfinie. Par conséquent, les LUN légers ont une meilleure utilisation de la capacité de
stockage.

Les différences entre les LUN épais et minces sont les suivantes:

Capacité

Les LUN épais, une fois créés, obtiennent la pleine capacité de stockage du pool de stockage.

Les LUN légers obtiennent une capacité de stockage à la demande. Un LUN léger est alloué avec une
capacité initiale lors de sa création, puis alloué dynamiquement avec plus de capacité

1. Thin LUNs
Récupération d'espace disque

La récupération de capacité fait ici référence à la libération de la capacité de certains LUN vers le
pool de stockage pour l'utilisation d'autres LUN. La récupération de capacité ne s'applique pas à un
LUN épais, car il obtient la pleine capacité du pool de stockage lors de sa création. Bien que les
données d'un LUN épais soient supprimées, la capacité allouée est occupée par le LUN épais et ne
peut pas être utilisée par d'autres LUN. Cependant, si un LUN épais est supprimé manuellement, sa
capacité peut être récupérée.

Lorsque les données d'un thin LUN sont supprimées, de l'espace dans le thin LUN peut être libéré. De
cette manière, la capacité de stockage peut être utilisée de manière dynamique, améliorant ainsi le
taux d'utilisation.

La Figure 4-25 montre la récupération de capacité d'un LUN léger.


1. Disk space reclamation
Performance

Un LUN épais offre des performances plus élevées pour les lectures / écritures séquentielles car il
obtient une capacité de stockage complète dès le début, mais il a une certaine capacité de stockage
gaspillée.

Les performances d'un LUN léger sont réduites car le formatage en arrière-plan est nécessaire
chaque fois que le LUN léger augmente sa capacité. En outre, les allocations de capacité peuvent
entraîner un espace de stockage sur disque discontinu, de sorte que les lectures / écritures
séquentielles prennent plus de temps pour trouver des emplacements de stockage.

Scénarios d'application

LUN épais:

- Des performances élevées sont requises.

- L'utilisation de l'espace de stockage est moins concernée.

- Les coûts sont insensibles.

LUN minces:

- Une performance modérée est requise.

- L'utilisation de l'espace de stockage est plus concernée.

- Les coûts sont sensibles.

- La capacité de stockage requise est difficile à prévoir.

Outre les systèmes de fichiers en cluster virtualisés, les systèmes de fichiers courants incluent les
systèmes NAS (NFS et CIFS) et les systèmes de fichiers OS.

Un système de fichiers est une structure hiérarchique d'un grand nombre de fichiers. Un système de
fichiers OS permet aux utilisateurs d'afficher des données sous forme de fichiers et de dossiers, et de
copier, coller, supprimer et restaurer des données à tout moment. Les systèmes de fichiers utilisent
des répertoires pour organiser les données en structures hiérarchiques. Les répertoires sont les
endroits où les pointeurs de fichiers sont stockés. Tous les systèmes de fichiers conservent ce
répertoire. Le système d'exploitation gère uniquement le répertoire local. Le cluster gère le
répertoire partagé formé par le NAS ou le système de fichiers en cluster.

Les formats de fichiers OS courants incluent FAT32 (Microsoft), NTFS (Microsoft), UFS (Unix) et EXT2 /
3/4 (Linux).

La figure 4-26 montre le processus de fonctionnement du système de fichiers du système


d'exploitation.

1. OS file system
Un utilisateur ou une application crée des fichiers ou des dossiers.

Ces fichiers et dossiers sont stockés dans le système de fichiers.

Le système de fichiers mappe les données correspondant à ces fichiers aux blocs du système de
fichiers.

Les blocs du système de fichiers correspondent aux partitions logiques formées par les volumes
logiques.

Les partitions logiques sont mappées aux partitions physiques des disques physiques à l'aide du
système d'exploitation ou de LVM.

Une partition physique contient un ou plusieurs disques physiques dans un volume physique.

1.1 VM Disks
Une machine virtuelle se compose de fichiers de configuration et de fichiers disque. Chaque disque
VM correspond à un fichier disque dans lequel les données utilisateur sont stockées.

Si le stockage virtualisé est utilisé, tous les fichiers disque sont stockés dans le répertoire partagé du
système de fichiers. Si un stockage non virtualisé est utilisé, chaque fichier disque correspond à un
LUN. Du point de vue des utilisateurs et des systèmes d'exploitation, les fichiers ou les LUN sont les
mêmes que les disques durs courants, qui sont affichés comme disques durs parmi les ressources
matérielles du système. Lors de la création d'une machine virtuelle, l'administrateur doit créer des
disques pour que la machine virtuelle stocke les données. Les informations sur le disque
correspondent à plusieurs lignes dans le fichier de configuration.
Semblable à d'autres fichiers, les fichiers de disque VM ont leurs propres formats fixes. Le tableau 4-4
répertorie les formats de disque VM courants.

Tableau Common VM disk formats

VM Disk File Supported Vendor, Product, or Platform


Format

RAW All vendors


VMDK VMware
VHD Microsoft Hyper-V and Huawei FusionCompute
QCOW QEMU or KVM virtualization platforms
QED
VDI Oracle
Chaque fournisseur peut utiliser son propre outil pour convertir d'autres formats de disque VM en
formats pouvant être utilisés par ses propres produits. Par exemple, Huawei Rainbow peut convertir
des disques VM tiers ou open-source au format VHD

1.1 Storage Features of Huawei Virtualization Products


1.1.1 Storage Architecture of Huawei Virtualization Products
FusionCompute peut utiliser les ressources de stockage des périphériques de stockage dédiés ou
des disques locaux des hôtes. Les périphériques de stockage dédiés sont connectés aux hôtes via
des câbles réseau ou des fibres optiques.
FusionCompute convertit uniformément les ressources de stockage en banques de données. Une
fois les banques de données associées aux hôtes, des disques virtuels peuvent être créés pour les
machines virtuelles.
Les ressources de stockage qui peuvent être converties en banques de données incluent:

LUN sur les périphériques SAN, y compris les périphériques de stockage iSCSI et les
périphériques de stockage FC SAN
Systèmes de fichiers créés sur des périphériques de stockage en réseau (NAS)

Pools de stockage sur FusionStorage Block

Disques locaux sur les hôtes (virtualisés)


Dans Huawei FusionCompute, ces unités de stockage sont appelées périphériques de stockage, et
les supports de stockage physiques qui fournissent un espace de stockage pour la virtualisation sont
appelés ressources de stockage, comme illustré dans la figure 4-27.

1. Huawei storage model

Lors de l'ajout de périphériques de stockage à FusionCompute, observez l'architecture


logique définie par Huawei et déterminez comment les périphériques de chaque couche logique sont
ajoutés au système. Par exemple, les ressources de stockage doivent être ajoutées manuellement et
les périphériques de stockage peuvent être analysés.

Avant d'utiliser les banques de données, vous devez ajouter manuellement des ressources de
stockage. Si les ressources de stockage sont IP SAN, FusionStorage ou NAS, vous devez ajouter des
ports de stockage pour les hôtes du cluster et utiliser les ports pour communiquer avec les ports de
service du contrôleur de stockage centralisé ou l'adresse IP de gestion de FusionStorage Manager. Si
les ressources de stockage sont fournies par FC SAN, vous n'avez pas besoin d'ajouter des ports de
stockage.

Après avoir ajouté des ressources de stockage, vous devez rechercher ces périphériques de stockage
sur le portail FusionCompute pour les ajouter en tant que banques de données.
Les banques de données peuvent être virtualisées ou non virtualisées. Vous pouvez utiliser des LUN
comme banques de données et les connecter à des machines virtuelles à partir du SAN sans créer de
disques virtuels. Ce processus est appelé mappage de périphérique brut (RDM). Cette technologie
s'applique aux scénarios nécessitant un grand espace disque, par exemple, la construction d'un
serveur de base de données. RDM ne peut être utilisé que pour les machines virtuelles qui exécutent
certains systèmes d'exploitation.

1.1.1 Characteristics of Huawei VM Disks


Après avoir ajouté des banques de données, vous pouvez créer des disques virtuels pour les
machines virtuelles. Les clients peuvent avoir divers besoins en matière d'utilisation de machines
virtuelles, par exemple, ils peuvent souhaiter partager un disque de machine virtuelle pour
économiser plus d'espace physique. Par conséquent, les disques Huawei VM sont classés en
différents types en fonction de ces exigences.

En fonction du type de partage, les disques VM sont classés en tant que disques non partagés et
disques partagés.

- Non partagé: un disque non partagé ne peut être utilisé que par une seule VM.

- Partagé: un disque partagé peut être utilisé par plusieurs VM.

Si plusieurs machines virtuelles qui utilisent un disque partagé écrivent des données sur le disque en
même temps, des données peuvent être perdues. Par conséquent, vous devez utiliser un logiciel
d'application pour contrôler les autorisations d'accès au disque.

En fonction du mode de configuration, les disques de VM peuvent être classés comme des disques
communs, des disques de provisionnement fin et des disques de mise à zéro différée du
provisionnement épais.

- Commun: le système alloue de l'espace disque en fonction de la capacité du disque. Lors de la


création du disque dans ce mode, les données restantes sur le périphérique physique seront mises à
zéro. Les performances des disques dans ce mode sont meilleures que celles des deux autres modes,
mais la durée de création peut être plus longue que celle requise dans les autres modes.

- Thin provisioning: dans ce mode, le système alloue une partie de la capacité de disque configurée
pour la première fois et alloue la capacité de disque restante en fonction de l'utilisation de stockage
du disque jusqu'à ce que la capacité de disque configurée soit allouée. Dans ce mode, les banques de
données peuvent être surchargées. Il est recommandé que le taux de surengagement de la banque
de données ne dépasse pas 50%. Par exemple, si la capacité totale est de 100 Go, la capacité allouée
doit être inférieure ou égale à 150 Go. Si la capacité allouée est supérieure à la capacité réelle, le
disque est en mode de provisionnement dynamique.

- Mise à zéro différée du provisioning épais: le système alloue de l'espace disque en fonction de la
capacité du disque. Cependant, les données restantes sur le périphérique physique sont mises à zéro
uniquement lors de la première écriture de données à partir de la machine virtuelle, selon les
besoins. Dans ce mode, la vitesse de création de disque est plus rapide que celle du mode commun
et les performances d'E / S se situent entre les modes de provisionnement commun et léger. Ce
mode de configuration prend en charge uniquement les disques locaux virtualisés ou le stockage SAN
virtualisé.
En fonction du mode de configuration, les disques VM peuvent être classés comme des disques
dépendants, des disques persistants indépendants et des disques non persistants indépendants.

- Dépendant: un disque dépendant est inclus dans l'instantané. Les modifications sont écrites sur les
disques immédiatement et définitivement.

- Indépendant permanent: dans ce mode, les modifications de disque sont immédiatement et


définitivement écrites sur le disque, qui n'est pas affecté par les instantanés.

- Indépendant non persistant: dans ce mode, les modifications de disque sont annulées après l'arrêt
ou la restauration de la machine virtuelle à l'aide d'un instantané.

Si vous sélectionnez Indépendant persistant ou Indépendant non persistant, le système ne prend pas
d'instantanés des données sur le disque lors de la création d'un instantané pour la machine virtuelle.
Lorsque l'instantané de machine virtuelle est utilisé pour restaurer une machine virtuelle, les disques
de la machine virtuelle ne sont pas restaurés.

Après la prise d'un instantané pour une machine virtuelle, si les disques de la machine virtuelle sont
détachés de la machine virtuelle et non attachés à une autre machine virtuelle, les disques seront
attachés à la machine virtuelle après la restauration de la machine virtuelle à l'aide de l'instantané.
Cependant, les données sur les disques ne seront pas restaurées.

Si un disque est supprimé après la création d'un instantané pour la machine virtuelle, le disque ne
sera pas attaché à la machine virtuelle une fois la machine virtuelle restaurée à l'aide de l'instantané.

Certains types de disques ne peuvent pas être modifiés une fois qu'ils sont définis et certains
peuvent être modifiés. Par exemple, les modes de disque peuvent être convertis

Pour plus d'informations sur les caractéristiques des disques de machine virtuelle Huawei,
consultez Scénario 1: Application de disque de machine virtuelle dans le guide de laboratoire.

Vous aimerez peut-être aussi