Académique Documents
Professionnel Documents
Culture Documents
DSF est une architecture de stockage distribuée qui remplace les solutions SAN / NAS
traditionnelles.
Le système de stockage distribué (DSF) est un système de stockage distribué évolutif
qui expose le stockage de fichiers NFS / SMB ainsi que le stockage de blocs iSCSI
sans point de défaillance unique. La structure de stockage distribuée stocke les
données utilisateur (disque / fichiers de machine virtuelle) sur plusieurs niveaux de
stockage (SSD, disques durs, cloud) sur plusieurs nœuds. Le DSF prend également en
charge les instantanés instantanés, les clones de disques VM et d'autres fonctionnalités
avancées telles que la déduplication, la compression et le codage d'effacement.
Le DSF divise logiquement les données de la machine virtuelle utilisateur en étendues
d'une taille de 1 Mo. Ces extensions peuvent être compressées, codées par effacement,
dédupliquées, instantanées ou laissées non transformées. Les étendues peuvent
également se déplacer; Les extensions nouvelles ou récemment consultées restent sur
un stockage plus rapide (SSD) tandis que les extensions plus froides passent au disque
dur. Le DSF utilise un algorithme «le moins récemment utilisé» pour déterminer
quelles données peuvent être déclarées «froides» et migrées vers le disque dur. En
outre, le DSF tente de maintenir la localité des données pour les données de la VM - de
sorte qu'une copie des données de chaque vDisk soit disponible localement à partir du
CVM sur l'hôte sur lequel la VM s'exécute.
DSF présente les SDD et les disques durs comme un pool de stockage et fournit des
services de stockage à l'échelle du cluster:
Instantanés
Clones
HA / DR
Déduplication
Compression
Codage d'effacement
Les machines virtuelles de contrôleur (CVM) s'exécutant sur chaque nœud se
combinent pour former un réseau interconnecté au sein du cluster, où chaque nœud du
cluster a accès aux données à partir de ressources SSD, HDD et cloud partagées. Les
CVM permettent des opérations à l'échelle du cluster sur des services définis par
logiciel centrés sur les VM: instantanés, clones, haute disponibilité, reprise après
sinistre, déduplication, compression, codage d'effacement, optimisation du stockage,
etc.
Les hyperviseurs (AHV, ESXi, Hyper-V) et le DSF communiquent à l'aide des
protocoles standard NFS, iSCSI et SMB3.
Le magasin Extent
Le stockage d'extension est le stockage en masse persistant de DSF et s'étend sur SSD et HDD
et est extensible pour faciliter des périphériques / niveaux supplémentaires. Les données
entrant dans le magasin d'extensions sont soit drainées de l'OpLog, soit de nature séquentielle
et ont contourné directement l'OpLog.
Nutanix ILM déterminera le placement des niveaux de manière dynamique en fonction des
modèles d'E / S et déplacera les données entre les niveaux.
L'OpLog
L'OpLog est similaire à un journal de système de fichiers et est utilisé pour traiter des rafales
d'opérations d'écriture aléatoire, les fusionner, puis drainer séquentiellement ces données dans
le magasin d'extensions. Pour chaque OP d'écriture, les données sont écrites sur le disque
localement et répliquées de manière synchrone vers un autre nombre n d'OpLogs de CVM
avant que l'écriture ne soit acquittée à des fins de disponibilité des données (où «n» est le RF
du conteneur, 2 ou 3).
Tous les CVM participent à la réplication d'OpLog. L'emplacement de réplique individuel est
choisi dynamiquement en fonction de la charge. L'OpLog est stocké sur le niveau SSD du
CVM pour fournir des performances d'E / S d'écriture extrêmement rapides. Le stockage
OpLog est distribué sur les périphériques SSD connectés à chaque CVM.
Pour les charges de travail séquentielles, l'OpLog est contourné et les écritures vont
directement au magasin d'extensions.
Si les données se trouvent actuellement dans l'OpLog et n'ont pas été vidées, toutes les
demandes de lecture seront directement satisfaites à partir de l'OpLog jusqu'à ce qu'elles aient
été vidées, où elles seraient ensuite servies par le stockage d'extensions / cache unifié.
Pour les conteneurs où l'empreinte digitale (également appelée déduplication) a été activée,
toutes les E / S d'écriture seront empreintes à l'aide d'un schéma de hachage leur permettant
d'être dédupliquées en fonction de l'empreinte digitale dans le cache unifié.
Demande d'écriture de machine virtuelle invitée
En passant par l'hyperviseur, DSF envoie des opérations d'écriture au CVM sur l'hôte local où
elles sont écrites dans l'Oplog ou dans le magasin d'extensions. En plus de la copie locale, une
opération d'écriture supplémentaire est ensuite distribuée sur le réseau 10 GbE vers d'autres
nœuds du cluster.
Représentation du stockage de
données
Composants de stockage
Pool de stockage
Un pool de stockage est un groupe de périphériques de stockage physiques pour le cluster, y
compris les périphériques PCIe SSD, SSD et HDD. Le pool de stockage s'étend sur plusieurs
nœuds et évolue à mesure que le
le cluster se développe. Un dispositif de stockage ne peut être un élément d'un seul pool de
stockage. Nutanix recommande de créer un pool de stockage unique contenant tous les
disques du cluster.
ncli sp ls affiche les pools de stockage existants.
Conteneur de stockage
Un conteneur de stockage est un sous - ensemble de stockage disponible dans un pool de
stockage. Les conteneurs de stockage permettent à un administrateur d'appliquer des règles ou
des transformations telles que la compression à un ensemble de données. Ils contiennent les
disques virtuels (vDisks) utilisés par les machines virtuelles. La sélection d'un pool de
stockage pour un nouveau conteneur de stockage définit les disques physiques sur lesquels les
vDisks sont stockés.
ncli ctr ls affiche les conteneurs existants.
Groupe de volumes
Un groupe de volumes est un ensemble de disques ou volumes virtuels liés de manière
logique. Il est attaché à un ou plusieurs contextes d'exécution (VM ou autres initiateurs iSCSI)
qui partagent les disques dans le groupe de volumes. Vous pouvez gérer les groupes de
volumes comme une seule unité.
Elastic Deduplication Engine est une fonctionnalité logicielle de DSF qui permet la
déduplication des données dans les niveaux de capacité (Extent Store) et de
performances (Unified Cache) . Les données entrantes sont empreintes lors de
l'ingestion à l'aide d' un hachage SHA-1 à une granularité de 16 K. Cette empreinte
digitale est ensuite stockée de manière persistante dans le cadre des métadonnées du
bloc écrit.
Contrairement aux approches traditionnelles, qui utilisent des analyses en arrière-plan
nécessitant la relecture des données, Nutanix crée l'empreinte digitale en ligne lors de
l'ingestion. Pour les données dédupliquées dans le niveau de capacité, les données
n'ont pas besoin d'être numérisées ou relues - les empreintes digitales correspondantes
sont détectées et les copies en double peuvent être supprimées.
La déduplication au niveau du bloc regarde dans un fichier et enregistre les itérations
uniques de chaque bloc. Tous les blocs sont divisés en morceaux. Chaque bloc de
données est traité à l'aide d'un algorithme de hachage SHA-1. Ce processus génère un
numéro unique pour chaque pièce: une empreinte digitale.
L'empreinte digitale est ensuite comparée à l'index des empreintes digitales
existantes. Si elle figure déjà dans l'index, la donnée est considérée comme un doublon
et n'a pas besoin d'être stockée à nouveau. Sinon, le nouveau numéro de hachage est
ajouté à l'index et les nouvelles données sont stockées.
Si vous mettez à jour un fichier, seules les données modifiées sont enregistrées, même
si seuls quelques octets du document ou de la présentation ont été modifiés. Les
modifications ne constituent pas un fichier entièrement nouveau. Ce comportement
rend la déduplication par blocs (par rapport à la déduplication de fichiers) beaucoup
plus efficace.
Cependant, la déduplication par bloc nécessite plus de puissance de traitement et
utilise un index beaucoup plus grand pour suivre les éléments individuels.
Pour réduire la surcharge des métadonnées, le nombre de références d'empreintes
digitales (refcounts) est surveillé pendant le processus de déduplication. Les
empreintes digitales avec un faible nombre de refcount seront supprimées. Les
étendues complètes sont préférées pour la déduplication au niveau de la capacité afin
de minimiser la fragmentation.
Lorsqu'elle est utilisée dans la situation appropriée, la déduplication augmente la taille
effective du niveau de performances afin que davantage de données actives puissent
être stockées.
La déduplication permet le partage des données des VM invitées sur les niveaux
de stockage Nutanix.
Les performances des machines virtuelles invitées souffrent lorsque les données
actives ne peuvent plus entrer dans les niveaux de performances.
Techniques de déduplication
Déduplication en ligne
-
La déduplication en ligne est utile pour les applications avec de grands ensembles de travail
communs.
Supprime les données redondantes dans le niveau de performance
Permet des données plus actives, peut améliorer les performances des machines
virtuelles
Exploite les capacités d'assistance matérielle; piloté par logiciel
Déduplication post-processus
-
La déduplication post-processus est utile pour les bureaux virtuels (VDI) avec des clones
complets.
Réduit les données redondantes dans le niveau de capacité, augmentant la capacité de
stockage effective d'un cluster
Distribué sur tous les nœuds d'un cluster (global)
Optimisation de la capacité - Compression
Nutanix recommande d'utiliser la compression en ligne (délai de compression = 0), car
elle ne compresse que les écritures plus importantes / séquentielles et n'affecte pas les
performances d'écriture aléatoire. Cela augmente également la taille utilisable du
niveau SSD, augmentant les performances effectives et permettant à davantage de
données de se trouver dans le niveau SSD.
Pour les données séquentielles écrites et compressées en ligne, la copie RF des
données est compressée avant la transmission, ce qui augmente encore les
performances car elle envoie moins de données sur le réseau.
La compression en ligne se marie également parfaitement avec le codage
d'effacement. Par exemple, un algorithme peut représenter une chaîne de bits avec une
chaîne plus petite de 0 et 1 en utilisant un dictionnaire pour la conversion entre eux, ou
la formule peut insérer une référence ou un pointeur vers une chaîne de 0 et 1 que le
programme a déjà vu.
La compression de texte peut être aussi simple que de supprimer tous les caractères
inutiles, d'insérer un seul caractère de répétition pour indiquer une chaîne de caractères
répétés et de remplacer une chaîne de bits plus petite par une chaîne de bits
fréquente. La compression des données peut réduire un fichier texte à 50% ou à un
pourcentage nettement plus élevé de sa taille d'origine.
Processus de compression
La compression en ligne condense les flux séquentiels de données ou les grandes
tailles d'E / S (> 64 Ko) lors de l'écriture dans l'Extent Store (SSD + HDD). Cela inclut
les données drainées de oplog ainsi que les données séquentielles qui le sautent.
La compression hors ligne écrit initialement les données dans un état non compressé,
puis exploite le framework Curator pour compresser les données à l'échelle du
cluster. Lorsque la compression en ligne est activée mais que les opérations d'E / S
sont de nature aléatoire, les données sont écrites non compressées dans l'oplog,
fusionnées, puis compressées en mémoire avant d'être écrites dans le magasin étendu.
Nutanix exploite LZ4 pour la compression initiale des données, ce qui offre un très
bon mélange entre compression et performances. Pour les données froides, Nutanix
utilise LZ4HC pour fournir un taux de compression amélioré.
Comparaison des techniques de compression
Compression en ligne
Données compressées au fur et à mesure qu'elles sont écrites
LZ4, un algorithme de compression extrêmement rapide
Compression post-traitement (hors ligne)
Les données sont compressées après un délai configuré
Utilise initialement la compression Lz4
Données froides recompressées avec LZ4HC, une version haute compression de
l'algorithme LZ4
Aucun impact sur le chemin d'E / S normal
Idéal pour les charges de travail par lots à accès aléatoire
Charges de travail et déduplication / compression
Bien que la déduplication et la compression optimisent l'utilisation de la capacité de
stockage, il est important de comprendre quels cas d'utilisation et charges de travail en
bénéficient le plus.
Environnements adaptés à la compression
La compression des données a tendance à être plus efficace que la déduplication pour réduire
la taille des informations uniques, telles que les images, l'audio, les vidéos, les bases de
données et les fichiers exécutables.
Environnements moins adaptés à la compression
Les charges de travail qui mettent fréquemment à jour les données (par exemple, les
applications virtualisées pour les utilisateurs expérimentés, telles que la CAO) ne sont pas de
bons candidats pour la compression.
Environnements adaptés à la déduplication
La déduplication est plus efficace dans les environnements qui ont un degré élevé de données
redondantes, comme l'infrastructure de bureau virtuel ou les systèmes de sauvegarde de
stockage.
Environnements moins adaptés à la déduplication
View Composer API for Array Integration (VCAI) snapshots, clones liés: en utilisant les
snapshots Nutanix VCAI, les clones liés ou des approches similaires, les exigences de
stockage pour les VM des utilisateurs finaux sont déjà au minimum. Dans ce cas, la surcharge
de la déduplication l'emporte sur les avantages.
Bonnes pratiques en matière de déduplication et de compression
Raid traditionnel
Goulot d'étranglement par disque unique
Reconstructions lentes
Défini par le matériel
Espace de récupération des pièces de rechange
Codage d'effacement
Maintient la résilience inchangée
Optimise la disponibilité (reconstructions rapides)
Utilise les ressources de l'ensemble du cluster
Augmente la capacité de stockage utilisable
EC-X augmente la capacité effective ou utilisable sur un cluster. Les économies réalisées
après l'activation d'EC-X s'ajoutent à la déduplication et au stockage de compression.
EC-X Traite les données RF2 et RF3 dont les copies principales sont locales et les répliques sont distribuées dans tout le
cluster.
Le codage d'effacement est effectué après le processus et s'appuie sur le cadre MapReduce du
curateur pour la distribution des tâches.
Puisqu'il s'agit d'un cadre de post-traitement, le chemin d'E / S d'écriture traditionnel n'est pas
affecté. Dans ce scénario, les copies principales des données RF2 et RF3 sont locales et les
répliques sont distribuées sur les nœuds de cluster restants.
Lorsque Curator exécute une analyse complète, il trouve les groupes d'extensions éligibles
pour l'encodage. Les groupes d'extensions éligibles doivent être «à froid», ce qui signifie
qu'ils n'ont pas été écrasés pendant une durée définie. Pour les disques virtuels classiques,
cette période est de 7 jours. Pour les disques virtuels instantanés, il s'agit d'un jour.
Une fois que le codage d'effacement a trouvé les candidats éligibles, Chronos distribuera et
ralentira les tâches d'encodage.
Avantages et inconvénients de l'EC-X
Avantages
Augmente la capacité utilisable du stockage RAW.
Augmente potentiellement la quantité de données stockées dans le
niveau SSD.
Les inconvénients
Impact plus élevé (lecture) en cas de panne d'unité / nœud.
Dégrade les performances des modèles d'E / S avec un pourcentage élevé
d'écrasements.
Augmente les frais généraux de calcul
Charges de travail EC-X
Charges de travail recommandées
Charges de travail recommandées pour le codage d'effacement (charges de travail ne
nécessitant pas d'E / S élevées):
Ecrire une fois, lire plusieurs charges de travail (WORM)
o Sauvegardes
o Les archives
o Serveurs de fichiers
o Serveurs de journaux
o Email (selon l'utilisation)
Les charges de travail ne sont pas idéales pour le codage d'effacement
Tout élément exigeant en écriture / écrasement qui augmente la surcharge du stockage
défini par logiciel. Par exemple: VDI, qui est généralement très gourmand en écriture.
Le VDI n'est pas gourmand en capacité grâce au clonage intelligent (les avantages
d'EC-X sont donc minimes).
Un cluster doit avoir un nœud de plus que la taille de bande combinée. Cela permet de
reconstruire les bandes en cas de défaillance d'un nœud.
Exemple: une bande 4/1 doit avoir un minimum de six nœuds.
Le bloc «a» est reconstruit en plaçant les membres de la bande EC-X (b + c + d + P)
sur un nœud qui ne contient pas de blocs de la même bande.
Meilleures pratiques de codage d'effacement
Un cluster doit avoir au moins quatre nœuds pour activer le codage
d'effacement.
N'utilisez pas de codage d'effacement sur des ensembles de données comportant
de nombreux écrasements.
o Idéal
pour les instantanés, les archives de serveurs de fichiers, les
sauvegardes et autres données «froides».
Les performances de lecture peuvent être dégradées lors de scénarios de
défaillance.
Le codage d'effacement est un travail de backend; réaliser des économies peut
prendre du temps.
Affichage de l'optimisation de la capacité globale
Vous pouvez créer, migrer et gérer des machines virtuelles dans les banques de
données Nutanix comme vous le feriez avec toute autre solution de stockage.
Intégration de l'hyperviseur
Réseau AVS
AHV exploite Open vSwitch (OVS) pour tous les réseaux de VM. Prism / aCLI est utilisé
pour configurer la mise en réseau des VM et chaque VMnic est connecté à une interface de
prise OVS. AHV prend en charge les types d'interface réseau VM suivants:
Accès (par défaut)
Trunked
Par défaut, les cartes réseau de machine virtuelle sont créées en tant qu'interfaces d'accès,
similaires à ce que vous verriez avec une carte réseau de machine virtuelle sur un groupe de
ports. Cependant, il est possible d'exposer une interface à ressources partagées jusqu'au
système d'exploitation de la VM.
Stockage AHV
Prism ou aCLI est utilisé pour configurer tout le stockage AHV.
VM vSphere Controller - vSwitchO
Chaque hôte ESXi dispose d'un vSwitch interne qui est utilisé pour la
communication intra-hôte entre le Nutanix CVM et l'hôte. Pour la communication externe et
la connectivité réseau VM, un vSwitch standard (par défaut) ou dvSwitch est utilisé.
Le vSwitch local (vSwitchNutanix) sert à la communication entre le Nutanix CVM et l'hôte
ESXi. L'hôte a une interface VMkernel sur ce vSwitch (vmk1 - 192.168.5.1) et le CVM a une
interface liée à un groupe de ports sur ce commutateur interne (svm-iscsi-pg - 192.168.5.2). Il
s'agit du chemin de communication de stockage principal.
Le vSwitch externe peut être un vSwitch standard ou un dvSwitch. Cela héberge les interfaces
externes pour l'hôte ESXi et CVM ainsi que les groupes de ports exploités par les VM sur
l'hôte. Nutanix exploite l'interface VMkernel externe pour la gestion des hôtes (vMotion,
etc.). Nutanix utilise l'interface CVM externe pour la communication avec d'autres CVM
Nutanix. Vous pouvez créer autant de groupes de ports que nécessaire, en supposant que vous
activiez les VLAN sur le tronc.
VSwitch Nutanix
Les demandes de lecture / écriture de stockage partagé passent par l'hôte ESXi.
L'hôte communique avec CVM via le commutateur virtuel vSwitchNutanix.
L'adhésion au groupe de ports est limitée à CVM et à son hôte.
Ne modifiez pas les paramètres de vSwitchNutanix ou de ses groupes de ports .
Stockage vSphere
Cette convention de dénomination permet l'évolutivité en évitant les conflits de nom
de banque de données lors de la création d'un cluster de deux blocs ou plus.
La banque de données locale est stockée dans la mémoire de l'hôte et vous ne devez
pas l'utiliser pour un stockage supplémentaire.
La VM du contrôleur démarre à partir d'un fichier .iso stocké dans la banque de
données locale, qui analyse tous les périphériques de stockage locaux avant de
localiser les fichiers de démarrage de la VM du contrôleur sur le SATA-SSD.
Tous les autres périphériques de stockage, y compris le périphérique SSD-PCIe, sont
directement connectés au contrôleur VM en tant que périphérique
d'intercommunication PCIe.
Les nœuds du cluster peuvent monter un conteneur Nutanix en tant que banque de
données NFS pour fournir un stockage partagé pour les fichiers VM.
Le nom du volume NFS correspond au nom du conteneur.
Réseau Hyper-V
Dans SCVMM, le réseau est affiché comme un seul commutateur externe. Les deux 10
GbE et 1 GbE sont regroupés en une seule entité.
Le vSwitch externe peut être un commutateur virtuel standard ou un commutateur
logique. Cela héberge les interfaces externes pour l'hôte Hyper-V et CVM, ainsi que
les réseaux logiques et VM exploités par les VM sur l'hôte. L'interface externe vEth est
exploitée pour la gestion des hôtes, la migration en direct, etc. L'interface CVM
externe est utilisée pour la communication avec d'autres CVM Nutanix. Vous pouvez
créer autant de réseaux logiques et VM que nécessaire, en supposant que les VLAN
sont activés sur le tronc.