NAS BigData, le stockage (presque) sans limites

par Vincent Roubaty, groupe production & systèmes, Ci-UNIL

Le projet NAS BigData ou comment stocker des données informatiques avec l’infini comme horizon (ou presque).


© GP – Fotolia.com

Vous avez dit BigData ?

Nous recevons régulièrement des demandes de membres de l’UNIL qui ont besoin d’espace disque réseau. La technologie que nous utilisons actuellement ne permet pas de les satisfaire toutes, et la solution de stockage centralisé qui tourne actuellement dans nos datacenters arrive en fin de vie. L’heure est donc au changement. Il nous faut voir plus grand, et trouver une technologie qui permette de faire croître les performances à chaque fois que le volume stocké augmente, sans faire de concessions au niveau de la sécurité des données. Le tout à un prix raisonnable, afin de pouvoir augmenter régulièrement la capacité. C’est ainsi qu’est né le projet BigData qui vise à changer d’échelle, à passer du téra au péta (imaginez plusieurs milliers de disques durs n’en former plus qu’un…).

NAS, SAN : Késako ?

Un NAS est l’acronyme de Network Attached Storage qu’il ne faut pas confondre avec le SAN  ou Storage Aera Network

  • le NAS offre aux utilisateurs des espaces de stockage accessibles par un protocole (CIFS, NFS, AFP,…)
  • le SAN offre des espaces disques (LUN = Logical Unit Number) directement connectés à des serveurs au travers d’une carte dédiée. Ces espaces disques sont vus comme des disques supplémentaires par les serveurs.

NAS Actuel

Le stockage est assuré par le NAS NS80 situé à l’Amphimax. Il offre un volume de stockage de 66 TB en production et 88 TB en archives. Il est composé de 4 nœuds (Server_x) avec 3 nœuds actifs et un nœud stanby qui est chargé de reprendre la fonctionnalité d’un nœud défaillant. Un mécanisme (FMA) permet sur demande de déplacer les données depuis les pools de production vers le pool Archives selon des règles paramétrables et permet ainsi de réduire le volume de données de production.


Offre de stockage NAS actuelle au Ci

La sécurisation des données est assurée au moyen d’images quotidiennes de l’état des données (snapshot) et par la réplication toutes les 15 minutes des données vers un second NAS (NS480) situé à l’Internef. De plus une sauvegarde quotidienne (backup NDMP) est effectuée sur les données de production et mensuellement sur les données d’archives.

Ce système offre une bonne fiabilité (peu de coupures de services) et une très bonne isolation des données (serveurs CIFS distincts) mais la taille maximale d’un filesystem est limitée à 16 TB. D’autre part, ce système est en bout de vie et saturé (les pools sont à plus de 80% d’utilisation).

NAS BigData

3 demandes de stockage d’importants volumes de données ont été adressées au Ci, représentant un volume total d’au moins 145 TB pour fin 2012  :

Demandeur Volume estimé
BCUL stockages des 250 ans d’archives du 24Heures 50 TB, puis 100 TB à fin 2012
FBM stockage d’image de microscopie pour l’Electron Microscopy Facility 15 TB
FBM stockage d’images pour le Département de génétique médicale 30 TB

 

Le Ci a donc demandé des offres à plusieurs constructeurs. Toutes les solutions proposées répondaient à nos souhaits, mais une seule le NAS Isilon d’EMC y apportait en plus une ouverture permettant une vision à long terme. En effet, chaque solution consistait en un nombre de nœuds fixes auxquels sont ajoutés des baies de stockage. Avec ces solutions scale-up, l’ajout continuel de nouvelles baies de stockages à un nombre de nœuds fixes provoque à terme une baisse de la performance puisque toute la puissance concentrée doit servir plus d’espace disque. Une augmentation de performance n’est possible que par l’échange de nœud par des nœuds plus performants.

Le système Isilon est une solution scale-out : à savoir que chaque nœud contient de la performance et du stockage. A chaque ajout de nœud Isilon, du stockage et de la performance sont ajoutés au NAS.


Scale-out vs Scale-up

Le choix s’est porté sur un cluster EMC ISILON composé de 3 nœuds IQ72NL, avec chacun 36 disques SATA 2 TB. Ce qui représente une capacité brute totale de 216 TB et une capacité nette totale de 120 TB selon le degré de protection choisi. Il n’y a qu’un seul filesystem appelé OneFS, ce qui supprime les limites dues à la taille du filesystem. Un second cluster identique est utilisé comme système de réplication afin de permettre une sécurisation des données.


NAS Isilon

Il existe plusieurs types de nœuds Isilon orientés :
– stockage (série NL),
– intermédiaire (série X)
– ou performance (série S),
équipés de disques SATA, SAS ou même SSD. Ces différents types de nœuds peuvent être mixés ensembles. Le nombre maximum de nœuds est actuellement de 144 nœuds, qui représentent une capacité brute totale de 15 PB (pétabytes), ce qui représente 15’000 disques dur de grande capacité !

Un mécanisme d’archivage (multitiering) automatique peut être mis en place dans un environnement avec des nœuds de séries différentes permettant le déplacement des données peu accédées des disques rapides vers sur des disques plus lents.

Sécurisation des données

En interne au cluster, les données seront sécurisées au moyen du mécanisme de protection qui copie les données plusieurs fois à des endroits différents. Nous avons opté pour le mode N+2 :1 (équivalent à du RAID DP== RAID Dual Parity) permettant de perdre 2 disques simultanément par nœud ou un nœud complet.

Des snapshots (image des données) effectués 2 fois par jour et conservés 3 mois, permettront de pouvoir récupérer des données jusqu’à 3 mois sur le NAS Primary et jusqu’à une année sur le NAS Secondary. Les données du premier cluster installé à l’Amphimax seront répliquées de manière asynchrone (toutes les 60 minutes) vers le second cluster situé à l’Internef.

Backup

Si nécessaire, il est possible de sauvegarder une partie des données sensibles avec notre système Networker. Mais ce dernier n’est pas dimensionné pour absorber de tels volumes. Il faut donc adopter une solution de sécurisation de données composée uniquement des snapshots et de la réplication sur un second NAS. Mais les solutions de sauvegarde évoluent elles aussi et pourront à terme grâce à des sauvegardes incrémentielles continues ou de la déduplication, absorber d’importants volumes de données.

Vers l’infini et au-delà

Il y a 4 ans, le NAS NS80 offrait 5.1 TB de volume total. Aujourd’hui, le volume total est de 126 TB, soit une multiplication d’un facteur de 25, représentant une progression de 2470 % (à faire rêver des actionnaires…).

Aujourd’hui, le NAS Isilon apporte une nouvelle dimension puisque son volume initial de 120 TB pourrait être augmenté jusqu’à 15 PB.

Et demain, il est certain que vu l’explosion du volume de données, on parlera encore de NAS à l’UNIL. Alors, « Big is beautiful, isnt’it ? »

Partager: Share on FacebookTweet about this on TwitterShare on LinkedInEmail this to someone