6 votes

Un système de fichiers énorme ?

Supposons que l'on dispose de 100 machines (chacune avec un disque dur de 2 To), toutes connectées en réseau.

Existe-t-il un moyen (sous Linux) de réunir ces 200 To d'espace disque en un seul dossier, qui peut être partagé par NFS entre toutes les machines du réseau ?

En procédant de cette manière, toutes les machines pourront lire/écrire dans le même dossier, et de cette façon, les entrées/sorties seront réparties équitablement entre elles. Est-ce une bonne idée si l'on a besoin d'un grand système de fichiers pour stocker des centaines de To de données ? (note : les données seront divisées en plusieurs fichiers plus petits, d'une taille d'environ 500 Go chacun).

Existe-t-il une solution prête à l'emploi (de préférence un logiciel libre) qui permette d'atteindre cet objectif ?

7voto

Les deux options qui me viennent à l'esprit sont GlusterFS y Hadoop HDFS .

4voto

David Pike Points 272

IBM GPFS peut le faire (note : pas open-source).

Avec GPFS, vous pouvez créer des disques partagés en réseau (NSD) composés de tout type de stockage en bloc (local ou présenté via iSCSI ou FC, par exemple). Il serait tout à fait possible de créer un système de fichiers GPFS (périphérique) composé de NSD qui couvrent chaque disque dur de 2 To sur vos 100 serveurs.

Je ne prétends pas me souvenir de tous les chiffres marketing farfelus, mais GPFS fait partie des systèmes de fichiers en cluster pour superordinateurs les plus populaires de la liste "Top 500" car il prend en charge des volumes de données extrêmement importants et des E/S parallèles incroyablement élevées. Wikipedia a quelques chiffres.

Le GPFS peut répliquer les blocs de données et de métadonnées dans le système de fichiers. Lorsque vous créez vos NSD, vous définissez un "groupe de défaillance", afin que GPFS n'écrive pas vos répliques de bloc ailleurs (autrement dit, vous ne voulez pas que les deux copies de votre bloc se trouvent dans le même groupe de défaillance). Vous pouvez également hiérarchiser le stockage en utilisant leur concept de "pools de stockage", grâce auquel vous pouvez définir un comportement tel que... les fichiers accédés au cours de la dernière semaine vivent sur mes disques Fusion IO ou SSD, mais après cela, déplacez les blocs vers un stockage moins cher.

Tous les nœuds de votre cluster auraient accès à un périphérique (comme /dev/gpfs0) qu'ils pourraient monter et auquel ils pourraient accéder comme si le système de fichiers entier était local à chaque nœud. Vous avez mentionné NFS ; dans ce modèle, il n'est toutefois pas nécessaire d'introduire ce protocole supplémentaire, sauf si vous avez des systèmes en dehors du cluster de 100 nœuds qui agissent en tant que consommateurs/clients des données et que vous ne souhaitez pas en faire des clients GPFS/serveurs NSD (en chargeant le module GPFS du noyau). Cependant, vous pouvez trivialement exporter des systèmes de fichiers GPFS via NFS et même tirer parti de Clustered-NFS (CNFS) si nécessaire.

  • Je ne travaille pas pour IBM, mais j'ai joué un peu avec GPFS et je l'ai apprécié.

3voto

MayesH Points 11

Je n'ai pas encore eu l'occasion de jouer avec, donc je ne peux pas donner un avis complet, mais je dirais qu'il faut jeter un coup d'oeil aux trucs de nuage d'Openstack ->. http://www.openstack.org/projects/storage/

2voto

ninjalj Points 245

Vous voulez probablement quelque chose comme PVFS .

2voto

Peteter Points 448

Il existe un liste complète sur Wikipedia.

SistemesEz.com

SystemesEZ est une communauté de sysadmins où vous pouvez résoudre vos problèmes et vos doutes. Vous pouvez consulter les questions des autres sysadmins, poser vos propres questions ou résoudre celles des autres.

Powered by:

X