6 votes

Grand système de fichiers?

Supposez que l'on dispose de 100 machines (chacune avec un disque dur de 2 To), toutes connectées en réseau.

Existe-t-il un moyen (sous Linux) d'unir cet espace disque combiné de 200 To dans un seul dossier, qui peut être partagé via NFS entre toutes les machines du réseau?

En suivant cette voie, toutes les machines pourront lire/écrire dans le même dossier, et de cette manière, les E/S seront réparties de manière égale entre elles. Est-ce une bonne idée si l'on a besoin d'un grand système de fichiers pour stocker des centaines de To de données? (note : les données seront divisées en de nombreux fichiers plus petits, d'une taille d'environ 500 Go chacun).

Existe-t-il une solution clé en main (de préférence open source) qui permette de réaliser cela?

0 votes

"I/O sera réparti également entre eux" -- Gardez à l'esprit qu'une solution distribuée nécessitera une bande passante entre les serveurs distribués (par exemple, l'hôte 1 devra avoir une certaine connaissance de l'activité provenant de l'hôte 2 à l'hôte 100). Cette bande passante n'est pas négligeable.

7voto

Deux options qui viennent à l'esprit sont GlusterFS et Hadoop HDFS.

0 votes

Merci; des mots d'info sur la différence d'installation / maintenance de GlusterFS par rapport à Hadoop?

1 votes

Je n'ai pas utilisé HDFS; je pense que cela conviendrait bien si vous utilisez déjà Hadoop pour le traitement parallèle des données. Gluster semble plus correspondre à ce que vous recherchez -- un NAS distribué, en effet.

0 votes

Génial; est-ce difficile à installer? quand on veut ajouter un autre nœud à l'image, quel est le surcoût?

4voto

David Pike Points 272

Le GPFS d'IBM peut faire cela (note : ce n'est pas open-source).

Avec GPFS, vous pouvez créer des disques partagés en réseau (NSD) composés de tout type de stockage en bloc (local ou présenté via iSCSI ou FC, par exemple). Il serait tout à fait possible de créer un système de fichiers GPFS (périphérique) composé de NSDs qui couvrent chaque disque dur de 2 To à travers vos 100 serveurs.

Je ne vais pas prétendre me rappeler tous les chiffres de marketing fous, mais GPFS est l'un des systèmes de fichiers en cluster les plus populaires pour les supercalculateurs dans la liste des "Top 500" car il prend en charge des volumes de données extrêmement importants et des E/S parallèles incroyablement élevées. Wikipedia a quelques chiffres.

GPFS peut répliquer des blocs de données et de métadonnées à travers le système de fichiers. Lorsque vous créez vos NSDs, vous définissez un "groupe de défaillance", vous le faites de sorte que GPFS ne fait pas écrire vos copies de bloc ailleurs (c'est-à-dire, vous ne voulez pas que les deux copies de votre bloc soient dans le même groupe de défaillance). Vous pouvez également classer le stockage en utilisant leur concept de "pools de stockage", à travers lequel vous pouvez définir un comportement comme...les fichiers consultés la semaine dernière résident sur mon Fusion IO ou SSD, mais après cela déplacer les blocs vers un stockage moins cher.

Tous les nœuds de votre cluster auraient accès à un périphérique (comme /dev/gpfs0) qu'ils pourraient monter et accéder comme si l'ensemble du système de fichiers était local à chaque nœud. Vous avez mentionné NFS; cependant, dans ce modèle, il n'est pas nécessaire d'introduire le protocole supplémentaire sauf si vous avez des systèmes en dehors du cluster de 100 nœuds qui agissent en tant que consommateurs/clients des données et que vous ne souhaitez pas les rendre clients/serveurs NSD de GPFS (en chargeant le module noyau GPFS). Cependant, vous pouvez facilement exporter des systèmes de fichiers GPFS via NFS et même utiliser Clustered-NFS (CNFS) si nécessaire.

  • Je ne travaille pas pour IBM, mais j'ai joué un peu avec GPFS et j'ai bien aimé.

1 votes

Merci; Je préfère vraiment une solution open source pourtant

3voto

MayesH Points 11

Je n'ai pas encore eu l'occasion de jouer avec, donc je ne peux pas donner un avis complet, mais je dirais de jeter un coup d'œil aux trucs sur le cloud Openstack -> http://www.openstack.org/projects/storage/

2voto

ninjalj Points 245

Vous voulez probablement quelque chose comme PVFS.

2voto

Peteter Points 448

Il y a une liste complète sur Wikipedia.

1 votes

Il serait préférable de relier directement les "systèmes de fichiers distribués parallèles tolérants aux pannes".

SistemesEz.com

SystemesEZ est une communauté de sysadmins où vous pouvez résoudre vos problèmes et vos doutes. Vous pouvez consulter les questions des autres sysadmins, poser vos propres questions ou résoudre celles des autres.

Powered by:

X