Le GPFS d'IBM peut faire cela (note : ce n'est pas open-source).
Avec GPFS, vous pouvez créer des disques partagés en réseau (NSD) composés de tout type de stockage en bloc (local ou présenté via iSCSI ou FC, par exemple). Il serait tout à fait possible de créer un système de fichiers GPFS (périphérique) composé de NSDs qui couvrent chaque disque dur de 2 To à travers vos 100 serveurs.
Je ne vais pas prétendre me rappeler tous les chiffres de marketing fous, mais GPFS est l'un des systèmes de fichiers en cluster les plus populaires pour les supercalculateurs dans la liste des "Top 500" car il prend en charge des volumes de données extrêmement importants et des E/S parallèles incroyablement élevées. Wikipedia a quelques chiffres.
GPFS peut répliquer des blocs de données et de métadonnées à travers le système de fichiers. Lorsque vous créez vos NSDs, vous définissez un "groupe de défaillance", vous le faites de sorte que GPFS ne fait pas écrire vos copies de bloc ailleurs (c'est-à-dire, vous ne voulez pas que les deux copies de votre bloc soient dans le même groupe de défaillance). Vous pouvez également classer le stockage en utilisant leur concept de "pools de stockage", à travers lequel vous pouvez définir un comportement comme...les fichiers consultés la semaine dernière résident sur mon Fusion IO ou SSD, mais après cela déplacer les blocs vers un stockage moins cher.
Tous les nœuds de votre cluster auraient accès à un périphérique (comme /dev/gpfs0) qu'ils pourraient monter et accéder comme si l'ensemble du système de fichiers était local à chaque nœud. Vous avez mentionné NFS; cependant, dans ce modèle, il n'est pas nécessaire d'introduire le protocole supplémentaire sauf si vous avez des systèmes en dehors du cluster de 100 nœuds qui agissent en tant que consommateurs/clients des données et que vous ne souhaitez pas les rendre clients/serveurs NSD de GPFS (en chargeant le module noyau GPFS). Cependant, vous pouvez facilement exporter des systèmes de fichiers GPFS via NFS et même utiliser Clustered-NFS (CNFS) si nécessaire.
- Je ne travaille pas pour IBM, mais j'ai joué un peu avec GPFS et j'ai bien aimé.
0 votes
"I/O sera réparti également entre eux" -- Gardez à l'esprit qu'une solution distribuée nécessitera une bande passante entre les serveurs distribués (par exemple, l'hôte 1 devra avoir une certaine connaissance de l'activité provenant de l'hôte 2 à l'hôte 100). Cette bande passante n'est pas négligeable.