IBM GPFS peut le faire (note : pas open-source).
Avec GPFS, vous pouvez créer des disques partagés en réseau (NSD) composés de tout type de stockage en bloc (local ou présenté via iSCSI ou FC, par exemple). Il serait tout à fait possible de créer un système de fichiers GPFS (périphérique) composé de NSD qui couvrent chaque disque dur de 2 To sur vos 100 serveurs.
Je ne prétends pas me souvenir de tous les chiffres marketing farfelus, mais GPFS fait partie des systèmes de fichiers en cluster pour superordinateurs les plus populaires de la liste "Top 500" car il prend en charge des volumes de données extrêmement importants et des E/S parallèles incroyablement élevées. Wikipedia a quelques chiffres.
Le GPFS peut répliquer les blocs de données et de métadonnées dans le système de fichiers. Lorsque vous créez vos NSD, vous définissez un "groupe de défaillance", afin que GPFS n'écrive pas vos répliques de bloc ailleurs (autrement dit, vous ne voulez pas que les deux copies de votre bloc se trouvent dans le même groupe de défaillance). Vous pouvez également hiérarchiser le stockage en utilisant leur concept de "pools de stockage", grâce auquel vous pouvez définir un comportement tel que... les fichiers accédés au cours de la dernière semaine vivent sur mes disques Fusion IO ou SSD, mais après cela, déplacez les blocs vers un stockage moins cher.
Tous les nœuds de votre cluster auraient accès à un périphérique (comme /dev/gpfs0) qu'ils pourraient monter et auquel ils pourraient accéder comme si le système de fichiers entier était local à chaque nœud. Vous avez mentionné NFS ; dans ce modèle, il n'est toutefois pas nécessaire d'introduire ce protocole supplémentaire, sauf si vous avez des systèmes en dehors du cluster de 100 nœuds qui agissent en tant que consommateurs/clients des données et que vous ne souhaitez pas en faire des clients GPFS/serveurs NSD (en chargeant le module GPFS du noyau). Cependant, vous pouvez trivialement exporter des systèmes de fichiers GPFS via NFS et même tirer parti de Clustered-NFS (CNFS) si nécessaire.
- Je ne travaille pas pour IBM, mais j'ai joué un peu avec GPFS et je l'ai apprécié.